2010年12月29日 星期三

『統計 Versus資料探勘』之我見


昨天在床上看論文第二章文獻探討要用的英文期刊,一時煩悶下就拿了本【科學人雜誌(105)】來看!其中有一篇短文「失之毫釐,差以千里」,講得是統計抽樣誤差的問題,內容是說美國在調查軍中同性戀的比例,因此進行軍中同性戀的調查。這直覺看起來好像沒有問題,可是卻會導致情況為真(異性戀)但被誤認為假(同性戀)的型一誤大於情況為假(同性戀)但被誤認為真(異性戀)的型二誤高的統計問題,就是所謂的非對稱性族群數目,或稱類別資料不平衡(class-imbalanced)的問題。一時之間突然想到曾在第132號數學傳播季刊看到的一篇統計思維文章,以及同學在上資料探勘之時常會詢問的問題-「統計跟資料探勘差在哪裡?」

肥蝦不是一個專業的統計學家或者專研資料探勘的學者,因此一些想法並不一定正確,但寫此文的目的只想拋磚引玉,順便也能確認自己的思維與認知是否正確!

【數學傳播季刊】統計思維乙文的作者為黃文璋教授,任教於高雄大學應用數學系,是一個聲譽卓著、著作等身的統計專家。該文除了詳細說明統計的觀念之外,對於一些重要的概念更是旁徵博引一些文學典故,一文讀來有讓人不忍釋手之快。文章一開頭就引用了馬克吐溫的名言:「There are three kinds of lies: lies, damned lies, and statistics.(有三種類型的謊言:謊言、可惡的謊言跟統計。)文中也說明統計能達到的作用:(1)在允許誤差下的機率保證。(2)允許誤差下的無罪推定。因此機率跟誤差是為統計學裏的兩大支柱,黃教授並根據統計學的六項要點─善用資訊、了解變異、相信機率、合理估計、無罪推定、紙上談兵─逐一說明。本文可說是字字珠璣,要肥蝦寫出心得,真得就只能把文章照抄一遍了!

關於資料探勘這門較之統計,完全可說是一門新興學問的學門而言,肥蝦也只修過劉育津老師的一學期課程,所知實在非常有限!但還是自言不慚的將自己的想法與心得班門弄斧一下。資料探勘在維基百科中的解釋為:「a branch of computer science and artificial intelligence, is the process of extracting patterns from data. Data mining is seen as an increasingly important tool by modern business to transform data into business intelligence giving an informational advantage.」這裡也僅僅是概要的說明它是計算機科學與人工智慧的一支,是一個從資料中萃取型態的程序。在Jiawei HanMicheline KamberJian Pei所著【Data Mining: Concepts and Techniques】一書中說:「Simply stated, data mining refers to extracting or "mining" knowledge from large amounts of data.」意即從大量資料中萃取或挖掘出知識。

由於資料探勘與統計在某些方法或名詞上非常接近,甚至相同,因此常讓人容意混淆。比如,維基百科上說的資料探勘一般包括四項工作:Clustering(叢集)Classification(分類)Regression(迴歸)Association rule learning(關聯)這四者在推論統計中也是常見的名詞;更甚者,在一些統計概念的介紹資料中也把資料探勘置於統計學範疇領域之內。

在修讀肥蝦的指導老師劉育津教授的資料探勘的課堂上,老師也引了Berry and Linoff1997年所著的【Data Mining Techniques: for Marketing, Sales, and Customer Support】的文句,渠等認為一般分析報告是提供了「後見之明」(hindsight) ,統計分析提拱了「先機」(foresight) ,而資料探勘則提供了「洞察力」(insight) ,也就是資料探勘能看到事件中所隱藏的訊息。但在經濟新潮社出版李弘元先生所翻譯日本岡嶋 裕史所著的【從資料中挖金礦】一書中對於統計與資料探勘有一段概略分別的說明:「統計分析的學問體系是在資料成本很高的時代被建立的。那是一種嘗試以最少的資料量,來探索世界的學問體系。反觀在資訊爆炸的現在,資訊便宜且唾手可得。以往不能或無法當作分析對象的資料都變得可以處理,也就是擴大了可處理對象的範圍,同時,分析的深度也得以增加。」因此「資料探勘的本質不在於技巧的翻新,而在於準備資料的質與量上。」

就以上的看法,肥蝦以為,兩者的重點在於因為資料的來源與數量,因此有著理論上的差距。想想現在正在進行的人口普查,如果是普查獲得的實際資料,那就不用在基於受限於資料源,而運用機率與假設,進行統計的抽樣。因此資料量與代表性就是兩者學門間的差異所在。但在這要澄清的一點是,如果我們是以台北市的所有人口普查資料來推測全台地區的某些現況或趨勢,這不管是就統計方法或是利用資料探勘,在都有利用部分(樣本)來推測全部(母體)的問題。當然,用台北市來推估台灣,就肥蝦認為,這實在是一個很差勁的方式,所導致的錯誤是明顯可見的。

但是,如果把母體是放在特X屋的上月銷售狀況,然後想知道上月中最暢銷商品間的關係,如果我們礙於資料的取得成本,是抽樣的取幾家分店的銷售資料;跟使用公司資料庫內存放所有分店的上月所有完整銷售明細資料,那在學理與方法上就應該有些不同。統計上需先假設或預設一些情境或認知,比如要抽取那幾家分店,那負責的人員可能會基於自身的經驗與知識,選擇以往月營收為全分店平均值的店面;但是資料探勘就沒有這個問題,反正我是處理所有分店的資料。如果在此情況下,有人用資料探勘出的趨勢或規則,再佐以統計去驗證,那就好像都知道你一家所有人的月收入後,再考慮用一家中父親的收入來驗證全家人的收入是否正確!這在理論上跟實際上都是矛盾的。那如果是要預測下個月的情況是否與上個月一樣,那不管上月的規則是從統計、或者資料探勘中得出,這都有不確定性的問題。

因此肥蝦把統計跟資料探勘看成是,統計是先認知出特定規則再進行驗證;資料探勘是先找出所有可能,再行就可能中認知出規則。那至於是統計好,或是資料探勘好?那還是取決於成本!你所要瞭解表象背後事實可能的效益與找出這事實可能成本間的比較!那為何是事實可能呢?因為不管是統計或是資料探勘,在絕大多數的情況下,還是多少有一點認知跟主觀的問題,除了上帝之外沒人知道表象後的真正事實!現在在量子力學的架構中,可能上帝也無法事先確知事實的結果了。

沒有留言:

張貼留言