1分鐘愛上管理學(xué):為什么尿布和啤酒放在一起賣?

2012/05/02 06:17      姚余梁

知識(shí)點(diǎn)·數(shù)據(jù)挖掘 (Data Mining)

我們正處在一個(gè)信息大爆炸的年代,主要表現(xiàn)在大量信息的產(chǎn)生并以數(shù)字化的方式被記錄下來。之所以會(huì)有信息大爆炸,一個(gè)主要的原因是信息技術(shù)的成本大幅下降并且迅速廣泛普及。10年前,一臺(tái)個(gè)人電腦的硬盤大概也就是1GB大小,今天硬盤的大小都用幾百GB甚至TB(1TB=1024GB)來衡量了,而價(jià)錢基本上沒有變化。正是信息技術(shù)的普及造就了信息大爆炸的年代。信息多了,是好事兒,也是壞事兒。好事兒呢,是因?yàn)樾畔⒖梢詭椭藗兏玫貨Q策;壞事兒呢,是因?yàn)樾畔⑻嗔?,如何找到有用的信息又變成了一件難題。

大海撈針,出自明代戲曲作家王錂的《春蕪記·定計(jì)》:“覓利如大海撈針,攪禍似干柴引火。”你想想,大海有多大、多深、多廣闊,而一根針又是多么細(xì)微和渺小,要想在廣闊的大海里找到一根針,是一件不可能完成的任務(wù)。在今天的信息大爆炸年代,代表信息的數(shù)據(jù)就好像大海,廣闊無邊,而要在這廣闊的大海里找到想要的某一條信息,也確實(shí)是一件很難的事情。所以說,大海撈針的“撈”其實(shí)很形象地刻畫了數(shù)據(jù)挖掘的過程。

簡(jiǎn)而言之,數(shù)據(jù)挖掘就是從存放在數(shù)據(jù)庫中的大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的過程。這個(gè)定義說出了數(shù)據(jù)挖掘的四個(gè)基本特征:一是有效;二是新穎;三是有用;四是可理解。這四個(gè)基本特征缺少一個(gè)就不是嚴(yán)格意義上的數(shù)據(jù)挖掘。“有效”是指數(shù)據(jù)挖掘過程所使用的方法是正確的,無論用統(tǒng)計(jì)抽樣、假設(shè)檢驗(yàn),還是人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)等方法,都要是正確地使用。“新穎”是指數(shù)據(jù)挖掘結(jié)果是意想不到的、事先不知道的,如果是已經(jīng)知道的,還費(fèi)那么大的力氣去挖掘什么呢。“有用”是指數(shù)據(jù)挖掘結(jié)果可以用來指導(dǎo)公司決策,否則,費(fèi)了九牛二虎之力挖掘出來的東西豈不都是垃圾。“可理解”是指數(shù)據(jù)挖掘結(jié)果能夠用常識(shí)或理論解釋,如果解釋不了,那么這個(gè)結(jié)果很可能是碰巧得來的。這次碰巧得到了,不知道下次還能不能碰上,這樣的結(jié)果使用價(jià)值也不大。

數(shù)據(jù)挖掘的應(yīng)用之一就是關(guān)聯(lián)規(guī)則,通過對(duì)大量數(shù)據(jù)的分析,找到兩個(gè)或幾個(gè)總是同時(shí)發(fā)生的事件。對(duì)于關(guān)聯(lián)規(guī)則,有一個(gè)關(guān)于沃爾瑪?shù)膫髡f,之所以說是傳說,是因?yàn)檫@個(gè)故事在商學(xué)院MBA課堂上廣泛流傳,誰也不知道源頭在哪里,到底是不是真的。有一個(gè)學(xué)期,我有幾個(gè)學(xué)生非常較真,做了大量的搜索工作,最后也無法確定這個(gè)故事的源頭和真相,這故事后來就成了一個(gè)謎,反倒更增加了它的吸引力。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠準(zhǔn)確了解顧客在其門店的購買習(xí)慣,沃爾瑪對(duì)其顧客的歷史購物行為進(jìn)行購物籃分析,想知道顧客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫集中了其各門店的詳細(xì)原始交易數(shù)據(jù),在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘,發(fā)現(xiàn)了一個(gè)很有意思的現(xiàn)象:嬰兒尿布和啤酒有很高的相關(guān)度,即跟尿布一起購買最多的商品竟然是啤酒!

不要忘記我們前面說的四個(gè)基本特征。有效?沒問題,沃爾瑪?shù)臄?shù)據(jù)存儲(chǔ)和分析肯定都是正確有效的。新穎?當(dāng)然!在這之前,誰會(huì)想到啤酒和尿布會(huì)是一起購買最多的商品呢?那么,這個(gè)發(fā)現(xiàn)有用么?當(dāng)然有用,這個(gè)發(fā)現(xiàn)可以幫助沃爾瑪商場(chǎng)合理擺放商品。一個(gè)從眾思維的經(jīng)理會(huì)利用這個(gè)發(fā)現(xiàn)把啤酒和尿布擺放到一起,方便顧客購買,這是中規(guī)中矩。但是,一個(gè)有批判思維的經(jīng)理會(huì)覺得把啤酒和尿布擺放得越遠(yuǎn)越好,這樣一來,顧客拿了啤酒就要在商場(chǎng)里穿過別的貨架去拿尿布,這個(gè)過程中可能又看到別的感興趣的但沒準(zhǔn)備買的東西,也裝入購物車,增加了商場(chǎng)的額外收入。最難的應(yīng)該是最后一個(gè)特征,這個(gè)現(xiàn)象可不可以解釋?它是不是一個(gè)純粹的巧合?在把這個(gè)故事講了幾十遍以后,我的學(xué)生們基本上有兩個(gè)解釋。一個(gè)是有了孩子以后,丈夫出去泡酒吧的機(jī)會(huì)少了,只好自己買啤酒在家自酌自飲。另一個(gè)是丈夫工作了一天回家還要照顧孩子,很累,有一些抑郁,于是需要一些酒精的麻醉,借酒澆愁。應(yīng)該說,這兩個(gè)解釋都基本可信。所以,這個(gè)發(fā)現(xiàn)符合四個(gè)基本特征,是一個(gè)典型的數(shù)據(jù)發(fā)掘的應(yīng)用例子。

數(shù)據(jù)挖掘還有一個(gè)有趣的例子,也是關(guān)于沃爾瑪?shù)?,但這個(gè)是真的,不是傳說。沃爾瑪想知道在自然災(zāi)害來臨前,比如颶風(fēng)、龍卷風(fēng)等,顧客都買什么東西。也就是說,想通過數(shù)據(jù)發(fā)掘找到和自然災(zāi)害預(yù)報(bào)相關(guān)的顧客購物習(xí)慣。通過對(duì)其各門店的詳細(xì)原始交易數(shù)據(jù)的挖掘,沃爾瑪確實(shí)發(fā)現(xiàn)了一種商品顧客買得相當(dāng)多,而沃爾瑪以前卻不知道。通常,人們會(huì)猜是電池、水、面包、膠帶等,但是,這些商品和自然災(zāi)害的相關(guān)性還用數(shù)據(jù)挖掘嗎?根本不用!人人都知道自然災(zāi)害來臨前要買這些東西,所以他們不構(gòu)成新穎的特征。沃爾瑪發(fā)現(xiàn)一種新穎的商品——高糖壓縮餅干。仔細(xì)一想,這個(gè)也好理解,如果自然災(zāi)害真的很嚴(yán)重,把人在地下室困上幾個(gè)星期的話,面包早就壞了,而高糖壓縮餅干,別說幾個(gè)星期,就是幾個(gè)月甚至幾年,都沒問題,并且高糖壓縮餅干體積小、易攜帶。那么,沃爾瑪如何利用這條數(shù)據(jù)挖掘結(jié)果呢?很容易,每次有自然災(zāi)害預(yù)報(bào)的時(shí)候(比如颶風(fēng)要來了),它就要保證店面里有充足的高糖壓縮餅干供應(yīng),不要脫銷。

那么是不是有的時(shí)候數(shù)據(jù)挖掘的結(jié)果無法解釋呢?當(dāng)然有。好萊塢著名女星安妮·海瑟薇(Anne Hathaway)的姓和華爾街投資家巴菲特的公司其名稱的后一個(gè)詞一模一樣,都叫“Hathaway”,一個(gè)叫Anne Hathaway,一個(gè)叫Berkshire Hathaway。有好事者做了一個(gè)數(shù)據(jù)挖掘,發(fā)現(xiàn)如下有趣現(xiàn)象:

● 2008年10月3日,《Rachel Getting Married》首映;同天,巴菲特公司的股票(BRK.A)上漲0.44%;

● 2009年1月5日,《Bride Wars》首映;同天,巴菲特公司的股票(BRK.A)上漲2.61%;

● 2010年2月8日,《Valentines Day》首映;同天,巴菲特公司的股票(BRK.A)上漲1.01%;

● 2010年3月5日,《Alice in Wonderland》首映;同天,巴菲特公司的股票(BRK.A)上漲0.74%;

● 2010年11月24日,《Love and Other Drugs》首映;同天,巴菲特公司的股票(BRK.A)上漲1.62%;

● 2010年11月29日,安妮·海瑟薇被選為奧斯卡聯(lián)合主持人;同天,巴菲特公司的股票(BRK.A)上漲0.25%。

每當(dāng)好萊塢著名女星安妮·海瑟薇的電影上映的那天,或者其他正面消息的那天,巴菲特公司的股票都不同幅度地漲了!新穎不?太新穎了!有用不?太有用了!能解釋不?太難了!有一種可能就是投資者以為巴菲特的公司和好萊塢著名女星安妮·海瑟薇有某種裙帶關(guān)系,所以電影出來的時(shí)候,也就是公司股票利好的消息??蛇@基本不可能,巴菲特的公司股票一股要十幾萬美元,根本就不是普通投資者能買得起的,那些精明的投資公司絕對(duì)不會(huì)笨到不知道巴菲特的公司和好萊塢著名女星安妮·海瑟薇有沒有裙帶關(guān)系的地步。所以可以肯定地說,這是一個(gè)純粹的巧合,沒有任何的因果關(guān)系。解釋不了,就不是數(shù)據(jù)挖掘。

相關(guān)閱讀