美國二手車大數(shù)據服務商Carfax如何消滅“檸檬市場”?
[ 億歐導讀 ]“檸檬車”通常用來形容有人買了一輛二手車后才發(fā)現(xiàn)其中有缺陷,讓人覺得像吃了檸檬后那種酸酸澀澀的難受的感覺。Carfax是一家美國中型電子商務與二手車大數(shù)據公司,其主要業(yè)務是通過互聯(lián)網消費者提供二手車估值報告。
編者注:本文節(jié)選自《實戰(zhàn)大數(shù)據:DT時代智能組織工作方法》(中信出版集團)一書。原文作者江曉東曾是Carfax創(chuàng)新核心項目的一員。本文主要以Carfax作為大數(shù)據業(yè)務應用創(chuàng)新成功的案例,介紹一個兩人團隊是如何從確認和收集小數(shù)據開始,直到做出壟斷歐美二手車市場的大數(shù)據產品全過程。
消滅“檸檬車”
美國經濟學家喬治·阿克爾洛夫1970年發(fā)表的一篇著名的學術論文《檸檬市場:質量不確定性和市場機制》。阿克爾洛夫在這篇論文中,把二手車市場作為在買賣雙方掌握的信息(數(shù)據)不對稱條件下,導致二手車質量不確定性的一個經典經濟學研究案例。“檸檬車”通常用來形容有人買了一輛二手車后才發(fā)現(xiàn)其中有缺陷,讓人覺得像吃了檸檬后那種酸酸澀澀的難受的感覺。為此,阿克爾洛夫與邁克爾·斯彭斯和約瑟夫·斯蒂格利茨一起分享了2001年的諾貝爾經濟學獎。
Carfax是一家美國中型電子商務與二手車大數(shù)據公司,其主要業(yè)務是通過互聯(lián)網向美國、加拿大和歐洲個人消費者和企業(yè)提供二手車市場上轎車和輕型卡車車史報告。說得通俗點,也就是讓買賣雙方知道他們交易的二手車是否為“檸檬車”并以此作為交易決策依據。
計算機專家巴尼特和會計師羅伯特·克拉克于1984年在美國密蘇里州的哥倫比亞市成立Carfax。該公司成立的初衷,即巴尼特意識到有些車主在出售汽車時惡意回撥汽車里程表。巴尼特和羅伯特·克拉克看到了這個問題的嚴重性及其可能產生的巨大商機,決心用計算機技術來揭穿這種欺詐并以此為契機創(chuàng)立了自己的公司。
到2013年底,這家企業(yè)已擁有800多名員工,各種大數(shù)據產品和服務年產值估計達8億美元。它擁有的車史數(shù)據達110億條,而且每天都在以百萬條的速度增加、更新。這些數(shù)據涵蓋全美國、加拿大和歐洲部分國家公路上行駛的轎車和輕型卡車,包括這些車輛的車主歷史統(tǒng)計、車禍記錄、是否被水淹過、是否被火燒過、是否別人偷來的車、里程表是否被人往回撥過、是否屬于召回檢查或問題車以及日常保養(yǎng)的細節(jié)等等。
如今在美國或加拿大,你買到新車后第三個月,你的汽車注冊信息就會被輸入這家公司的大數(shù)據儲存工場里。然后你的汽車維修、保養(yǎng)、警察報告的車禍等相關信息就會源源不斷地被這家公司收集、歸類,從而形成該車的車史檔案。在北美買賣二手車,無論是個人還是經銷商,Carfax的車史報告是必不可少的重要參考。
確認數(shù)據
無論企業(yè)或個人掌握的技術多先進、多強大,做任何項目,弄清市場需求和業(yè)務用例永遠是第一步。企業(yè)要想知道汽車的里程表是否準確,邏輯上可以這樣實現(xiàn):
在知道了該車出廠時間、歷任車主、每任車主擁有此車時的里程表具體讀數(shù)、該車平常的用途(出租、商用或自駕等用以估計其年平均里程數(shù))等條件后,通過數(shù)據整合,進而估算出該車的大致里程數(shù)。而企業(yè)要獲得這些數(shù)據就必須和多個機構打交道,包括汽車制造商(擁有汽車原始身份信息即車輛識別號碼)、經銷商(汽車身份信息和汽車購買以及銷售時間信息等)及車管所(管理車主注冊數(shù)據包括汽車身份信息、注冊時間、車主信息、車主易手信息)等。例如,一個私家車主,每天正常上下班就在10平方公里范圍內活動,一年下來,年平均里程應該就在1萬公里左右。一輛車如果被開了5年,其間沒有換車主,但里程表顯示只有2萬公里,那么這輛車的里程表很可能就被回撥過。
以下這些簡單的數(shù)據可以用來檢查一輛二手車的車主歷史記錄:
汽車身份證號(VIN)
顏色
種類
系列
車身類型
廠商
數(shù)據類型
使用對象
使用形式
汽車購進日期
汽車賣出日期
里程表讀數(shù)
數(shù)據記錄日期
帶著這個理念和所需要的數(shù)據要求,Carfax兩位創(chuàng)始人開始上路了。
收集數(shù)據
收集和獲取大數(shù)據一般3個途徑,即購買、整合利用現(xiàn)有大數(shù)據,或利用大數(shù)據工具在(移動)互聯(lián)網和其他數(shù)據源里搜索、截獲所需數(shù)據,以及各種方法的混合使用。
Carfax的兩位創(chuàng)始人帶著自己的創(chuàng)意,信心十足地敲響了擁有汽車數(shù)據的政府服務機構—密蘇里州哥倫比亞市的車管所的大門。可惜巴尼特和羅伯特的首戰(zhàn)失敗,按這個州的法律,除非有法庭介入,任何人都不能輕易獲得車主的隱私信息。
巴尼特和羅伯特·克拉克沒有放棄。他們打聽到密蘇里州當?shù)氐囊恍┢嚱涗N商協(xié)會(屬非營利組織)有部分這方面的數(shù)據,并對他們講的故事感興趣。兩人隨即和這些協(xié)會取得聯(lián)系。由于汽車經銷商協(xié)會是非營利機構,他們對這種數(shù)據要價不高。就這樣,通過改變數(shù)據采購渠道及與這些汽車經銷商協(xié)會的創(chuàng)造性合作,即以購買源數(shù)據和交換數(shù)據的方式,巴尼特建立了簡單的數(shù)據庫并創(chuàng)造出美國歷史上第一個汽車史檔案報告。Carfax與這些協(xié)會通過數(shù)據交換的方式,在免費分享二手車報告的同時,又通過這些協(xié)會向其會員宣傳。很快,當?shù)叵M者在購買二手車時對這個報告的需求就越來越多。
由于Carfax業(yè)務量持續(xù)增加,聲譽和影響逐漸傳出州外,不斷有外州消費者和公司聯(lián)系希望他們也提供相關報告。Carfax開始考慮向全美國推廣這項服務。Carfax這時采取了幾個重大有效的策略,包括雇用職業(yè)律師向各州法院要求各州政府在保護車主個人隱私信息的前提下,允許其開放二手車數(shù)據;雇用職業(yè)游說經理人到法律嚴格的州議會,說服其通過相關法律使各地政府車管所、公路交通安全管理局、警察局和消防局開放其二手車數(shù)據。
在市場推銷方面,公司成功通過“口碑推薦”的營銷方式,將全美各地汽車經銷商協(xié)會逐一攻破。他們以收購和數(shù)據交換的方式,拿到了這些汽車經銷商協(xié)會掌握的所有二手車數(shù)據。美國加州保護消費者隱私的法律比較嚴,他們尋求公開汽車信息數(shù)據遲遲未果,最后只好訴諸法庭,控告加州政府阻撓數(shù)據公開,經過整整4年時間,最終于2004年達成一個雙方都滿意的解決方案。時任州長的施瓦辛格最后在法律文件上簽字,他們獲得夢寐以求的、除去用戶隱私的汽車大數(shù)據,業(yè)務也因此在加州蓬勃展開。
存儲數(shù)據
從接觸汽車數(shù)據開始,Carfax收集到的數(shù)據就有規(guī)則和非規(guī)則兩種:
規(guī)則數(shù)據:一般從可提供規(guī)范數(shù)據的汽車經銷商、保險公司、車行、車管所、警察局等處購得。這些機構有自己的數(shù)據人才和技術,可以按合同把其擁有的數(shù)據做成非常規(guī)范的、Carfax認可的格式,以便Carfax能直接導入自己的數(shù)據庫中儲存。
非規(guī)則數(shù)據:例如大致可以看清車牌號的汽車圖片(被報失竊的汽車,被水淹過的汽車等)、保存在磁卡上的汽車記錄、一大堆從事故車上拆下來的車牌照片、手寫的各種汽車保修單復印件等,Carfax通常是從各種專業(yè)的連鎖汽修店、汽車事故數(shù)據收集網站等地方廉價購得這些數(shù)據。
這些非常規(guī)的數(shù)據才是Carfax競爭獲勝的秘密武器。因為規(guī)范的數(shù)據誰都可以輕易獲取。而這些不規(guī)范的數(shù)據中往往藏有特殊的價值。企業(yè)只有花大量功夫才能把藏在這些數(shù)據里的、有特殊價值的信息挖掘出來。舉個簡單例子,一輛車被偷了,警察不知道,或其被盜記錄還沒有正式記錄在案,而失主把失竊的愛車照片發(fā)布在互聯(lián)網上特定的汽車論壇里了。Carfax通過掃描技術,定期到網上尋找這類信息。他們找到這類圖片后,把其中的車牌號跟相關車管所的車牌號比對,從而獲得這款車的身份號(VIN),再到數(shù)據庫中自動比對其他信息。等到車輛所需的信息完全確認后,這款車就上了Carfax被盜車黑名單。買車的人或車行一查Carfax車史報告就知道這是贓物,不能買。他們每年還通過這種服務幫警察抓盜車賊。
Carfax通常采用以下方法來儲藏這兩種類數(shù)據:
對規(guī)則數(shù)據,采用VMS這種傳統(tǒng)的大型機服務器來儲存各種各樣的原始數(shù)據和報表。優(yōu)點是穩(wěn)定性和可靠性強,不容易被黑客攻擊等。
像其他企業(yè)一樣使用關系數(shù)據庫來存儲規(guī)則數(shù)據。設計開發(fā)自己的Oracle數(shù)據庫和數(shù)據工場及各種數(shù)據集市等。
對不規(guī)則的數(shù)據則用各種大型磁盤、特殊軟件來保存。
隨著時間的推移,這些大量的非規(guī)則數(shù)據積累起來,其價值越來越重要。Carfax擁有的數(shù)據總量也從2002年的兩億條,突飛猛進到2012年的100億條。傳統(tǒng)的關系數(shù)據庫和數(shù)據工場都已經無法有效駕馭這些真正的大數(shù)據了。
經過數(shù)月的評估和爭論后,到2013年春天,企業(yè)高層終于決定放棄原來的老數(shù)據庫平臺和VMS大型機,采用時下流行的、開放源代碼基礎上的文本數(shù)據庫。所有數(shù)據逐步轉入MonoDB的NoSQL數(shù)據庫,同時更新50多個服務器、10幾個超級硬盤和6個節(jié)點。
如今,Carfax從7.6萬個數(shù)據源獲得的海量二手車數(shù)據,無論格式如何,都可以先直接丟進這個新的、超大型數(shù)據庫系統(tǒng)里。他們接著再對源數(shù)據進行清理、整合、重構、重新定義、分門別類、建立新老數(shù)據間關聯(lián)關系,然后把所有大數(shù)據儲存在五個出租場地、跨區(qū)域的超大型數(shù)據(存儲)中心,以便進行下一步的數(shù)據分析、管理和產品設計。這五個大型數(shù)據中心里,其中兩個做內部數(shù)據支持,其他三個中心則對外支持企業(yè)和個人用戶市場。他們同時還額外租用了一個第三方主機托管做數(shù)據備份。這種存儲結構除了大幅度提高數(shù)據存儲的方便性和靈活性外,這三個中心每個承擔約33%的數(shù)據承載量,可以對用戶的搜尋需求提供迅速及時的反應。
管理數(shù)據
儲存大數(shù)據后,如何有效管理大數(shù)據是另外一個挑戰(zhàn)。數(shù)據管理職能往往包括對所獲大數(shù)據的審計、剖析、清洗、分類、更新、模式化、風險管理和用戶權限管理等各項內容。
由于二手車報告上的數(shù)據來自不同的數(shù)據源,企業(yè)對其進行數(shù)據集成和數(shù)據變換是數(shù)據日常管理中至關重要的一環(huán)。在把各方收集到的源數(shù)據通過分辨、確認、清洗、集成、變換和存儲進數(shù)據庫以前,商務分析和管理人士需要對其進行“審計”,即確認供應商提供的數(shù)據是否與其合同承諾的相符,如源數(shù)據數(shù)目是否吻合、格式是否符合期望的標準、數(shù)據可用、不可用的比例如何,源數(shù)據與企業(yè)的商業(yè)用途是否高度相關,源數(shù)據的質量如何,是否有無法辨認的數(shù)字、文字、不完整的汽車事故和保修記錄描述等。
其次是“數(shù)據剖析分析”,即對源數(shù)據進行統(tǒng)計分析,從中發(fā)現(xiàn)諸如有多少數(shù)據可以用在企業(yè)正在進行和未來規(guī)劃的產品中等。
“數(shù)據清洗”工作往往由數(shù)據分析師來完成。他們要檢查所有數(shù)據,看其是否符合基本格式要求,是否含有那些最重要的數(shù)據單位,如車輛識別代號(VIN),跟此汽車相關的重要事件(如重大保修,召回等)、任何事故的日期及其描述記錄等。繼而通過數(shù)據庫程序把符合要求的、可用的數(shù)據提取出來,把可修正的數(shù)據修正好,剩余無法利用的數(shù)據可能會退回數(shù)據供應商。
數(shù)據清洗完成后,數(shù)據分析師就通過軟件程序把數(shù)據輸入數(shù)據庫,并按“公用來源–從政府那里獲得的數(shù)據”和“私有來源–從非政府渠道獲得的數(shù)據”區(qū)分開來?!皵?shù)據分類”的其他方面是把數(shù)據按業(yè)務歸屬、保密屬性、可公開程度、用戶支持和訪問權限等分門別類,從而在需要之時便于搜索查詢和跟蹤其使用情況。隨著企業(yè)通過開發(fā)大數(shù)據進入不同業(yè)務領域的需求日益增加,對海量數(shù)據進行快速分類和關聯(lián)的任務就越來越重要。分類原則和指導方向也會隨著業(yè)務的變化而變化,并由此影響未來數(shù)據庫的設計和更新。
在管理海量數(shù)據時,企業(yè)不同業(yè)務部門會使用和接觸相同的數(shù)據,這些數(shù)據可能會經過計算衍生出新的數(shù)據,由于每個員工來自不同的業(yè)務背景,在用自己熟悉的業(yè)務術語來詮釋這些數(shù)據并進行內部溝通和交流時,為了提高效率和避免溝通中產生歧義,還需要制定企業(yè)內部統(tǒng)一的元數(shù)據規(guī)則和數(shù)據字典。有了這些數(shù)據管理工具,每個員工都可以很清晰地知道到哪里可以找到自己想要的數(shù)據、它們的記錄如何演變、它們的專業(yè)定義如何、它們背后的計算公式是什么、衍生出的邏輯關聯(lián)如何、誰有權可以更改這些數(shù)據等。
數(shù)據模式化是數(shù)據庫管理工作中非常重要的步驟。在掌握了二手車的大量相關數(shù)據后,我們會對其進行分析、抽象,從中找出圍繞著包括汽車身份代號(VIN)、相關核心業(yè)務(如二手車經銷商、保修公司、保險公司、銀行等)在內的各種信息間的關聯(lián)關系,進而確定其數(shù)據庫、數(shù)據工場和數(shù)據集合的架構,通過邏輯和物理建模手段最終創(chuàng)建和實現(xiàn)對應的中央控制或分布式數(shù)據儲存方式。數(shù)據管理的范疇往往包括數(shù)據更新、模型再設計、結構調整、最優(yōu)化、性能調試、報表生成和風險管理等職能。每天輸入數(shù)據庫的這些數(shù)據在經過了一系列的格式化、歸類處理后,就變成了Carfax龐大資產的重要部分。
分析計算數(shù)據
Carfax在面對自己擁有和管理的海量二手車數(shù)據時,如何分析并找出其中的特殊價值?
筆者當年所在的產品研發(fā)團隊主要日常任務就是根據客戶和企業(yè)的戰(zhàn)略規(guī)劃需求,通過數(shù)據分析和計算方法,去驗證來自管理層、市場部和推銷部門的一個個假設,發(fā)現(xiàn)藏在這些數(shù)據背后的模式、數(shù)據鏈關系圖、未知的數(shù)據關聯(lián)性等。
我們起初所有的分析都圍繞一部車的歷史細節(jié),屬于“向后看”式分析。后來,慢慢開始通過數(shù)據的歷史沉淀,在找到相關二手車可靠性和安全性數(shù)據后,結合政府的汽車碰撞試驗數(shù)據,形成了對某些車型及其系列的“安全可靠性”分析,開始朝“向前看”的預測式方向靠近,從而使買主在購買二手車時,可以在參考某類車的歷史和其他綜合指標后,對其未來幾年的使用做最靠譜的判斷,從而做出最明智的購車選擇。
Carfax的數(shù)據分析師和產品團隊成員往往混雜在一起,他們根據具體業(yè)務需求與市場、銷售、運營部門緊密合作,這些都使得以業(yè)務變化為導向的數(shù)據分析更接近市場需求。對于同一部車不同的車史產品供應商而言,誰擁有的數(shù)據越多越全,數(shù)據分析結果越詳細,誰就擁有絕對的競爭優(yōu)勢。在大數(shù)據產品的競爭市場里,價格戰(zhàn)的策略派不上太大用場。用戶不會為了省錢,冒險去買數(shù)據不全的產品。
筆者2002年進入Carfax數(shù)據研發(fā)團隊時,其核心產品“車史報告”上還沒有汽車保修記錄這項內容。雖然企業(yè)高層早就想把這些內容加進去,但由于大部分保修記錄屬于半規(guī)則性數(shù)據,市場上沒有一家企業(yè)能順利處理這類數(shù)據(也就是今天意義上的大數(shù)據)。當時公司只是知道這種數(shù)據非常重要,花了大價錢購買了上億條這類數(shù)據存起來,閑置但又占儲存空間。
當時Carfax買來的這些半規(guī)則數(shù)據有幾千萬條,要求三個月內完成從數(shù)據分析到提取有價值數(shù)據,到完成初步分析報告的全過程。筆者跟研發(fā)團隊其他成員經過詳細討論和辯論,決定先去掉與此項目業(yè)務要求不相關的數(shù)據。我用數(shù)據庫編程和統(tǒng)計軟件把各種跟汽車識別號、汽車保修記錄與日期相關的關鍵名詞/組及其描述、相關的動詞等提取出來,如“潤滑”“機油”“泵”“發(fā)動機”“變速器”“點火”“空氣囊”“安全制動”“制動器”“轉向”“活塞連桿”“燃油”“轉換”“裝”“卸”“拆”等。然后把它們相關的整句提取出來。這個過程結束后,就只剩一千多萬條與汽車保修直接相關的有用數(shù)據了。
數(shù)據產品研發(fā)
雖然大數(shù)據工具在日新月異地變化,但是駕馭數(shù)據分析和算法邏輯的能力是形成這類產品的關鍵。Carfax的幾大核心產品中,“熱賣二手車”是市場部與數(shù)據分析團隊合作的一個經典。傳統(tǒng)來說,汽車經銷商只是付年費給Carfax以便使用其車史報告。為了留住客戶,Carfax通過對一些企業(yè)客戶歷年的銷售業(yè)績、車型及其車史報告關聯(lián)分析,發(fā)現(xiàn)很多買車人對每月的促銷并不總是很在意,除非價錢與別的商家相差太大。但當經銷商同時提供促銷車的免費車史報告后,買車人的購車意愿就大大增強了。Carfax于是嘗試性地把車史特別報告植入其線上促銷廣告中,結果該經銷商當月的銷售量大大增加。
就這樣,Carfax為大批汽車經銷商設計和量身定制了“熱賣二手車”促銷輔助產品。這款產品與汽車經銷商月銷售二手車捆綁促銷,在幫助其快速售出當月促銷產品的同時,鞏固了客戶忠誠度,提高了客戶滿意度,迫使競爭對手跟進,同時為Carfax開辟新的營利渠道。
處理海量半規(guī)則、非規(guī)則數(shù)據在2003年還不像今天這樣有眾多方便的工具可供選擇,Carfax之所以能比所有對手提前兩年做出產品來,全靠杰出的數(shù)據分析和算法邏輯能力作為后盾。
此后,他們還與企業(yè)客戶一起開發(fā)了大數(shù)據協(xié)同解決方案,研發(fā)了一系列成功的創(chuàng)新產品。其中與銀行和保險業(yè)合作的大數(shù)據產品特別值得一提。大多數(shù)美國人買車都要從銀行貸款、買車險。對于二手車來說,貸款和保險數(shù)額取決于個人征信(大數(shù)據當下在中國的另類火爆應用,美國已非常成熟)和該車的歷史記錄。而Carfax作為行業(yè)領軍企業(yè),其20多年的大數(shù)據產品創(chuàng)新成績是當然的合作選擇。由于他們擁有全北美和歐洲發(fā)達國家的大部分二手車記錄,其創(chuàng)新做法也非常直截了當。Carfax先為合作銀行和保險公司等客戶設置專屬賬號,再根據銀行和保險公司提供的二手車樣本數(shù)據,很快調出這些車的詳細歷史數(shù)據。
創(chuàng)新團隊依據這些客戶的眾多業(yè)務原則,與客戶一起決定數(shù)據的篩選,對數(shù)據分析和計算制定詳細的規(guī)則,把300多條規(guī)則(計算公式)植入客戶對應的不同業(yè)務里(如商業(yè)銀行、信用社、保險、財產擔保和專業(yè)汽車貸款等),進行相關數(shù)據演算。他們最終為不同行業(yè)、不同企業(yè)定制了不同的車史報告產品,為客戶在批準合理的汽車貸款、保險和擔保額方面提供精準的數(shù)據支持。
Carfax的創(chuàng)新案例對于中國的大數(shù)據創(chuàng)新有很多特別的啟發(fā)意義。根據Carfax的調查,當一個國家的二手車數(shù)量達到千萬輛后,車史報告就開始出現(xiàn)市場需求了。進入2015年,隨著政府和社會對大數(shù)據技術及其運用的廣泛重視,無論今后國內是否能出現(xiàn)類似Carfax的產品,最關鍵的是——一個開放的大數(shù)據環(huán)境,對企業(yè)、政府和個人做創(chuàng)新都至關重要。
本文選自《實戰(zhàn)大數(shù)據:DT時代智能組織工作方法》(中信出版集團)