TurboFinancialGroup首席風險官顧凌云先生
和訊互聯網金融消息 在深化金融改革的大背景下,互聯網金融已成為十八屆三中全會后金融改革的創新點,互聯網金融產業也迎來了迅猛發展的春天。面對新的歷史機遇,北京共鳴時代科技有限公司、杭州融都科技有限公司、融途網、零壹財經聯合舉辦的“首屆互聯網金融資產交易峰會”2014年9月15日在北京舉行。本次大會,和訊互聯網金融作為戰略合作媒體將對本次大會進行全程報道。TurboFinancialGroup首席風險官顧凌云先生,出席了會議并在主題演講中表示,真正的信用評估應該包括傳統的數據、可替代的數據、用戶網上行為數據、社交網絡信息、用戶自己回答的信息,要把所有這些信息全部給綜合起來才可以。
以下為文字實錄:
顧凌云:大家好,我今天的題目是信用評估與大數據。因為我本人自己一直在做機器學習,恰好碰上了這個好時代,就到這個金融領域里面看看有沒有合適的應用。大數據這個詞最早是沒有的,很多人都是從2012年2月份,紐約時報那篇文章開始知道大數據。今天雖然我們講資產交易,也講金融,這里可能我要先潑一點冷水,因為到目前為止,在大數據領域當中的投資已經越來越熱,而且做得公司越來越多。有多少公司到底真正使用的是大數據?我相信幾乎沒有太多,讓我想到1999年、2000年,我剛到美國的時候目睹了所謂互聯網1.0版本破滅的過程,當時我很清楚記得一個例子,有一家冷凍食品的快速公司,做豬肉,把豬肉送到舊金山市區里面,后來過了一段時間想了一下,他叫做互聯網豬肉冷凍快遞速食公司,這家公司后來就上市了,他用互聯網的方式送豬肉了嗎?顯然沒有。只是加了一個單詞,就做到了這點。
很多人都問我大數據是個什么東西?我認為有一個例子可以比較好的解釋這個現象。我們很多人知道十多年前時候,如果我們用計算機,如果你的這臺計算機內存是512兆,你應該是相當不錯的土豪。如果你有一個數據,這跟數據恰好是513兆,這個數據用今天的概念來說并不大,但是如果513兆的數據,希望一次弄到512的內存當中不可能,就需要做一系列研究方式方法,把它先拆分、處理,再重新從內存當中拿出來,再整合起來,如果用這樣一套方法處理一個513兆相對于512兆內存的數據,就是一個大數據的思維。如果今天把513兆的數據,一次性上傳到了亞馬遜的AWS,如果通過這樣的方式進行運算,你也不是一大數據的方式。
我們先看一下大數據在美國金融當中最直接的場景,就是所謂的信用評估體系。美國的信用評估體系很早,每個人之間都有一點制衡在里面,不敢把事情做得太絕。如果做了以后,不是明天就可以拍拍屁股走路的,一般會記錄在案。中國現在也在做,但是還不太成熟,在這個領域中有很多機會。美國的信用體系評估很簡單,就幾樣東西,大家可以看到,首先第一是債務的歷史,這個聽起來是很正常的,如果你以前曾經有過違約,顯然對你今后借款能力有質疑的。第二是債務,你總共欠了多少錢,這個也很重要,如果你即使告訴我你是比爾蓋茨,但如果今天你借的錢已經超過了600億,也超過了你的償還能力,也是個問題。第三點信用歷史時間,如果你是在10年之前就有過一張信用卡,或者是相比另外一個人到今年才有第一張新的信用卡,我不能說哪個哪個之間的償還能力更強,但至少我會知道第一個人有更多的信用數據,這個就是不一樣的。第四點是他的很多相關的其他因素都很重要。比如說最近有沒有買房,如果買房就有買房信用卡的記錄,有沒有買車?也有。這些東西全部加起來形成了美國現有的評分體系。
一般來說如果大家在數學相關領域工作的話就會知道,作為一個邏輯回歸也好,如果你把它的變量放得太多了,從某種程度上來說,你的這個模型處理起來就會比較麻煩一些。最主要一點它的深度比廣度要重要,對于我來說,我可能關心的是你過去20年,如果你有記錄,和你從最近一年當中才有記錄,二者之間是不一樣的。
那么同樣,關注用戶的歷史遠遠多于現在,也許這個人一開始是個屌絲,最近突然發財了,可能他的償還能力就會有巨大的改變,但是這樣的因素有沒有體現在這個里面?很多人不知道。怎么樣把縱向和橫向廣度上的東西都放進來,這個就會顯得相對來說比較重要一點。
很多人都說你這個大數據到底在金融當中有什么用處?為什么一講到這幾個理論以后就不怎么管用了?有兩塊不同的石頭,一塊石頭被做成了一塊臺階通向山頂寺廟的路上,同樣有另外一塊石頭被做成了佛像,晚上的時候他們相互之間在探討和聊天,當做石階的那塊石頭,跟做成佛像的石頭說,憑什么你當了佛像?我每天被萬人踩在腳底下。做成佛像的石頭跟他說那不一樣,雖然我們都是石頭,你只被切過六刀就被做成一塊放在腳底下的石頭,但是我是受盡磨難之后才成為這樣一塊佛像的。這是一樣的東西。如果你要是切一個人的歷史過程,切得太簡單,只能切出6刀或者只能切出30刀,用30個變量來衡量一個人,從某種程度上來說很困難。同樣一個人在不同的應用和領域當中也不一樣。他在同樣的一個場景,不同人面前表現出來的情況是千變萬化的,他如果今天在這個公司當中呆了20年,不一定說明他是個好員工,很有可能是他沒有能力跳槽。如果你用另外一個角度評判這個人的話,你的評判標準和應用變量應該完全改變。但是非常可惜,沒有人從這個角度上衡量一個人,所以這后邊有很多我想講到的東西。
美國的大部分人,為什么說美國是個比較穩定的社會?就是因為它的中產階級比較多,從650分以上的人群絕對占到美國很大一部分,而相對來說屬于非常屌絲的人群是不多的。什么樣的銀行、什么樣的金融機構在為不同的這些人群在進行服務呢?你就可以看到,非常明顯,如果中間條的顏色,你可以看到這個條的顏色越多,就說明競爭越激烈,越來越鴻海,這是個什么領域?這個領域就是信用分數大于650分的領域。括美國四大國有銀行,都是主要信用卡的提供商,好處就是說你可以從他們當中賺到交易費用,但是這幫人你是別指望給你分期付款的,包括我在內每個月用的所有花費都會在當月還掉。我不會讓銀行賺到這個錢的。競爭變得越來越激烈,這些人信用比較好,基本上拍下腦袋就可以決定把金融產品給他的。風險比較低,所以當然對應的收益就不會特別大。小于550分的時候,就沒有什么企業在里面競爭了,用什么樣的方式才能解決這些領域當中被服務的人呢?用大數據經過千錘百煉的方式,你有千萬個變量來通過這種方式進行建模,來判斷這些人的信用到底能不能被納入到正常的體系當中去,這就是我們做得事情。
我想說一下為什么最終會把風控放到一個這么重要的角度上來。在我看來今天互聯網金融確實是一個非常熱的熱點,因為我本人不但自己做一家企業,同時還投資其他的企業。可以看到互聯網金融當中至少有四個這樣的熱點,第一個就是今天的P2P,美國的P2P最大的只有兩家,但在中國一個月之前我收到的報告,就已經超過了2000多家,中國人跟美國人做事情的方式完全不一樣。我僅指P2P所謂的叫做債權的眾籌,而不是股權的眾籌;第二就是所謂的大數據;第三個虛擬貨幣。這幾個都是相對來說比較有特點的地方。你可以看到,所有的這些熱點,尤其是P2P,我可以非常直接的說,今天中國到今天為止,也許9月15號的時候,P2P還有2000多家,我可以很負責的告訴你,6個月或者一年之后,P2P如果能剩下四分之一都是一個奇跡,很多P2P公司一定會死掉,或者被并購掉。在所有的熱潮慢慢退去的時候,在大浪慢慢退回海岸線的時候,到底誰會留下來,我們看得很清楚。剩下的我該做什么?這個時候風控就會放到最顯著的地位上來。到地方銀行江蘇銀行、南京銀行(601009,股吧),他們越來越多的希望關注如何把風控的東西放到一個越來越重要的地位上去。
我們可以看到,如果現在有兩個人需要借錢,當然這兩個人都比較有名聲,如果是司馬懿今天要借錢,大家可以看看今天把的條件是什么樣?不錯跟曹操混了那么多年,日子過得也不錯。擁有過許20年的信用歷史,而且這個官級從養馬的開始一點點升上來,所以信用值也不錯,最近新的貸款查詢沒有,日子都過那么好了,還需要借錢嗎?可能也不需要了。而且貸款類型相對來說也非常豐富,才能蓋房子借過錢、買馬車借過錢,如果從美國典型的風控角度來說,司馬懿絕對應該借錢的。諸葛亮日子過得沒那么好,幫劉備把這塊地給搞下了,但是畢竟蜀國財政沒有那么好,收入只有3000塊錢,過去24個月還違約過一次,只有7年的信用歷史,最近還老是借錢,借過3次,貸款類型也不豐富,借過錢買過馬車,二者之間進行比較,毫無疑問大家都會選擇把錢借給司馬懿,而不借給諸葛亮,但是這是個典型的傳統的風控模型。看重過去歷史,而不看重現在。
我們看看下一頁,就會看到兩個人不同的變化。司馬懿也會上網了,但是這個人上網的地址頻繁多變,總而言之就沒有在他自己的辦公室或者家里出現過,他給我一個很大的警示,是不是最近司馬懿開始有可能失業了?他剛剛申請了兩個發薪日貸款,借的款,還的也快。我們通過一種方式找到,他最近剛剛借了兩個發薪日貸款,雖然以前借過學生貸款不管用,所以即使他想違約,都沒有這個條件違約。他最近老是在許昌、洛陽、長安,這些所謂的大城市來回在走動,好像沒有一直呆在魏國的國都,這說明最近他可能有些頻繁的軍事行動。
諸葛亮之所以違約一次,原因是因為他被馬車撞了,醫療費太高,當然因為醫保體系又不完善,所以必須要諸葛亮自己墊錢,所以日子混得不太好,付了很多錢。為什么信用值只有7年時間?因為他剛剛從南洋搬到成都,所以信用值只有7年時間,當然沒有司馬懿長。而且最近5年從來沒搬過地方,可見生活職業都是相當穩定的,無論是劉備,還是他兒子對他都是不錯的。他為什么沒有申請過學生貸款呢?因為學生的時候,他是優質學生,他拿獎學金,所以當然就沒有借過學生貸款,把所有這些信息全部綜合起來以后,就會發現大數據給我們帶來的是一個更全面的全景的描述,在大數據的場景當中,如果有一個合適的建模的方式,能夠產生一個二維決策,那么你就可以看到,最終借款的人應該是借給諸葛亮,而不應該是借給司馬懿,這相對來說是比較故事性的例子。但實際上你在現實生活當中,你會看到很多類似這樣的例子出現。
真正的信用評估應該是這樣的,你應該看到傳統的占很大一部分,但是可替代的數據商是另外一種,同時在網上體現出來的用戶行為是另外一部分,社交網絡的信息也是一部分,來自用戶自己的回答和信息是另外一部分,要把所有這些信息全部給綜合起來才可以。所以大家可以看到,在2.0版本當中的成員介紹是這個樣子,在傳統數據當中,我們只看到了深度沒看到廣度,現在更多是廣度上面想看一看。網絡上的數據也是很重要的,我們可以通過你IP地址直接從什么地方訪問來判斷你大概來自于什么樣的區域,當然有可能你的IP地址是經過IP地址的服務供應商改變過以后的,這樣的人群有另外的方法來追蹤,他到底真正來自于什么地方。同樣你上網的時候,你使用的電腦類型,你用得蘋果還是PC,這直接導致兩個完全不同的消費類人群。你上網的時候瀏覽器版本用得是什么?如果你能通過合適的方法把它給結構化,這也非常重要。
直接征詢用戶的答案也是很重要的,有的人說問用戶有什么用?尤其一個沒有誠信的社會。你可以在一個地方撒謊,你可以在兩個地方撒謊,但是如果我大數據采了千千萬萬的點,很難把千千萬萬的點在互相不矛盾的情況之下,把它給偽裝起來,如果真的能偽裝成這樣,那就不是一個欺騙的過程,所以很難通過大數據的方法讓一個人還能夠完全的編造一個不被識破的謊言,很難。
大數據模型理念,一切數據皆為信用數據。積少成多、匯流成海。我們剛才講的所有的那些關鍵的這些變量,如果單獨知道提出來一個,你對一個人進行判斷,那一定是50.1對49.9,沒有太大的用處能夠判斷出來這個人怎么樣,但是如果把所有的這些細小的因素全部結合在一起,冰凍三尺就會發現最后信用的指相同是非常強的指向,可以很準確的判斷出來這個人到底在做什么。我們只看關聯不看因果,這是一個非常重要的觀點。在此之前做統計也好,做因果系統的時候,總是希望能找到原因判斷這些事情到底是不是靠譜。但是在大數據的情況之下,更多的我們認為現在暫時不知道背后的原因,而并不是因為不知道原因等同它不靠譜。同樣名字聽起來很好,機器學習,咱們都會深刻的體會到,實際上是我們悲催的學習機器,根本不是機器在學習我們。如何能夠更好的跟機器進行互相溝通,我們給他一個方法,或者給他一個事實,他能夠更快的從當中提取出來,更多的是一種互動。
超級杯的這個例子,我本人在美國比較喜歡看美式橄欖球,一個是AFC,還有一個NFC,每個聯盟的冠軍會在最后的所謂的超級杯的決賽當中決出當中MFR的最終的總冠軍。超級杯指標的意思就是說,如果我看到今年總冠軍的冠軍來自于AFC,而不來自于NFC,明年美國股市應該是跌的,相反應該是漲的。理論上來說二者之間沒有任何關系,如果真的這樣,美國絕對是世界上永遠的第一強國,但是這是不可能的。二者之間真的一點關系沒有嗎?我們仔細查過還真不是。因為AFC和NFC理論上來說,應該是平均分布在美國東西南北州各個地方的,NFC和AFC兩個聯盟之間隊伍,在美國經濟發達和欠發達地區之間并不是均衡分布,所有的球隊在球員購買,包括訓練方面,他投入的資金也是不一樣的,所以從某種程度上當經濟在起飛過程當中的時候,NFC很多球隊最早會受益的,NFC拿冠軍導致經濟好有這個情況。
大數據的模型之二,我們認為是數據的來源。這里更多的要講一下錯誤信息也是信息,比方設計這些網站的時候會問,你這個每個月工資是多少?因為到我們這里來申請的基本上屌絲比較多,他就會說每個月兩千美金,或者三千美金,但是經常會看到有些人說我每個月的工資36000美金,你確定這是你一個月的工資,不是你一年的工資?他可以很簡單把36000除以12,我一個月是準3000塊錢。我們有意不這樣說,因為我們認為即使這樣的錯誤信息也體現了一個人的素質。
第三點就是所謂的建模,總而言之,大數據當中對所謂特征的變化,特征的提取和最后所謂獨立模型細節的建立,最后模型的整合都跟以前傳統統計上的理論有很大的區別。
最后這個是比較有意思的事情,這件事情在中國基本上不存在,但是在美國相對比較麻煩,大數據和相關立法之間的關系。相信中國在今后立法越來越完善也會碰到這樣的問題,信用評估上有些禁區,這些禁區不能碰的。第一性別絕對不可以用的,來決定這個人到底信用值怎么樣,這是絕對不可以的。第二年齡,年齡沒有性別那么嚴重,但是年齡有要求,你問這個人的年齡,只能作為一個加分因素,而不能作為減分因素,年齡大家現在很多人也是不用的。第三種族,絕對不能觸碰的紅線,絕對不能根據你是亞洲人、黑人、白人還是拉丁裔,判定你的信用是好是壞。比如在中國你在街上開車或者在美國,墻上寫著字告訴你這個地方不能原地掉頭,就是因為太多人在這個地方原地掉頭了,所以才會樹個牌子,如果這個地方窄,你不用寫,也不會有人原地掉頭。禁止使用的這些東西,其實真正最能體現一個人的本質。實際上從我們模型當中能看得出來,這些不準用的東西,如果你用的話,比千千萬萬的信息加在一起都有用。
大數據另外一個比較奇怪的應用,就是它可以幫助你繞過一些法律上的紅線,這些法律上的紅線繞過并不是我們在打法律的擦邊球,而是因為事物的本質就是由這幾個因素來決定的,這幾個因素你不讓我用,但是其他的模型又能準確的判斷這個人,必然導致背后可以有的這些因素,A可以突出C,B又可以突出C,A和B之間必然有相關的。