这两个人像是同一个人吗

“凡走过必留下痕迹”大数据時代,你的一举一动都在为你建立一个电子档案从你有多少张信用卡、每个月消费多少、还款记录如何到你喜欢浏览什么网站、手机是什么型号甚至IP地址对应的位置,有一万多个词条可以刻画你的肖像银行在不需要跟你打交道的情况下可以靠这种数据肖像决定要不要给伱放款、放多少合适。这就是大数据征信

每个人每天会产生无数的信息,征信机构如何从这里面抽丝剥茧找到有效的数据又如何给每個数据设置合理的权重去建立模型?机器出现故障之后又如何修正我们请到了在征信上有多年经验的嘉宾、冰鉴科技创始人兼CEO顾凌云来為我们解答。

顾博士是卡耐基梅隆大学计算机博士毕业后在华尔街做对冲基金中高频交易的算法工程师,两年多后作为创始成员加入 Zest Finance(┅个美国的金融科技公司主营业务是信用评分),顾博在 Zest Finance 全面负责模型组的研发工作三年开发了6代模型;离开后去了 小微企业征信和借贷的机构Kabbage 担任首席数据科学家。顾总是征信方面的权威专家曾获得过“中国征信50人”的称号。 

冰鉴科技创始人兼CEO 顾凌云

以下是本次公開课的内容顾凌云口述,AI金融评论(微信号aijinrongpinglun)整理

先想说一点有意思的题外话,我后面很可能都会直接用语音但实际上现在所有这些文字,我也都是直接通过说话然后通过语音识别转化成文字这实际上就是机器学习和人工智能的一种应用。苹果使用的Siri语音识别算法有一部分就是我在卡内基梅隆大学时候博士阶段论文的一部分工作,我举这个例子的意思其实是想告诉大家人工智能其实进入我们的苼活已经有一段时间了,但实际上很多人工智能最终都需要通过人工来进行干预所以实际上真正人工智能最具有挑战的是它的最后1公里。

那为什么在开始这段语音转变文字之后我会直接使用语音?那就是因为在最后的自然语言处理当中有一些小的问题语音识别和自然语訁处理还不能完成比如她/他的自动识别,专业单词的准确判断等等所有这些问题其实在我们进行金融和征信领域的工作当中同样存在。

从数据获取到“清洗”以及建模到最终获取客户的整个流程里最困难的部分,做大数据征信的(技术或者商业)壁垒在哪里

很多人鈳能都会问我一个问题,那就是今天的征信行业有这么多人进入逐鹿中原,它到底什么时候会变成红海现在的蓝海还有哪几块东西可鉯做?如果说是任何一家以技术起家的征信公司如果它们想要做得比较好的话,核心竞争力在哪里

实际上所有这些问题,最后都会归結为几个不同的方面在这里,我可以简单地介绍一下建立几个好的模型的步骤:获得数据之后第一步是原始清洗——基于技术数据;苐二步是变量选取;第三步变量整合,第四步单一模型的建立;第五步五多模型建立。每一步中都有许多细节的工作需要完成

如果今忝市场上有100家征信公司,那我可以肯定的说——100家号称自己做征信的公司中80家是依靠于自己的特殊资源在做简单的数据贩卖的工作,通過自己独特的渠道获得独特的数据而些依托于自己本身特有场景所产生的数据源变成了目前市场上成为绝对主力的征信公司。真正依托技术做征信的公司实际上并没有那么多

而在我们看来,真正的征信公司不仅仅是能够产出原始底层数据关键是应该根据原始数据所带囿的特质进行量化提纯工作,并且最终这些可以体现在信用决策上真正能完成这些的公司并不多,去掉那些贩卖数据的公司现在征信公司剩下20%都不到。

而在这20%的公司当中实际上又有很多公司并不是真正的我们意义上的第三方征信平台。实际上他们都是依托于自己本身所拥有的借贷环境——一方面在通过放贷积累数据另一方面通过自己的建模工作同时提供征信。这样的商业模式并没有问题但是从某種角度来讲,这样的公司即扮演运动员的角色又扮演裁判的角色但是在今后中国的征信市场如何看待这样以借贷起来的征信公司,我想還是会有比较长时间的争论

很多人都会问,一个技术起家的公司在数据清洗方面到底有什么地方能跟其他公司做得不一样的。 这一点仩我想分享一个有意思的应用场景,做机器学习我们可以把几乎所有的场景变成两个类别Supervised learning(监督学习 ) 和Unsupervised learning(无监督学习)。在这两个場景场景当中当我们在进行无监督学习的时候,我们并不需要一个人还贷记录这样的好坏标签我们可以通过一些其他的变量,来判别囷进行大的类别的划分而监督学习或者分类过程中,我们应该让一开始机器先找到一部分找到好坏标签新进行学习然后再对新进人群進行判断。

在这样的情况下我们有必要先对建模的基本概念进行阐述,这样我们才能知道对于数据的处理应该聚焦在什么地方首先,峩们在进行有监督学习的时候我们往往会在方程的两边进行判断。而方程的左边我们叫因变量或dependent variable,是一个人在之前是否有过还贷记录也就是我们所谓的好坏标签,而另外一边是描述这个人各种各样的信息我们叫做自变量,也就是independent

当我们做了这样的定义以后对于数據的处理就比较清晰了。我们或者要聚焦于对因变量进行处理或者聚焦对自变量进行处理。

我们先从对于因变量的处理开始大家可能嘟知道一个征信公司到底能做的多好,他的数据量有多大是至关重要而很多人遇到的瓶颈问题就是,他们很难搜集到各种企业和个人进荇还贷的历史记录很少有企业能够完成因变量大规模积累的工作。

这一项工作在美国如果我们完全不需要人工智能或者机器学习的介叺,最传统解决办法我们叫reject inference(拒绝推断)也就是,当我在这里没有办法在自己的场景当中获取其他人的好坏标签的时候我们往往会通過其他的征信局或者其他的放贷机构,进行交换或者购买好坏标签的形式来获得在中国初创征信坏境中,这样的方式十分困难因为大哆数机构都想获得别人的而不愿意分享自己的。所以从这个角度来讲指望通过reject inference,通过别人的借贷来获得信息就比较困难

那些在机器学習当中,我们有什么解决方法呢有两种:self-training and transdurant (SVM)。当我们明确知道有一些是好的和有一些人是坏的前提下通过一个分类器对其他未知的變量的进行处理的过程中,能够通过一些自适应的学习方法把在未知的人群中把有明显倾向的人分成好的和坏的

在方程式的右边,对于所有的自变量我们有什么方法处理?传统意义上来讲我们获得所有的变量之后,第一步是变量选取或者整合而变量选取和整合,在統计和初步机器学习过程当中最常用的是stepwise (逐步回归)它分为forward stepwise(前进逐步回归) 和backward stepwise(逐步后向算法 )。顾名思义stepwise就是通过一个一个把變量拿出来和放进去的方式来决定哪个变量比较重要。

比如现在我一共有10个变量,我并不知道哪一个好哪一个坏最常用的方法是,我紦10变量都留在里面做一个模型然后扔掉一个变量再做一个模型,然后再扔掉一个变量做一个模型以此类推。大家就能看到10个变量做嘚模型和9个变量做的模型相比较结果差异到底有多大。那么以此类推8个,7个都是一样的我们就能判断每个扔掉的变量扮演的角色到底囿多重要,从而判断这是不是一个该留在模型的变量

那么问题来了,10个变量到底该先扔谁呢

那么在机器学习的过程中我们有一个新的方法叫lasso的方法来处理这个问题,它可以在多维度空间的方向中进行搜索选择哪些是重要的哪些是不重要的

在我讲的这些对于数据清洗嘚过程某种程度应该都是比较小的壁垒,能够慢慢积累起来实际上,还有很多方方面面的工作要做(都可以形成壁垒)。

今后两三姩中哪些征信公司能够存活下来?

在刚刚一开始的时候我提到过,中国的征信市场如果有100家征信公司80家公司都是做原始数据贩卖的,真正以技术立足的不到20家征信领域很多人说数据为王,很多人说技术为王二者谁会胜出呢?那我们可以借鉴一下美国的历史来看鉯后今后中国市场的走向。

我们先来看看在征信起步的过程中,数据都扮演了很重要的角色如果没有数据,建模就无从谈起更不要說用什么方式建模。我要说的是在今后征信的发展过程中,数据的获取是会越来越简单还是越来越难?

先来看一看数据可以被分成什么样的大类。从我个人的看法可以分为两类,一类是依托于公共环境或者政府的背景而产生和积累起来的这一部分我们不妨叫做行政数据,比如说汽车注册信息学籍学历,犯罪记录等等这些都是依托于政府或者公共设施积累起来的。 另外一些就是私营企业或者上市公司通过自己独有的生态圈产生出来的数据。

而在这样的第二类的数据中最有代表的应该就是阿里形成的自己独有的生态圈中的电商数据,腾讯利用微信所形成的独有的社交数据或者腾讯和网易形成的游戏数据。我们可以从另一个角度看一下今天百度的困境在什么哋方

很早之前的时候,谷歌为了击败Facebook专门制做了一款自己的应用叫Google+就是为了取代Facebook。当时FB还不大Google为什么要这么做?因为Google早就看到了今忝百度面临的困境——那就是大家进行百度搜索的时候都不会进行用户名登录,所有的特质信息在百度的搜索引擎面前都是很苍白的。但是无论是你是使用阿里的电商或者腾讯的社交,都有很完整的个人信息和轨迹所以不同的生态圈产生出来数据的价值是完全不同嘚。

那么这些数据随着征信的发现,获取数据会变得越来越简单还是越来越难呢

第一类行政数据我相信今后会越来越简单。不管是这屆政府要求大力发挥大数据的作用还是万众创新大众创业的大背景,或是一些要求打破信息孤岛的行政命令也好我们可以看到基于政府和公共设施的公共数据今后的获取会变得非常的简单。

如果两年前就从事征信这个行业大家可能知道,那时候银行想要购买工商的数據——在某一段非常热的时期一条最基本的关于企业的工商数据:仅仅包括法人是谁,什么时候注册注册资本,经营范围法人经营范围注册资本有没有变更,仅仅这些信息都不包括出资信息,股份比例其他信息都是没有的情况下每一条数据就可以卖到15块钱。今天佷多平台可以免费查到这些信息行政数据上向前买了一大步,而这一切是不以哪些主管官员的意志为转移的愿意或者不愿意,他们都將慢慢打开信息孤岛把这些信息联系在一起。

另外一个角度来讲大家可能会问,那么阿里腾讯为代表的生态环境圈中的环境会开放吗他们肯定不会的对不对?是的他们肯定不会公开这些数据。但是从美国到中国到欧洲到拉丁美洲到日本,所有这些早期开始进行征信的国家都证明了一点——就是数据的最终拥有者不是这些平台的托管商而是数据的产生者也就是说,谁拥有支付宝谁拥有微信他们這些个体才是数据的拥有者;而阿里微信他们仅仅的数据的托管平台,也就是说他们无权拒绝在授权情况下这些数据对征信供应商的使用

总体来讲,所有数据无论是行政还是生态圈数据在今后随着竞争激烈,一定不会出现有些人独有一些数据有些人没有的情况最终可能是采购价格上的差异。不会是计算机1和0 的区别顶多就是你5毛钱可以买到我只要4毛八的区别而已。

数据最后一定会成为像期货一样是可鉯自由的交易不会成为征信公司的壁垒。五年十年后中国征信领域如果还有谁是依靠独有的数据获得领导地位的话,这不仅仅可以说昰中国征信领域的悲哀甚至都可以看做是改革开放努力的一个不算成功的标志。

也就是说单纯依靠特定信息源上暂时处于领跑地位(戓者暂时有一定利润)的征信机构,如果不对自己的技术进行改造几乎可以肯定,三四年后会是首批被市场淘汰的对象

我认为两三年彡五年后,能在征信领域快速跑出来的公司一定是像日本的匠人一样拥有工匠精神,在技术积累、信息源的整合在每一个细小环节都仳对手领先10%或者15%的优势来获得的全面的领先地位,而一定不是单纯通过在某一个环节通过独有的信息源或者技术彻彻底底打到对方

我的湔同事李丰投资了“三只松鼠”,也许很多人说卖坚果并不是什么技术含量很高的工作为什么三只松鼠可以做到排名第一?三只松鼠的愙服称用户为“主人”而不是“亲”听起来有些滑稽,但他把用户的感受又往好的地方提升了一步;它的产品袋子里有一个垃圾袋、湿紙巾可以让你擦手、放垃圾,这些细小的东西本身都不能形成单一的竞争力但是把这些因素揉和在一起,在各个微小的维度上发现三呮松鼠都和竞争对手拉开了差距

卖坚果是这样,征信其实也是一样我觉得要从竞争里跑出来,企业的基本逻辑都是相似的

下一个问題,我们到底怎么才能判断大数据真的对金融或者征信行业提供了帮助

我说一个故事,我们招人的时候我们对于在机器学习上有没有過硬背景是非常看重的,但这不是我们唯一考虑的因素我们曾面试了好几个美国最好的学校出来的博士生,我们给他们一组数据让他們在规定的时间返回结果,但不告诉他应该返回什么结果相反,我们让他们自己定义到底什么样的结果才是他们满意的为什么定义这樣的指标。

事实上十个里面有八九个都会用“准确率”来作为衡量算法是否准确的唯一标识,但是这样的判断标准在征信领域是正确嘚吗?我既然这么问显然答案是不对的。

征信的场景中有哪些事情是我们看重的?

我举个例子有个人说他(放贷)批了10个人,有9个證明是好的只有一个是坏的,他说他的准确率90%你听完后觉得他的算法是好的吗?

那么我会告诉你这个答案不是简单的是或者而不是,他有一件事没有告诉你真正的申请者可能有100个,其中99个是好人只有1个坏人,而他把那唯一的一个坏人放到了批准名单里从这个角喥,虽然他批准的10个人中准确率是90%但我们还能说这个结果还是好的吗?算法是好的吗

在征信中,我们会把批准率和坏账率结合起来吔就是在机器学习中把precision(精确率)和recall(召回率)结合起来,才能作一个综合的判断

当然,征信领域我们用得最多的是KS distance(KS距离)这是俄羅斯的两位数学家名字的首字母。

在金融领域什么案例能证明机器学习有用?

我们很多模型都在金融机构的完成两个维度中至少一个维喥的提高那就是我们可以在保证批准率相同的请胯下降低坏账率,或者在相同的坏账率的情况下提高批准率现在中国的征信刚刚起步,我们的模型在很多场景下可以既提高批准率又可以降低坏账率这不是一个长远的情况。但总体而言至少要做到单一维度上的提升,財可以称得上是一个好的金融科技公司

下面一个问题,如何避免机器出错

早年我们自己开玩笑,机器学习到底是机器学人还是人学机器明明是人在学机器,我在卡梅隆6年才拿到我的博士学位每天起早贪黑,科比说他看过洛杉矶凌晨4点的样子我说这有什么稀奇的,峩经常看到3点的匹兹堡从我的经验来看,不是机器在学习人而是人在学习机器。

举个例子我们怎么对机器的错误进行修正?回到变量的选取变量的选取有很多方法,stepwise也好lasso(逐步套索)也好,最终无外乎对每一个独特的变量进行选取可是,如果几个变量柔和在一起形成一个新的变量最终的结果是不是比一个单一变量更好?客观上这是很有可能的但我们怎么才能做到?机器在早期的学习中是不能完成这一的工作的

我举个例子,我们获得一个人过去十年搬家信息十年搬了8次,我们如果单独对变量进行选取可能只能选取其中┅次的搬家历史,人工能发现这其中的问题其次最好的办法是对这些搬家的变量求一阶导数,这十年他搬家是越来越快还是越来越慢呮有这样的变量对我们的模型才是有帮助的。

中美两地对于金融科技的热情以及各自面临的状况和创业者机会的差别是什么

中国过去几┿年都是以美国为标杆,以抄袭美国获得所谓“创新”美国的Google,Facebookebay,亚马逊在中国都能找到门徒,这是过去的状况目前,中国的创噺企业已经在改变这一的趋势

一个最简单的感受,过去需要花3年时间才能抄的东西现在3个月就能抄得比较像,有的特定领域美国要反過来学习中国

  • 美国的金融业已经很成熟,主流和非主流金融人群的需求都能被得到满足基本上没有什么需要改良的地方;中国的情况則是五大行高高在上,其他行在行政束缚下面很难迈动脚步

  • 科技金融在美国没有机会,在中国机会很大P2P,美国就那么两家而中国我們的P2P 3000家都不止,及时在银监会和央行的联手打压下还有2000多家存活下来可见这两个地方金融环境是天差地别的。美国现在所有的数据商都佷完整大家选取数据商就能完成征信工作,而中国很多地方需要自己把各个碎片的信息拼接在一起而这也是我们征信创业者的机会。

峩手中没有水晶球没有办法准确预测中国征信未来的样子,但我有一点是可以确定的:

中国一定不需要几百家征信公司即便这个市场仳美国大很多,我想好的情况可能是有十几家征信公司这十几家术业有专攻主要分为两类,一类是因为有积累了独有的数据源而形成独囿场景的征信公司比如像阿里巴巴这样的基于电商数据的电商征信,或者顺丰以快递为基础的快递征信等等——我比较大胆的预测,烸个场景可能只有一家征信公司能存活下来;第二类是跨领域跨平台的征信公司可能有5到7家就差不多了。

最后一点人工智能在征信领域中有哪些运用?

我简单举两个例子第一个是深度学习。深度学习并不一定在所有金融领域中都有应用其本质是需要有场景经验来调優的更复杂的人工神经网络。所以实际上我们要做的是在缺乏有效的很多的好坏标签的情况下,如何利用有效的人工神经网络来做递推囷归纳

那么另外一点就是自然语言处理。当我们获得一个企业的名字的同时我们可以在全网对企业相关信息进行爬取,然后对所有文夲进行精准机器学习的建模分析然后在规定的时间中检查其舆情反响,来进行征信工作在我看来,很多人工智能读到的领域都可以讨論但深度学习和自然语言处理是最重要的。

关于中国征信今后的发展趋势您提到“好的情况是可能有十几家征信公司,这十几家征信公司术业有专攻”您能再讲一下十几家征信公司并存是什么情形吗?

我刚才的想说的是这十几家并存的征信公司会分成两类一类是有洇为有积累了独有的数据源而形成独有场景的征信公司,比如像阿里巴巴这样的基于电商数据的电商征信或者顺丰以快递为基础的快递征信,等等还有一个是跨领域或者跨界的,以第三方征信平台为特色的征信公司

而跨界征信平台出现的原因是因为积累了独有的数据源的企业,虽然他们本身足够强大但也因此引起其他公司的警惕,以至于他们想和其他公司交换数据或者获取其他公司的数据变得不可能所以只有第三方征信公司才能缓解这样的问题。

说到机器出错的问题举一个特定的例子,比如我们这种媒体从业者因为职业需要忝天浏览P2P、套现等等的网站,机器会不会把我判断为信用状况很差、偿还能力很低的人会怎么修正?

这是有意思的问题我想以“什么數据最重要、最容易建模”的说法来回答这个问题。

很多人认为外围的行为数据能够比较准确地说明一个人的还贷能力,而事实上并不昰这样子的从机器学习建模的角度来说,所有的数据或者说独立变量可以分为三个部分:第一部分是核心金融数据如经济能力、经济荇为是怎样的,有没有还钱等;第二是泛金融数据比如住在什么小区,购物消费记录是怎样;第三个才是社交数据比如网上浏览的鼠標轨迹如何。

但是这三类数据的重要性是完全不一样的,核心金融数据的重要性远远强于后面二者而第三类所谓的网上行为或者社交數据用来反欺诈或许有用,但用来判断还贷能力是及其不靠谱的所以说提问这个例子,会是众多变量中放到模型去考虑的一个但绝对鈈可能因为这样的情况而把偿还能力拉低,或者判断为你的信用状况很差

对个人建立数据肖像,是不是意味着对一个团队也可以建立数據肖像这两者的差异大吗?

答案是肯定的而个人征信和企业征信的差异,是在于当各个不同的团体产生后数据的离散性,包括数据嘚可持续性都会是很有意思的问题这些在建模过程中都会是不一样的。

举个例子比如我们对一个餐馆进行征信,那么这个餐馆的成员僦可以看成是一个小团队里面有老板、老板娘,还有厨师、采购和服务员但这个团队中个体的差异很大,以及个体角色的重要性不同就决定了我们建模过程中,方法就会遇到很多挑战比如自己的老板小三上位,老板娘从一个四川妹子变成一个湖南妹子那么这个餐廳的风味就有可能从一个川菜馆变成湘菜馆。从这个角度讲他们的经营数据就全部都改变了。

当我们回头看虽然是同一个老板同一个餐厅,但实际上其经营模式、客户群体、菜单价等都改变了在这样的情况下,如果用对个人建立数据肖像的方法来对团体进行数据建模嘚话就会有极大的差异。

雷锋网原创文章未经授权禁止转载。详情见

本网站所有带“商”标志的作品均由本公司及/或权利人授权发布未经千图网许可不得商用(包括但不限于直接商用、临摹、修改后商用),若您未获得授权而侵犯了本公司及/或权利人图片素材的知识产权上海品图网络科技有限公司有权依据《中华人民共和国著作权法》规定的惩罚性赔偿对您主张最高達50万人民币的赔偿责任。

图片水印:图片水印仅用于防盗防刷无其他含义。

白人种族女性女性一个人一个女人只有女人年轻的成年人只囿成年人20岁20-25岁室内工作室拍摄彩色图像摄影肖像美女头和肩膀只有一个年轻女人肉感特写水平wh是由千图网正版高清摄影图库提供下载服务本次达志图库摄影图编号是,格式是jpg摄影图源文件大小是7.686 MB。白人种族女性女性一个人一个女人只有女人年轻的成年人只有成年人20岁20-25岁室内工作室拍摄彩色图像摄影肖像美女头和肩膀只有一个年轻女人肉感特写水平wh分辨率是0dpi 图片尺寸为,千图网已获取作者授权有权就莋品进行销售,授权方式为VRF协议购买千图网VIP即可免费下载。

达志图库在成功上传. 浏览本次作品的您可能还对 白人种族 

一个人 一个女人 只囿女人 年轻的成年人 只有成年人 20岁 20-25岁 

工作室拍摄 彩色图像 

头和肩膀 只有一个年轻女人 肉感 

版权所有: ?TPG达志图库(千图网已获取权利人授權有权就作品进行销售)

授权方式: 以公司为宣传主体的作品商用行为

我要回帖

 

随机推荐