注:近日,九章云极联合创始人兼CEO方磊博士在天堂硅谷信息技术闭门会上做了精彩发言,以下根据其讲话实录整理而成。
谢谢大家,要不就先解释名字是怎么来的吧,主要是当时想的《九章算术》是我们国家第一个讲究数学或者算法的经典著作,所以选了“九章”;然后创立公司的时候,我们觉得云计算是未来,我自己也是在09年最早一批开始做云计算的,所以也取了个“云”字;“极”字其实是取了一个汉字里面的一个很大的数字,大家知道我们有千、万、亿、兆、京、垓很多单位,“极”就是其中一个单位,是10的48次方,是个很大的数,我们就把“九章云极”串在了一起。
我今天想给大家分享的是数据科学平台,九章云极从2013年开始我们一直在做这件事,我们叫数据科学平台,但是很遗憾Gartner对于这个赛道的定义是2017年2月份才出来。所以在那之前,我们到处去跟别人交流,有一点不受待见,别人问你这到底是干嘛的?
我们到底是干什么的呢?这个疑问从我们公司成立伴随着我们一直到现在,虽然疑问开始变少了,但相对还是挺多的,所以到底什么是数据科学平台?
我简单说明一下,我们对数据传统认知有三大块:第一块我们叫数据仓库,就是把所有数据都收集起来,是相对成熟的一个行业,我们去看Gartner的象限和报告是很成熟的。第二块我们叫数据治理,这个行业在中国主要是以咨询公司为主,来治理数据,那么在美国也有一些偏AI的公司也进入这个领域。刚才高总也提到数据库里1万张表,可能每个字段都说是客户,但名字都不一样,我只能把它拆出来,这些其实也是属于数据治理的一个范畴。
第三块传统的叫法是BI,你可以理解成,第一块是把数据存起来,第二块是弄清楚数据在业务里的含义到底是什么,比如125是订单的金额,还是卖掉货品的数量。BI这个词用的非常早,但事实上在过去绝大部分BI就是在做可视化。当把数据仓库里的数字含义弄明白以后,用可视化的方式展现给不同的人,可能是偏业务的,也可能是说偏运营的或者是偏领导层的,不同人看到的dashboard是不一样的。这里面产生了很多特有的市场,在中国大屏就是个很大的市场。因为领导都需要看大屏,或者很多地方都需要有一个让人参观的地方,就有很多大屏,这也是BI的范畴。
2017年2月份Gartner加入了第四块,他们叫作数据科学和机器学习。简单来说,数据的一些value的出口在BI上,主要还是以可视化的方式来展示的,那么在数据科学和机器学习,数据value的主要体现方式是做模型。大家可以认为从传统的比较简单的回归的模型,到稍微经典的机器学习的模型,再到比较复杂的深度学习的模型,都属于这个范畴,所以我们是用模型来体现数据的价值,当然模型绝大部分时候是来做预测的。
这跟以前是不一样的,举一个非常简单的例子:一个信用卡中心,有过去的所有的客户还款记录,如果你做一个BI的项目,看到的是当月有多少还款,还了多少钱,有什么人不还;那么你做一个所谓数据科学的项目,most likely去做一个模型,预测下个月谁不还款,下个月谁不还款这个模型叫预测模型。
但是他业务价值还不明显,那么如果体现在业务价值上,我有数据,比如所有还款的记录,然后我有一些算法,这些算法当然可能是各种各样的算法,然后我有个人叫数据科学家,或者说一个懂一些数据的人,那么这个业务价值是什么?业务价值可能是说,这个模型预测下个月谁可能不还款,然后这个人如果来申请调额,我就拒绝他。因为好多人觉得下个月刷爆了,那就再调一下,再多刷一点,反正下个月还不出来,那么这个月的业务上银行是有事实的钱的损失的,那么业务价值就是说,银行拒绝一些调额人的请求来减少损失,那他用到的可能就是一个预测模型,这个算法是在过去的历史上判断出每个人的还款概率。
数据科学简而言之就是说有数据了,然后有一个人来做个算法都会对业务有个价值,其实我们刚才说了很多事情,前面几位我觉得大家都说的,可能跟这个是有些重叠的,在这个里面,为了做到刚才说的那些对业务的各个场景,我们称为数据应用的话,你需要一个相对平台性的东西,我们就是在做这个平台性的东西的厂商。
所以看一下历史是怎么发展过来的,其实中美有一个很大的差别在于,在数据分析这个行业,中文的“分析”这个词一听就比较小,当然很多投资人一听做分析,就感觉不太行了,市场不是很大,但是在英文里说“analytics”这是个巨大的行业。大家中文里说的很大部分所谓AI行业、人工智能行业,其实都是属于analytics这里面的,所以整个大的分析行业,如果说用全球的视角来看,其实是很大的一个市场。
那么在最开始的阶段我们称之为semantic data,就是说一些数据的基本的汇总,其实到今天为止,这个也做得很差,说老实话,在数据中台可能还要补一些这样的课,因为有很多数据库里面很多含义对不上,就这一块阶段主要是一些数据库的出现。到了2000年以后,大家慢慢的都有数据仓库了,这个时候就进入了我们今天认为的BI时代,analytics这些厂商基本上还是围绕着可视化展示为核心来做,还有一些我们说探索的能力,比如说你可以自由的去发问,问过去三个月江浙沪什么女性买了伞,一共多少人。它可能不是一个预先定义好的报表,它可能是一个自由的查询。到2015年以后,我们进入一个增强分析的时代,这个时候其实出现了新的品类叫数据科学平台,更多的是让你可以用机器学习或者深度学习的方式开始构建模型了,我们进入了模型的时代。所以总结来说,数据科学这个事,就是数据的价值的出口主要是以模型的角度来体现的。数据科学平台最核心的事情是做模型,当然这个做模型本身在很多时候还要人做的,我们叫他们数据科学家。
现在我们处在2015后面的增强分析的时代里,我们看一下国际上有哪些厂商,他们都是在不同的年代成立的。我刚才说有些公司成立比较早,比如说Alteryx,它是2009年成立,2017年就上市了,现在大概市值60亿到70亿之间波动,它是一个典型的数据科学平台的厂商。同时也有一些别的厂商,比如Dataiku,Datarobot。我举这三个厂商的例子,它们代表了三种不同的方式,我称为三剑客,Alteryx成立的比较早,那时候建模的方式主要还是在数据准备上,建模本身是以编码来实现,那么到Dataiku成立的时期,建模更多的时候被我们称为拖拉拽,现在觉得大家对这个说法都已经有点审美疲劳了,就拖拖拽拽,然后就出来一个类似于工作流的东西,然后跑出一个模型来。那么到了Datarobot,它虽然在2013年成立,但真正开始发力是2016年,拿了AZ16的融资,它主打叫自动机器学习。
所以可以看到其实整个的轴线在数据科学平台上是围绕着建模,把建模的壁垒越降越低。编码建模肯定需要程序员甚至高级程序员;那么到拖拉拽建模,一些我们叫平民数据科学家或者不是那么熟悉编码的人,而不是一个机器学习专家都可以使用;到了自动建模,偏业务的人员都可以使用。技术的轴线,其实整个所谓的IT业就是不停的来降低技术的壁垒。
这三个厂商其实体现了三种不同的建模风格,那么今天的趋势是建模方式都融合了,大家都会去做自动建模,大家都有些拖拉拽这个功能和编码建模,我们称为“三位一体”,就是各种建模方式对于不同能力的人都会输出。然后我们自己吹一下自己,确实九章云极在国内是比较早的专注的来做这一块的公司,我们一开始就给自己定位了,我们的数据科学平台叫DataCanvas,就是油画、画布的意思。
经过这么几年,我们也服务了一些客户,我们是比较专注的在提供一个数据科学平台,让数据科学家可以在上面去构建各种各样的模型,这样的模型就是能够去赋能各种各样的业务场景。那么要一个数据科学平台,主要干什么事情?数据科学平台就是建模型的,所以你有一个业务场景就来建一个模型。比如说一个保险公司的业务场景,车辆发生剐蹭后车主要去发一个claim,然后你要上传一张剐蹭照片,上传照片以后,其实后面是有一个模型在处理的。因为淘宝上P照片特别便宜,所以保险公司有一个模型判断一下剐蹭照片是不是被ps过,人肉眼很难分辨,但是用一些比较简单的深度学习的网络去训练一下,就很容易的发现它是不是ps的图片。这种情况下保险公司的科技团队的人,或者说一个核赔的部门的人,就是做这样一个事情。
所以说首先它可能得有个人做这个事,其次它有业务目标——要判断一个图片是不是P过——然后把自动模型放到整个业务流程里面的某个地方去调用它。这样一个过程其实基本上会经历这么几个阶段,首先得有数据,数据有可能需要我们中台去读,或者说什么接口,拿这个数据来以后,可能有的是有标注的,有的是没有标注的,我们要套用一些算法训练它,训练完这个模型,我们会把它上线,上线来调用它,并且持续的更新。你可以理解这个数据科学平台,就是内部或者外部的数据科学家用它去构建一个个数据应用,去做一个个数据科学项目。
核心的建模方式其实就那么几种,我可以共享一个我们自己看到的数字。在我们云上的测试环境里面,有很多用户开了很多账号,用户测试的时候很喜欢开个账号用公开数据来试一试。在这些账户里面能编码建模的,就我们看到的3%都不到,所有账号,你别忘了这些账号已经是有一定的bias,因为他感兴趣才来的,不是大街上随便抓的人。那么能够拖拉拽建模的人,其实也就5-6%。但是有60%的人能够完成自动建模,可能没搞十分清楚,但他们也完成了,所以自动建模对壁垒的降低还是很显著的。但是真正要实现业务价值,其实并不是降低建模难度就可以,待会我会分享一下我们的一些观点。所以大家可以看到能够明显降低壁垒的,就是自动机器学习。
自动机器学习其实还是有很多步骤要去做,因为做一个模型你可能要准备数据,那数据准备是不是自动化的,然后你的算法是不是自动化的,算法调参是不是自动化的,总的来说这里面很多的门类,后面我有一个例子,大家会看到,怎么去做这样一个事情。自动机器学习像自动驾驶,听起来很好的,其实没那么靠谱,如果当自动驾驶的这个L1、L2、L3、L4、L5这么来看,我觉得现在有个L2.5也差不多了,可能达不到那么非常完美的程度,特别是对于一些业务高度相关的一些地方。其实自动机器学习能做的事情,相对比较有限。过去五年是数据科学发展比较快的五年,我们能看到整个业界不管是技术的革新,产品的革新,还有包括我们在内的国内外的一些厂商,所有事情,核心在于降低壁垒。
做模型上线这个事情,很多人对它的理解可能是比较浅的,比如说我做了个模型,判断照片是不是P过,假设这个模型做出来挺准,那就调用它。但是其实在传统的企业架构里面,去运行一个学习模型这个事是不存在的,因为以前的BI,很多时候它是到了一个大屏幕上去展示,它并不在那持续的运行,它不是生产环境的,就是整个持续运营的生产系统的一部分。交易是每时每刻发生的,但是你可能1天才跑一个报表。但是如果说这个模型假设是每秒钟都有可能APP的请求进来,都是去调动它,所以这个环境要运行它,那么这个事情按高大上的说法,不是叫做模型生产化,它叫productionize AI,我觉得实际点说,就是说怎么把模型运行起来,所以当你做完一个模型运行模型,其实也是IT再往前革新的一个很重要的一个窗口机会。美国有一些创业公司,其实都在做这一块模型生产化的工作,因为你需要一个新的IT架构让它持续的运行、迭代、上线、下线做这样一些管理工作,这一块原来在整个企业的服务数据架构就是不太存在的,所以这是很大的一个需求。
我们看到有些做模型运维的人,现在为什么要模型运维,因为交易系统是有业务运行,它不能坏。其实这个模型一直在被运行,一直在被调用,模型也有需求。做数据科学最可怕的事情,他需要是个杂家,我们公司现在有人来面试完,第二天却不想来了,他觉得要学的东西太多,压力太大了。因为你要懂一些数据的事,然后也希望懂一些机器学习,甚至你在业务上也会沟通,有的人技术很好,他很不愿意去理解业务的一些问题,但他也很难在这里去做一些深入的工作,所以你也可能是会一些编码,同时还懂一些分析的概念。比如当你发现这个数据大量是缺失的,missing value很高,那么数据都这么少,你怎么去补充一些数据。有的时候你也没办法,你也不可能退回去让业务重新给你更多的数据,因为历史上积累的就那么些数据。所以对整体而言,我觉得我们产品大幅降低了这些各个岗位的人的要求,降低了对数据科学的要求和依赖。
举个简单的例子,是一个城市商业银行简单的客户流失预警。客户流失按照最简单的定义,就是三个月内整体资产下降超过60%。整体资产包括他的理财、存款、一些信贷产品等等。这个银行如果做一个预警的话,利用自动机器学习,在这个案例里几百个变量几十万条原始记录,很快就做完了,所以看到自动机器学习确实让一个偏业务的人,能够很快去构建这个模型,甚至都不再去需要立项,去重新经过一个很复杂的采购流程,不然可能也得花个几十万。他能做出来模型,这是个非常重要的,然后下一步是怎么去用它,怎么看效果,其实也是个挺复杂的过程,但不管怎么样,它把第一步已经大大的简化。
这个例子大家可以想象一下,刚刚说了要有数据,就是以前所有历史上流失的客户,那么这个案例非常简单的原因在什么?大家能看出来,它的历史数据都是有标注的,因为历史数据已经告诉你谁流失了,所以他的标注是非常简单的。其次它的定义也非常明确,就是三个月从开头到最后的余额一减,超过60%,就标注了,所以你训练它也很简单,然后经过去验证,其实准确率是相对比较高。以往银行做完这个流失模型以后,他们会用推荐理财来挽救,比如现在余额是五六万,预测要流失了,银行给他推个7万起的理财产品,让他再转一点进来,这个叫拉新,做业务人都知道,让他能多投一点钱进来。有意思的是,这个模型用的好好的,然后遇到P2P疯狂爆雷了,P2P一爆雷不保底了,所有人都在去银行排队买大额存单了,所以根本就不需要推荐理财,因此流失预警模型在那个时期也用不到了。你就发现模型是高度依赖于业务的。
大家可以看到,原来很多时候,我们如果说去看一个软件或者一个可视化东西,很多时候不是运营驱动的,而是管理驱动的,包括监管报送,比如在银行里做的比较完善的监管报送的报表,它其实也是管理驱动的。但是其实像数据科学的一些项目,很多是运营驱动,运营驱动的特点就是说它多变,经常会调整,所以对一些客户来说,他为什么需要一个数据科学平台,也是有这个原因。
这个在金融行业比较明确的例子,其实我们看到了,它是利用平台降低了壁垒,这个平台就是让数据科学家或者说我们叫水平基础的数据科学家,我们叫60分的人,90分的人都能够更快速低门槛、高效率来构建模型。
今天的主题,一定要说从技术到场景,那么在数据科学,我觉得新技术出现的特征,第一个就是对非结构化的处理能力,这是很显然的,其实非结构化处理的能力在保险行业的应用是非常广的,不论是从保单还是到核赔的过程,其实我感觉比银行还要广。
因为银行的好多数据是高度结构化,相反保险数据的结构化程度要差一些的,所以非结构化数据出现了,技术对于这些场景都产生了巨大的变化。如果说哪个技术出现导致了一个巨大的场景,不知道大家直觉感觉是什么?我再举个例子,这个例子体现了一个微小的技术进展带来了巨大场景变化,这个就是PageRank。我们知道informationretrieval这门学问教书教了30年了,但搜索引擎并没有出现,因为在谷歌发明PageRank之前,对于全文检索这么一门放在图书馆系里教的课,最高级的算法叫BM25,如果学过的大家都知道,文章稍微长一点或者文章稍微多一点,使用就非常困难,但google发明了PageRank这么一个算法,让全网的搜索引擎,立马成为了现实。
这是个简化的说法,但毋庸置疑PageRank的一个算法,我觉得其实这个技术核心让我们搜索引擎这个时代成为可能,所以有的时候,技术上一个比较看起来感觉不那么大的事,最后是能长个苍天大树的。说回来,刚刚说的结构化,结构化的处理能力,这些深度学习的算法就带来新的一些机会,还有一个就是实时的事情,做数据的人,基本上说大家脑子里下意识还是跑批一些概念,实时这一块是非常弱的。
实时能力的进展,主要是流数据、内存数据库这样一些技术的进展,让一些非常实时的反欺诈、资金异动,甚至说反洗钱都成为可能。这个也是一个技术进展带来的。然后下面包括还有算法门槛的降低,还有说数据量的一些情况,我就不一一赘述了,我先说两个具体的例子,大家也能感觉到一些技术进步对一些具体场景的影响。
先说一个IOT的场景,其实这个里面刚才从上午的华为云一直到后来可能明略这边都提到了IOT。我说的是非常实际的场景,就在一个油田里,大概有4万口井,每口井都有很多传感器,把数据收回来,收回来之后,他们为了完成无人值守这么一个业务目标,需要构建一些时序异常的模型检测。我给大家看一下,时序异常检测其实是一个非常广的模型,那么在这个里面会做很多事情,像数字信号处理,这一块基本上在端上完成了,因为有大量的振动,还有很多压力的东西在线上,所以那些东西会导致你的数据有很多漂移,所以有些算法在端上会计算,提取完了信号以后,再发回云上或者端上的时候是比较干净的,这个时候,后台会跑一个我们产品跑出来的模型。这个时序数据很有特点,一列是时间,一列是值,这条曲线是随着时间变化的一条曲线,那么在这个曲线上面,你想通过一些训练数据,来非监督学习或者有监督的学习,人工标注的,来判断哪些是异常,有的你不用标注也能判断出异常。在这个里面你可以通过一些算法,被监督的算法、深度学习的算法或者有监督学习的一些算法来训练它,训练完之后就会产生一个模型,这个模型在平台中训练的过程中,它会使用一些资源,训练出来这个模型会帮你在里面去预测到一些异常的点。可以看到我们自动机器学习对于时序异常检测这一块,其实做的还相对比较易用的,对于一个不是特别懂机器学习的人可以很容易地把这个模型构建出来。你可以看出来在构建的过程当中,他就会开始对一些形势预测,通过比如说上面的可能用的是算法A,下面的是算法B,他们发现了异常点不完全一致,那他可能还要做多种算法的自动组合,组合完了以后,能看到哪些点是异常的点。
刚刚提到有些是无监督的,有些是有监督,总而言之,就是把这些异常点都发现出来。在技术层面看是一个深度学习,那就是无监督学习、有监督的一个组合,让你判断一个实际数据的异常点,这是对一个技术人员的话,然后对一个经理的话,就是说AI落地的场景,能判断异常的工作状态,那么对领导层的话叫无人值守,就是将来五年、十年的一个大的方向,因为每秒钟那么多数据,数据收回来了以后,你总得有个人看,但你不能派那么多人去看它。
另一个例子,我想说的是将来五年的一个事情,刚才说的都是降低壁垒、降低门槛,你就很容易把模型做出来。将来其实一个更大的挑战在于说怎么把行业知识融合进去,就是knowhow,其实门槛降到足够低,有数据还是不一定能把模型做好。我说一个信贷风控的模型的例子,在这个模型里面对于小微风控来说,其实是用各种维度的数据来判断这个人贷款或偿贷的风险变化,比如法院判决他欠了100万,这个数据进来以后,它的风险立马就变了,所以有很多外部数据。
那么这是一个银行用的一个风险模型,它有这么几个维度,一共是2400个特征,这2400个特征之上,它构建了这个模型。我给大家举一个例子,就是大家想象的机器学习比较简单,比如说内部数据,头70个特征可能一般长成这样,是内部数据,那么假设外部数据、工商数据82个特征可能长成这样,大家觉得这2000多个特征放进去,经过升维、降维,最后这个模型应该很棒,其实不是这样的,做完之后你会发现效果真的不太行,所以原因是什么?对于一个高度专业性的场景,其实你是需要很多行业知识,比如对于一个企业来说,可能就是隐形负债的风险,第一个就是银行间往来流水大额资金的民间借贷,像这种东西每个信贷员都知道,但我们机器学习模型是很难捕捉的。
所以你要把这些东西加工成增强的特征,它放到你的模型里去才能做得很好,所以这里很依赖于一个优秀的数据科学家,这个人不一定是我们公司提供的,但是我们的产品会提供一些方式,它来构建一些特征库或者一些衍生的方式。这些很多都是我们业务知识knowhow,能大大提升模型的质量。
所以总结来说,数据科学平台就是拿着这些算法,有个人降低门槛解决业务问题,将来发展趋势可能不只是降低门槛,降低门槛做得还可以了,但是把行业知识怎么结合进去,这是一个很大的挑战,所以我们的产品DataCanvas,就是要引领的这个事情,我们四个仓库就是特征仓库、模型仓库、模板仓库,还有一个自动机器学习的仓库,利用这些方式来解决一些知识融合的问题。知识融合是一个非常重要的点,以后能够极大的决定这个业务之后的成败。
所以最后小结一下,到底技术带来一些什么样的新的涵义,第一个就是说降低门槛以后,会带来很多标准化的数据产品,第二个如果真的能够把知识融合做好,可能会带来一个很强的积累效应,就A用的模型很快能放到B上去,第三个如果对一些再新的技术,有可能会带来一些网络效应,今天因为时间不太多,我就不赘述了,大家有问题就问我或者咱们接下来交流。