欢迎光临深圳CIO协会网站
当前位置:首页 >> 动态信息 > 专家论坛 > 正文

周卫天:数据智能点燃金融行业应用和创新

新闻来源:CIO时代网  发布时间:2017-08-17   点击数:1
  •  

      2017年8月12日下午,由中国新一代IT产业推进联盟指导,CIO时代学院和《金融电子化》杂志社联合主办的“第十期金融CIO论坛”在北大中关新园成功举行。来自金融业界的专家、知名CIO及金融CIO班学员欢聚一堂,就本次论坛主题“人工智能时代的金融创新”展开了深入的探讨与交流。阿里人工智能专家、阿里大数据资深专家周卫天在活动上发表了题为《客服转型中的AI应用》的主题演讲。以下为演讲实录:

    \
    阿里人工智能专家、阿里大数据资深专家   周卫天
     
      首先感谢张总、邵总、姚总的邀请,今天我讲的内容是关于阿里在人工智能的应用方面,首先智能质检、智能客服和智能语音以及图像识别在阿里巴巴集团已经大规模成熟使用。例如拍立淘在服装快速搜索, 智能语音在高德地图, 钉钉办公协同软件的应用就是很好的例子, 同时我们在对外服务中给不少保险公司的呼叫中心提供了成熟的智能客服和智能质检的成套解决方案. 那么我今天侧重在以下三个方面 – 这三个方面中的数据智能和用户画像是人工智能的基础应用, 也是往往企业应用没有用得好和做得精的部分:
     
      主要有以下有三点:
     
      1.数据治理和数据智能
     
      2.用户画像
     
      3.风控实践
     
      一、数据智能
     
      数据智能是人工智能中最基础的,有三个要素。 分为别大数据 大计算 活场景。三个要素中大数据是之丰富的内外数据和鲜活的数据拼成数据大拼图而进行分析. 大计算是海量的和实时的算力, 云计算使得企业可以算得快, 算得准有付得起. 而活的场景是指金融很多场景是”应景”而生的. 主要举例如下一个场景,比如银行都会要有一个征信,对于征信来说要看还款能力以及还款意愿,但是对于高档公寓的管理则在审视租户的信用分的时候,以晚上11点之前是否回家、是否养宠物考虑是不是 “优质租客”,这儿我们看到的信用分的评价因素是完全不大一样的. 因为这涉及到是否会引起其他租客的投诉,所以场景不一样时看到的就会不一样。
     
      数据智能的核心基础是数据治理, 没有强大的技术和方法论做好数据治理,就会缺失数据的质量和安全, 那么数据智能成为空谈, 智能成了空中楼阁。 阿里10年来一直在探索数据治理的创新和实践,积累了很多经验. 举例阿里从2014年开始两年多历经云梯2工程。 使得阿里巴巴集团如此众多的业务和体系有一套完整的, 统一的, 一致的数据个各条业务线输送有质量, 有鲜活度有安全的数据源, 正是阿里这一套先进的数据治理框架和实践,让很多公司都选择了阿里作为数据智能的提供者和战略伙伴。 国家税务总局以前有很多万处的数据不统一, 从总局到下面的不同应用协同中的数据。最后选择阿里作为数据治理和最后提供数据智能正是看重了阿里巴巴数据智能的强大能力。
     
      阿里做云梯2项目时列了40多个项目。第一套上的系统是支付宝,互联网公司上支付宝。这是互联网思维, 传统企业选择一般会选择重要度中等和迁移难度也中等的应用进行PILOT, 然后再规模推广。数据治理涉及到的数据标签体系、数据安全、数据质量和数据成本。对大企业来说,不同的开发单元和主管每个开发单元有自己的数据集,可以进行协同, 但是数据有乐意做到安全 – “核心数据看不见, 关键数据拿不走”。
     
      二、用户画像
     
      银行里的信贷系统都会有一个信用评分,个人画像可能是一个体系,通常根据有没有逾期,消费贷等维度的数据来进行评判。网上银行的审核信息有可能从社保的数据来反推还款能力。比如小微,买电子税务发票,这是对个人或企业的画像。比较热的关系网络也是画像。关系网络,如银行审核循环担保的时候,A企业给B企业担保,B企业给C企业担保,C企业给A企业担保。这中深度的关系网络也是A企业的画像。而关系网络正是反映大数据算力的能力, 对于银行,资金往来,账户的往来的关系也可以理解为对于账户的 “画像”分析。延伸到人工智能,人脸识别是一个立体的画像。银行里个人的数据非常重要,用户真正用到的数据占三分之一,在我们的网银系统里有各种各样的系统。 阿里有大原则:原数据一定不能动,尤其用户的源数据是天条, 不能随便使用。客户的数据不能对外输出。我们合作的伙伴想要阿里电商的数据,我们第一不能输出源数据,第二围绕应用场景有一些模式可以考虑数据应用输出, 为金融行业真正解决问题。如果本身维度、数据质量不够,画出来的画像能够去用的场景一定是大打折扣的。举个例子,友盟+的数据: 每个人的手机平均装41到42个APP,如果当中有4或5个APP与跟金融相关,那银行或者证券公司优先要去营销。另外,看APP打开频率。看高德地图的数据,阿里电商数据和高德数据进行了关联碰撞,高德地图围绕应用场景可能输出的标签大概有几十个。有人的基本信息和财务信息,从财务信息中了解到开什么车住哪个小区,覆盖度很准,但是必须牢记这些信息是包裹在业务应用场景中输出的, 另外这涉及到阿里的技术能力-ID Mapping,ID Mapping技术是阿里有海量的数据和强大的数据科学家磨砺出来的数据归并和数据有效关联然后进行挖掘分析的能力,比如:把手机ID 186,139和设备ID, IMEI号关联起来,甚至跟微博ID关联起来。手机带着一个用户的十几个字段,设备ID带二十几个字段,关联后,则可到三十几个有效字段,人的画像会丰富、立体。价值呈现倍数级增长。当设备ID跟手机号码关联后,可得到有质量的用户画像,得到实时性较好、鲜活的数据比较难了,我们想想,券商获客成本在人民币350到450之间,直销银行今天的获客成本也不低。从金融行业来说,有了比较精准的用户画像和信用评估之后来进行营销或者发信用卡或者进行个性化服务, 效率和效果度能够大幅提升。我们对存量客户的精耕细作,对获客成本的降低,对增量客户的价值挖掘,优化产品, 交叉营销,个性化定价和风控一定会做得更好。
     
      对于地方性银行的风控应用,由于小微企业的业务比重大,所以对小微企业来讲怎么来授信评估,对企业的图谱, 企业进行多维度画像和分析评分, 对小微企业的授信很有意义。运营优化就是围绕大数据的日志交易,把日志数据放到大数据平台里,把机器数据经过处理导入大数据平台理, 甚至把账户交易的部分数据导入到大数据平台理, 做日志分析, 对于用户行为, 安全水平,欺诈活动,服务水平进行在线的交易监控, 交易分析和预警。用户画像之后,业务创新、批量获客,比如小米零元买手机跟北京银行合作,小米优质用户,北京行批量获得了优质客户,同城跟江苏银行和同程合作也做过类似的事情,不管同程还是小米,它的会员在垂直平台上积累了数据, 能够进行有效画像, 找出 “白名单”。
     
      另外阿里的PAI平台,“platform of AI”,人工智能平台. 是从如今阿里巴巴业务部门“阿里妈妈”实战走出来的AI平台,平台有两个特点。第一,它能够做到对几千亿的特征和上万亿的样本进行CTR预估,而且会有一些技术值,像AUC到0.78。它是从互联网实战中出来的平台。第二,刚刚演示时,大家看到对银行内部,我个人认为大多数银行用SAS的用过这个产品的人员去拖拉,能够很快用起来阿里的这个PAI平台。这个在路线图中是兼容SAS。目前平台是传统的MPI并进行计算能够支持。阿里自己的参数服务器PS,还有跟谷歌发布的TF和CAFFE人工智能算法框架的兼容。对金融用户的线上行为轨迹、线下行为行为的深度挖掘、预测和关联分析, 这些都是深层次的画像,让我们更好的对用户进行预测,更好地了解用户的信用度。从而从网上银行申请信用卡,可以申请到5千,八千或1万的额度, 完全是根据今天基于大数据的在线和关联和深度的画像能力, 给出的新的信用维度和评分机制, 这些依赖金融机构现有的信用模型是不能给网上直销银行的客户进行分层授信的。
     
      三、风控实践
     
      评分卡建模。蚂蚁最早评分卡是借鉴银行的应用模型如FICO,评分卡有很多算法。用户评分卡阿里一些指标评估有很多实践。比如,传统的用户评分卡或逻辑回归模型是取样,有样本的,但大数据是全量,并且结合了特征工程。比如,一个省行做三农贷的风险分析,用简单的算法K-means,这是一个聚类算法,当时我们当把70多万三农客户的相关数据灌入大数据平台,一开始会呈现出几十万的特征值,而传统的信用评分模型往往只需要考虑几十个字段, 例如18个月有没有逾期,有没有坏账, 消费贷的一些信息,这是经验值框定的. 而采用大数据平台进行海量数据分析时刚开始九十几万的特征,还可以进行过滤,用K-means的话,对聚类的这个样本也需要调整,所以它的运算成本也是很高的。最早是在英国流行病发现的时候用这个算法,可以看到,最后过滤到几千个特征的时,要引入业务经理,信贷经理把三农客户的行业特征,还款的判断等等, 通常过往的几年还款很好的特征农户,这些信息对学习迭代是非常有用的,但最后迭代出来用,跟传统的银行里80多种,那些字段,说明是靠大数据分析,当然这当中有业务信贷经理的输入,是对传统的信贷模型授信的补充。
     
      营销不多讲,营销是基于画像后围绕存量客户如何进行产品的优化、交叉营销、VIP客户的深挖,尤其在保险,比如:保险公司在CM系统当中缺少一些维度,推一个保险可能效果很好,但是要有标签。银行总体来讲,1、实时性不够强,2、银行有滞后性,滞后性是对企业的风控评估评级,规则引擎是两年半,大概是两年到三年前开发的,而没有实时更新的。风控的规则引擎能否做到准时是非常关键的点。涉及到实施风控一定会有资金账户的交易往来进行实时趋势分析和实时动态的抓取分析,资金账户的实时数据的碰撞。比如企业图谱关联担保,可以做小贷的风控。
     
      智能欺诈,蚂蚁积累了很多的经验,背后有三张网,一张是有非常规交易的记录的历史信息网,第二张所有交易资金来往的交易记录网,第三张是相关的账户拥有人的深层关系网络,当三张网和三张网数据关联之后,背后的数据达到万亿的规模,而且这些数据都是在线实时的。在这些情况下要做套利、或套现的动作,当第一个动作做出的时候, 蚂蚁金服就能够精准发现它属于欺诈套利,基于后面三张网的所有关联的数据和模型。反欺诈,银行经验更足,但真正收回来的很少,哪怕运用法律。我们把售后的风控移到售中,事后能到事中,当中有很多的实践,很多实践是以蚂蚁来做的。
     
      我们看企业的图谱评估是,会看成长型企业,看企业和上下游客户的订单系统,库存和供应链系统中的数据, CRM中客户数据;在线怕爬虫采集到的企业数据, 企业董监高的行为数据等等。银行传统的放贷,要看连续几年的盈利能力,负债能力,但是对今天的AI大数据公司来说,看成长性和标的的稀缺性。看企业图谱时,可以从全新的维度去调整。在线授信也做了一系列的模型。主要从预售性的流程、征信报告、公积金、消费(车 房)数据、社保数据、其他数据,这是从大数据的维度的风控,在线授信的实践。
     
      小结一下: 第一个是数据智能是人工智能的基础, 非常重要. 阿里集团实践了很多年,经历了2014年到2016年两年的云梯2过程,阿里有数据评分体系。评分体系是对后面的数据表需要按照业务的重要性和调用的频率来评分。这些经验,对数据质量,数据治理,数据安全,有很大启发,在数据智能的基础上也有一些产品和工具。第二个是立体的精准的画像,对于阿里,数据技术和数据以及画像积累的工程和应用场景的经验给画像的立体,动态更新做到鲜活,画像的精准和前瞻以及画像的 “应景”都给 泛用户画像打下了扎实的基础。画像是营销智能和风控智能的基础,画像的有效与实时性对于AI非常非常重要。最后我们也谈了谈实时风控和反欺诈的具体实践, 也聊到了阿里云金融智能. 对于阿里和蚂蚁的风控实践已经在金融行业更多的AI应用,后面有机会跟大家多交流和多学习,谢谢大家。