不谈技术细节,自然语言处理能做些什么

深度神经网络的爆发使得机器学习受到了广泛的关注, 而NLP(自然语言处理)又是其中最受关注的部分。ThoughtWorks正在尝试NLP技术的商业化落地,例如对话机器人、针对特定领域的机器翻译等。基于NLP的重要性和其最近几年的飞速发展, 它成为了人们经常会讨论的一个流行话题。对于专业人士来说, 通常会聊到词向量, LSTM, attention等技术。但是作为一个非NLP专家, 我们要聊些什么呢?或者说我们应该学些什么呢?本文就从应用角度来总结一下自然语言处理能做哪些事, 以及在我眼中NLP有潜力去做哪些事,帮助大家建立对NLP技术初步的理解。

NLP能做哪些事?

NLP的集大成者 – 语音助手

人类研究语音助手已有几十年的历史, 在科幻电影中也常有提及,不过直到2011年,苹果发布Siri, 这种神秘的工具才获得了大众的关注。在Siri之后, 涌现出了以Amazon Alexa, Google Assistant, Microsoft Cortana为代表的一大票语音助手。早期的语音助手功能十分有限, 也很少有人使用。经过了这些年的发展, 现在的语音助手已经有了很大的进步, 已经能很好地处理天气查询, 信息检索, 添加日程, 播放音乐等简单任务。此外, 部分语音助手还支持声纹识别, 提升了安全性。如果你最近没有使用过上述的语音助手, 我强烈建议你去试用一下!

尽管NLP在语音助手应用中发挥了重要作用,但仍然不足以支撑这样一个复杂的综合性系统。语音助手基本上使用了下文中提到的所有NLP技术以及很多其他非NLP技术。创建一个完整的语音助手需要大量的资源, 是一个门槛很高的领域。

基于文本分类的应用

文本分类就是将非结构化文本数据划分到事先定义好的标签类中, 这是NLP技术的一大分支, 很多其他技术都依赖于它。由于分类任务不同, 标签的定义也不同, 比如在综合用户评论分析中, 标签可以定义为 “负面”, “中性”, “正面”。而在酒店评论分析中就可以把标签定义为”服务好”, “环境好”, “环境差”等。

由于标签体系可以灵活调整, 文本分类被广泛应用到众多领域中, 下面列出一些典型的应用:

  1. 垃圾邮件的检验:垃圾邮件检测的方法有很多, 其中一类就是利用文本分类技术来过滤垃圾邮件。
  2. 新闻自动分组:对于分类新闻网站, 将新闻归类展示是一项消耗巨大的任务, 这里可以通过自动文本分类技术来自动化这一操作, 提升分类效率和用户阅读体验。
  3. 用户情感分析(评论倾向性分析):通过对用户评论进行分类(高兴or失望)处理, 可以得到用户对商家的态度, 该方法已经在许多点评类应用中得到使用。
  4. 文档自动标签, 搜索引擎优化(SEO):通过文档自动分类得到新闻或web页面的标签, 将这些标签加入到网站的Head中能够起到优化搜索引擎排名的作用。

基于命名实体识别(NER)的应用

命名实体识别的目标是定位文本中出现的预定义分类, 包括人名, 组织名称, 地名, 日期和时间, 数量等等。下面以一个例子来具体说明:

原文:

“Jim bought 300 shares of Acme Corp. in 2006.”

标注后(括号内为实体类型):

“[Jim](Person)bought 300 shares of [Acme Corp.] (Organization)in [2006](Time).”

NER也有应用场景,下面是几个例子:

  1. 新闻标注:和文本分类不同, 这里可以使用NER技术将与文章相关的人物, 地点都以标签的形式标注出来, 方便用户对某个人物或地点进行索引。
  2. 搜索引擎:可以通过使用命名实体识别来抽取web页面中的实体, 后续可以使用这些信息来提高搜索效率和准确度。
  3. 从商品描述中自动提取商品类别, 品牌等信息, 提高货物上架效率, 在咸鱼等应用上已经实现了类似功能。
  4. 工具易用性提升, 例如从短信息或邮件中提取时间和地点等实体, 从而实现点击时间直接创建日历, 点击地址直接跳转到地图App等便捷操作。

其他

除了上面说到的几种分类之外, NLP还能做很多厉害的事情:

  1. 机器翻译:机器翻译是语音助手外另一个为大家熟知的NLP应用, 也是商业化最早的NLP应用。金山快译作为当年机器翻译市场的佼佼者是我最早接触到的几款软件之一。机器翻译刚出现时准确性较低, 不过随着近年来深度神经网络在机器翻译领域的成功应用, 目前的机器翻译已经有了很高的可用性。Google translate已经率先在生产环境部署了基于深度神经网络的翻译工具,是这方面的杰出代表。
  2. 拼写检查(拼写纠错):包括单词拼写检查, 句子正确性检查。拼写检查在搜索引擎上得到广泛应用, 当你在百度搜索”自然寓言处理”的时候, 百度会自动显示”自然语言处理”的相关结果。除了搜索引擎外, 拼写检查也广泛应用在各种文字处理系统中。

NLP有希望做哪些事?

上面讲了很多应用案例, 其中大部分已经比较成熟甚至已经投入到了商业应用中。下面再罗列一些我认为目前不是很成熟但是很有潜力的NLP技术:

  • 句子, 段落的相似性检测:词语的相似度检测已经很成熟, 句子和章节的相似性检测的研究也在进行中。相似性检测有很广的应用空间, 可以用来解决问答论坛上重复问题, 文章抄袭问题等。
  • 自动文本摘要:即为文章生成一个简短的总结性段落。当我们写文章时很多人会写一个TLNR(太长不读版), 文本摘要技术可以自动为我们生成这个TLNR, 节省我们的时间。在信息爆炸时代, 文本摘要技术有着巨大的潜力。
  • 自动问答:该技术的价值无需赘述, 不过目前的问答机器人都只能在特定领域回答一些简单地问题, 通用的问答机器人目前还无法实现, 这将是一个巨大的挑战。该领域的一款落地应用来自Google, 在其邮件应用Inbox中已经开始提供邮件快速回复功能(根据邮件自动生成三个可能的回复供用户选择), 虽然目前生成的回复都很简短, 但已经有了一定的实用性。

总结

上面介绍了几种NLP技术和应用场景, 但是NLP技术涉及的范围远不止这些, 将NLP技术与音频处理、图像处理等技术结合, 又会出现诸如视频字幕生成, 图片描述生成等等有趣的应用。可以说只要有人类, 有语言, 就存在NLP应用的可能性。也正是因为NLP技术涉及范围广泛,才吸引了越来越多企业的关注,并在其之上构建各种智能系统,给我们的生活带来了便利。

了解了这些应用,不妨花几分钟思考一下, 对于你目前接触到的业务, NLP技术能给客户带来哪些价值呢?


更多精彩洞见,请关注微信公众号:思特沃克

Share

数据质量管理的一些思考

背景

在近期的项目当中,我们为客户落地实施了数据资产平台。随后,在数据平台中接入了客户子公司的一个业务系统的明细数据。客户希望在我们的数据平台上通过数据探索和数据分析,来挖掘一些业务价值和业务创新点。

当我们拿到数据开始进行一些初步探索的时候,发现导入平台的数据质量存在一定的问题:例如一些用于数据分析的关键字段的值为空、一些本应该有主从关系的数据对应不上、数据分类混乱等。这些问题直接影响到了对业务数据的分析和价值挖掘。因此,我们决定先对这份业务数据进行一次质量评估。如果评估的结果太差,不能做太多有价值的数据分析,那么我们的工作方向可能就需要转变为帮助客户制定整改数据质量的计划和方案。

数据质量问题

什么是质量

关于质量是有个一个标准定义的:一组固有特性满足明示的、通常隐含的或必须履行的需求或期望(要求)的​程度。这里面包含了两层意思,一个是说质量其实是一组特性,另一个是说质量需要满足需求或期望。所以如果从数据分析的角度来说数据质量,就是看当前数据的特性能否满足我们做数据分析或挖掘这个需求。

质量问题的来源

数据问题的来源可能产生于从数据源头到数据存储介质的各个环节。在数据采集阶段,数据的真实性、准确性、完整性、时效性都会影响数据质量。除此之外,数据的加工、存储过程都有可能涉及对原始数据的修改,从而引发数据的质量问题。所以,技术、流程、管理等多方面的因素都有可能会影响到数据质量。

在企业中,随着企业业务的增长,数据也是一个增量积累的过程。随着数据类型、数据来源的不断丰富以及数据数量的快速增长,企业在数据管理工作和数据流程中面临越来越多的数据质量问题。而且数据质量的管理并没有被企业重视起来,其根本原因还是ROI并没有那么明显。

数据质量管理相对来说成本比较高。因为它涉及到企业数据标准的制定、规范的落地、生命周期的管理等多个环节。从收益上来说,数据质量的效益和结果并不是十分明显,大部分企业不会把数据质量作为KPI。在企业的不同系统中,业务领域的关键指标不一致,数据无法共享导致出现数据孤岛,大量数据无法关联,并且有明显的数据冗余等问题,还有数据的维护需要投入大量的人员、时间、软硬件成本。所以数据的质量管理往往被会边缘化甚至趋向于无。

数据质量评估

那么我们如何对一份数据进行质量评估呢?这是一个比较难以回答的问题。因为数据质量本身有这么几个问题。首先是数据质量定义不一致,人们对数据质量的理解并没有一个参考标准或者标准的定义,所以人们理解的数据质量就会呈现出多样性,而无论是数据评估体系还是数据质量控制体系,都离不开关于数据质量的清晰定义。其次,没有权威性的数据质量标准模型或参考模型。再者,没有系统化的数据质量评估指标,也没有对数据质量评估的指标形成一个量化的标准。所以现在多数对于数据质量的研究都是针对特定领域或特定问题的研究,并不具有普适性,很难推广成为标准化的体系或模型。

那我们能不能像CMMI(能力成熟度模型, Capability Maturity Model Integration)和 AMM(敏捷成熟度模型,Agile Maturity Model)一样对数据质量建立一个模型,我们暂且称之为DQAM(数据质量评估模型,Data Quality Assessment Model)。

首先思考一下,在进行数据质量评估时我们会选取多个指标,所以很自然会想到借用一下模糊综合评价理论。搜集了一下资料,这里选取以下若干个指标来作为我们的数据质量评价指标(当然,可以根据实际需要选取其他指标,指标的数量也可多可少):

  • Completeness:完整性,用于度量哪些数据丢失了或者哪些数据不可用
  • Conformity:规范性,用于度量哪些数据未按统一格式存储
  • Consistency:一致性,用于度量哪些数据的值在信息含义上是冲突的
  • Accuracy:准确性,用于度量哪些数据和信息是不正确的,或者数据是超期的
  • Uniqueness:唯一性,用于度量哪些数据是重复数据或者数据的哪些属性是重复的
  • Integration:关联性,用于度量哪些关联的数据缺失或者未建立索引

那么评估模型应该有这么几个要素:

  • Dataset:被评估的数据集,对于关系型数据库来说就是一张表
  • Indicators:评估指标,就是上面列出来的6个指标
  • Rule:评估规则,与上面的评估指标对应,后续会根据规则的描述来编写脚本。
  • Weight:权重,此处的权重是每一条评估规则在全部规则的所占比重
  • Expectation:期望,根据每个评估规则给出一个评估前的期望值(0-100)
  • Score:结果,每个评估规则应用到数据集后计算出来的结果值(0-100)

那么构造整个模型的过程基本就可以确定下来,首先根据需要选取数据集当中要进行评估的数据视图,再选取所需要的评估指标。下一步需要制定规则集,根据所选的评估指标来制定相应的数据质量评估规则,并确定它们相应的权值和期望值。最后一步就是根据规则集来计算结果得分。

对于数据集的N个规则计算出来的得分,最后计算其加权平均值,得到质量评估的绝对量化值。用该量化值和期望进行差值比较,可以得出该数据集是比预期的好,还是不如预期。

以上是一个简单的评估模型,目前并没有在实际的场景中应用,当然这个模型的精度并不会很高,也没有处理误差。仅仅提供一个思路,或许质量的评估可以朝着这个方向来进行。

数据质量管理

数据工作流质量管理

下面来谈谈数据质量管理。质量管理前面提到了,涉及到数据工作流的各个环节。数据的工作流可以分为以下几部分:数据产生、加工处理、存储、挖掘和应用。质量管理的前提是在每一个环节建立质量标准。数据的来源包括:业务系统产生的数据、外部系统的数据、手动录入的数据等,从这些源头采集数据,然后经过数据通道进行加工处理(ETL,Extract-Transform-Load),数据进入到数据仓库或数据集市当中。然后业务人员、数据科学家、数据工程师等,会在数据平台对数据进行探索和挖掘,这个过程可能发生在数据仓库,也可能是在数据沙箱中进行,最后对数据探索分析挖掘的产出结果,会以数据应用的方式发布出来,具体的形式包括:数据报表、数据门户、OLAP、数据产品、数据服务、智能模型等等。

数据质量监督

除了制定质量标准外,还需要对系统中的数据本身和数据工作流进行监督管理。

对数据系统进行实时监控,监测数据工作环境的服务器软硬件运行状态、性能、磁盘空间、数据库事务、锁、缓冲、会话量、备份等等一系列指标,实施预警机制,并监测一些异常情况的发生。

对数据进行定期校验,除了对数据系统进行实施监控外,还需要对数据进行校验:日常校验、数据抽检、全面校验等。

审核制度也是保证质量的一个重要措施,特别是对于敏感数据和敏感操作。建立数据变更时候的分级审核制度,尤其是一些影响较大或者权限较高的操作。建立审批制度,对于数据的读取,如果涉及到敏感数据,必要时,也需要数据审批或者是数据脱敏。

数据生命周期管理

数据的生命周期从数据规划开始,中间是一个包括产生、处理、部署、应用、监控、存档、销毁这几个步骤并不断循环的过程。随着业务的发展,系统的业务数据类型和业务规范不断变化,一个完备的数据生命周期管理方案还应当包括对系统的优化调整,根据业务系统实际运行情况、新的业务类型和规范、技术改进等调整原有的数据存储迁移策略和访问方式,以满足业务系统发展及新的业务规范需求。数据生命周期管理的目的是对不同阶段的数据采取不同的管理策略用来降低数据管理运营成本,并提高数据质量度,实现数据价值最大化的终极目的。

总结

数据质量在任何系统当中都是十分重要却容易被忽视的一部分。构建完整的数据质量管理体系,既是支持企业系统稳定运行的基本保障,同时也是企业进行数字化转型、创新的必备条件。


更多精彩洞见,请关注微信公众号:思特沃克

Share

常用的几种大数据架构剖析

数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于Hadoop系列的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统,对于BI系统来说,大概的架构图如下:

可以看到在BI系统里面,核心的模块是Cube,Cube是一个更高层的业务模型抽象,在Cube之上可以进行多种操作,例如上钻、下钻、切片等操作。大部分BI系统都基于关系型数据库,关系型数据库使用SQL语句进行操作,但是SQL在多维操作和分析的表示能力上相对较弱,所以Cube有自己独有的查询语言MDX,MDX表达式具有更强的多维表现能力,所以以Cube为核心的分析系统基本占据着数据统计分析的半壁江山,大多数的数据库服务厂商直接提供了BI套装软件服务,轻易便可搭建出一套Olap分析系统。不过BI的问题也随着时间的推移逐渐显露出来:

  • BI系统更多的以分析业务数据产生的密度高、价值高的结构化数据为主,对于非结构化和半结构化数据的处理非常乏力,例如图片,文本,音频的存储,分析。
  • 由于数据仓库为结构化存储,在数据从其他系统进入数据仓库这个东西,我们通常叫做ETL过程,ETL动作和业务进行了强绑定,通常需要一个专门的ETL团队去和业务做衔接,决定如何进行数据的清洗和转换。
  • 随着异构数据源的增加,例如如果存在视频,文本,图片等数据源,要解析数据内容进入数据仓库,则需要非常复杂等ETL程序,从而导致ETL变得过于庞大和臃肿。
  • 当数据量过大的时候,性能会成为瓶颈,在TB/PB级别的数据量上表现出明显的吃力。
  • 数据库的范式等约束规则,着力于解决数据冗余的问题,是为了保障数据的一致性,但是对于数据仓库来说,我们并不需要对数据做修改和一致性的保障,原则上来说数据仓库的原始数据都是只读的,所以这些约束反而会成为影响性能的因素。
  • ETL动作对数据的预先假设和处理,导致机器学习部分获取到的数据为假设后的数据,因此效果不理想。例如如果需要使用数据仓库进行异常数据的挖掘,则在数据入库经过ETL的时候就需要明确定义需要提取的特征数据,否则无法结构化入库,然而大多数情况是需要基于异构数据才能提取出特征。

在一系列的问题下,以Hadoop体系为首的大数据分析平台逐渐表现出优异性,围绕Hadoop体系的生态圈也不断的变大,对于Hadoop系统来说,从根本上解决了传统数据仓库的瓶颈的问题,但是也带来一系列的问题:

  1. 从数据仓库升级到大数据架构,是不具备平滑演进的,基本等于推翻重做。
  2. 大数据下的分布式存储强调数据的只读性质,所以类似于Hive,HDFS这些存储方式都不支持update,HDFS的write操作也不支持并行,这些特性导致其具有一定的局限性。

基于大数据架构的数据分析平台侧重于从以下几个维度去解决传统数据仓库做数据分析面临的瓶颈:

  1. 分布式计算:分布式计算的思路是让多个节点并行计算,并且强调数据本地性,尽可能的减少数据的传输,例如Spark通过RDD的形式来表现数据的计算逻辑,可以在RDD上做一系列的优化,来减少数据的传输。
  2. 分布式存储:所谓的分布式存储,指的是将一个大文件拆成N份,每一份独立的放到一台机器上,这里就涉及到文件的副本,分片,以及管理等操作,分布式存储主要优化的动作都在这一块。
  3. 检索和存储的结合:在早期的大数据组件中,存储和计算相对比较单一,但是目前更多的方向是在存储上做更多的手脚,让查询和计算更加高效,对于计算来说高效不外乎就是查找数据快,读取数据快,所以目前的存储不单单的存储数据内容,同时会添加很多元信息,例如索引信息。像类似于parquet和carbondata都是这样的思想。

总的来说,目前围绕Hadoop体系的大数据架构大概有以下几种:

传统大数据架构

​之所以叫传统大数据架构,是因为其定位是为了解决传统BI的问题,简单来说,数据分析的业务没有发生任何变化,但是因为数据量、性能等问题导致系统无法正常使用,需要进行升级改造,那么此类架构便是为了解决这个问题。可以看到,其依然保留了ETL的动作,将数据经过ETL动作进入数据存储。

优点:简单,易懂,对于BI系统来说,基本思想没有发生变化,变化的仅仅是技术选型,用大数据架构替换掉BI的组件。

缺点:对于大数据来说,没有BI下如此完备的Cube架构,虽然目前有kylin,但是kylin的局限性非常明显,远远没有BI下的Cube的灵活度和稳定度,因此对业务支撑的灵活度不够,所以对于存在大量报表,或者复杂的钻取的场景,需要太多的手工定制化,同时该架构依旧以批处理为主,缺乏实时的支撑。

适用场景:数据分析需求依旧以BI场景为主,但是因为数据量、性能等问题无法满足日常使用。

流式架构

在传统大数据架构的基础上,流式架构非常激进,直接拔掉了批处理,数据全程以流的形式处理,所以在数据接入端没有了ETL,转而替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者。虽然有一个存储部分,但是该存储更多的以窗口的形式进行存储,所以该存储并非发生在数据湖,而是在外围系统。

优点:没有臃肿的ETL过程,数据的实效性非常高。

缺点:对于流式架构来说,不存在批处理,因此对于数据的重播和历史统计无法很好的支撑。对于离线分析仅仅支撑窗口之内的分析。

适用场景:预警,监控,对数据有有效期要求的情况。

Lambda架构

Lambda架构算是大数据系统里面举足轻重的架构,大多数架构基本都是Lambda架构或者基于其变种的架构。Lambda的数据通道分为两条分支:实时流和离线。实时流依照流式架构,保障了其实时性,而离线则以批处理方式为主,保障了最终一致性。什么意思呢?流式通道处理为保障实效性更多的以增量计算为主辅助参考,而批处理层则对数据进行全量运算,保障其最终的一致性,因此Lambda最外层有一个实时层和离线层合并的动作,此动作是Lambda里非常重要的一个动作,大概的合并思路如下:

优点:既有实时又有离线,对于数据分析场景涵盖的非常到位。

缺点:离线层和实时流虽然面临的场景不相同,但是其内部处理的逻辑却是相同,因此有大量冗余和重复的模块存在。

适用场景:同时存在实时和离线需求的情况。

Kappa架构

​ Kappa架构在Lambda 的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代。因此对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次则可。

优点:Kappa架构解决了Lambda架构里面的冗余部分,以数据可重播的超凡脱俗的思想进行了设计,整个架构非常简洁。

缺点:虽然Kappa架构看起来简洁,但是施难度相对较高,尤其是对于数据重播部分。

适用场景:和Lambda类似,改架构是针对Lambda的优化。

Unified架构

​ 以上的种种架构都围绕海量数据处理为主,Unifield架构则更激进,将机器学习和数据处理揉为一体,从核心上来说,Unifield依旧以Lambda为主,不过对其进行了改造,在流处理层新增了机器学习层。可以看到数据在经过数据通道进入数据湖后,新增了模型训练部分,并且将其在流式层进行使用。同时流式层不单使用模型,也包含着对模型的持续训练。

优点:Unifield架构提供了一套数据分析和机器学习结合的架构方案,非常好的解决了机器学习如何与数据平台进行结合的问题。

缺点:Unifield架构实施复杂度更高,对于机器学习架构来说,从软件包到硬件部署都和数据分析平台有着非常大的差别,因此在实施过程中的难度系数更高。

适用场景:有着大量数据需要分析,同时对机器学习方便又有着非常大的需求或者有规划。

总结

以上几种架构为目前数据处理领域使用比较多的几种架构,当然还有非常多其他架构,不过其思想都会或多或少的类似。数据领域和机器学习领域会持续发展,以上几种思想或许终究也会变得过时。


更多精彩洞见,请关注微信公众号:思特沃克

Share

BBVA,数字十年

[摘要]

有着160年历史的西班牙BBVA银行,2017年9月,宣布其「数字转型的成果已经具备商业可量化性」;同年12月,「数字渠道占有率」在西班牙本土首次突破50%的门槛。这在银行业可谓难得一见。本文带你回顾BBVA十年数字转型之旅,希望能给你带来启发。

[目录]

  • 2007~2011年:交互范式探索
    • 投资线上客户体验
    • 开放创新平台
    • 人性化的触点体验
  • 2012~2015年:商业模式再造
    • 将数字化能力引入到核心业务
    • 大规模资本运作
    • 进入大数据领域
    • 调整组织战略和品牌定义
  • 2016~2018年:全面推动开放银行
    • 资本持续运作
    • 基础设施投资推动平台化
  • 写在最后

2017年9月27日,超过160年历史、西班牙第二大银行BBVA的首席财务官Jaime Sáenz de Tejada宣布「数字转型的成果已经具备商业可量化性」。去年12月,其数字化转型的重要指标「数字渠道占有率」在西班牙本土首次突破50%的门槛,其11个主要国家市场中已有6个完成数字化转折点(Digital Tipping Point)的目标。今年1月,整个南美洲用户的数字占有率整体突破50%

(图1:超过160年历史的西班牙第二大银行——BBVA,Banco Bilbao Vizcaya Argentaria)

BBVA的数字转型在过去10年里,取得发达市场国家金融业中难得一见的成就。BBVA的数字转型值得金融领域创新者学习,让我们仔细梳理过去十年里BBVA数字转型的脉络。

2007~2011年:交互范式探索

在经历2007年全球金融危机之后,2008年的世界对于金融服务商而言是全新的:多个市场的经济衰退;更加严格的法规;负利率对银行利润的巨大侵蚀。更加意义深远的,一端是消费者对于银行的「信任危机」——认为金融机构应该为这场灾难负责;另一端是方兴未艾且野心勃勃的互联网经济正蓄势待发进入全新阶段。此情此境,BBVA所迫切需要的,是重新思考银行和客户的关系,并在数字时代重新定义全新的交互范式。

2007年,BBVA的创新战略始于其技术运营部,最初的目标是在银行业引入更多新兴技术,该部门主导了2011年前BBVA的多个数字创新项目。

投资线上客户体验

2008年,BBVA推出了第一个数字项目「Tú Cuentas(意为你的账单)」——一个支出管理的线上产品,线上银行客户可以通过该平台统一管理多种支付手段的个人消费记录。四个月后「Tú Cuentas」获得了初步的成功,近1/3的线上银行客户成为其用户。这一产品有着简单直接的产品逻辑:

  1. 通过数字的方式帮助客户完成一项与个人金融相关的工作(管理支出);
  2. 让客户在数字渠道上停留,产生数据;
  3. 通过数据累积推荐个性化的其他个人金融产品;
  4. 逐步开放给非客户,适应其支出管理的需求,成为获客数字渠道。

(图2:BBVA的Tú Cuentas可以让客户统一分析多个账户的收支情况)

开放创新平台

Tú Cuentas的成功让BBVA开始意识到,如果要寻找BBVA在数字时代的定位,必须先要回到消费者身边。2009年2月,首届「Open Talent」的创新大赛举办,总共375个项目被启动。有趣的是,首届大赛的冠军Pidecita并非金融领域创新,而是一家为线上预定提供解决方案的创业公司,这也显示了BBVA对消费者端到端体验的重视程度。

至今Open Talent已经成为超过80个国家参与,金融创新领域最大的赛事之一,源源不断向BBVA输出创意和新一代数字人才。

(图3:BBVA的Open Talent大赛已经持续了9年)

人性化的触点体验

2009年,与IDEO合作、历时三年的ABIL项目正式部署,这款完全抛弃了实体键盘操作而改用触摸屏的ATM机引入许多人性化的设计概念,包括一个名为Hero的虚拟助理,以及极致化的交互方式。

(图4:2009 BBVA的ABIL项目启用了触摸屏的ATM机)

2010年,受到ABIL项目中Hero这个虚拟助理的启发,BBVA开始研发新的交互方式,一个名为Lola的全新虚拟助手将在两年后出现在线上银行的右下角,Lola以对话的形式辅助客户完成操作,这比后来的Conversational UI的兴起整整提前7年。

(图5: BBVA的Lola是一个虚拟的助理,通过对话的方式完成超过65%的线上银行服务)

人性化是BBVA在2012年以前的重要主题。2011年11月,BBVA推出了具有里程碑意义的个人金融服务平台:BBVA Contigo Adviser。这个平台使得客户随时随地通过手机与金融顾问互动,这个平台背后是大量系统的集成,也意味着BBVA在2012年以前就已完成了多个核心系统的整合,最终实现了客户与银行交互方式的重大变革。

(图6: BBVA的 Contigo Adviser,使得客户可随时随地与金融顾问互动)

在2008到2011年,BBVA在客户交互方式上进行了重大投入,从Hero、到Lola、再到Contigo,一个个虚拟角色创造了全新的交互范式,这是BBVA数字十年的第一个里程碑,即交互范式的再造。

2012~2015年:商业模式再造

多个创新项目的成功,以及Open Talent创新大赛的持续举办,使得BBVA拥有了客户的口碑、数字化专业人才、以及广泛的合作网络。在此基础之上,BBVA很快意识到创新应该与最高优先级的业务目标紧密结合,遂采取了一系列措施来进行业务模式再造,以让创新投资真正能为企业带来业务红利。

将数字化能力引入到核心业务

2012年,一支隶属国际事业部(Global Banking)下的独立创新团队正式成立,重点不再是技术导入,而是和IT部门紧密合作,将数字化能力引入企业最重要的业务领域,例如支付和渠道经营。

作为在支付领域的重要投入,BBVA推出其第一个移动现金平台「Efectivo Móvil(Mobile Cash)」。付款人通过Efectivo Móvil生成一个短信代码发送给收款人,收款人再用这个短信代码在任意一个西班牙的ATM机完成取现。

(图7: BBVA的第一个移动现金平台Efectivo Móvil)

2013年,BBVA继续加码移动支付领域,推出旗下数字钱包「Wallet」,Wallet使得用户可以在手机应用中管理各种银行卡,并实现线上支付、手机线下近场支付(通过一个特别的贴纸)。

(图8: 2013年BBVA推出的数字钱包Wallet)

2013年BBVA对于技术的投入高达24亿欧元,是2006年的两倍,对核心领域的数字化投资获得显著成效,当年,其数字银行平台每天处理2.5亿笔交易,为2006年的近2.8倍

大规模资本运作

商业模式再造除了对于核心业务领域的投入,还包括一连串的资本运作,通过资本快速获得智力资源。2014年2月,BBVA通过117亿美元收购美国纯数字银行Simple

(图9: 2014年BBVA收购数字银行Simple)

次年,以4500万英镑购置英国纯移动银行 Atom Bank 29.5%股权。

(图10: 2015年BBVA购置Atom Bank 29.5%的股权)

2013年BBVA投资1亿美元成立旗下风险投资部门BBVA Ventures,将着重投资金融科技领域的创业公司。三年时间里,BBVA完成的主要投资有:

进入大数据领域

2014年,BBVA将开放平台作为商业模式再造的第三种战略投资,正式成立大数据公司BBVA Data & Analytics,从2014年起这间公司就开始从交易数据中深度挖掘金融行为和人类社会活动的关系,例如从支付行为看西班牙旅游分布和趋势

(图11: 2014年BBVA成立BBVA Data & Analytics,尝试从支付行为挖掘旅游分布和趋势)

2014年对于数据能力的投入在若干年后转化为BBVA进一步商业模式转型的助推器,真正推动BBVA从一间传统银行逐渐转型为金融信息科技公司。

调整组织战略和品牌定义

商业模式的革新,离不开组织架构的调整和公司战略的支持。2014年,数字银行部门已经发展成一个拥有3000名员工的庞大组织,这个组织拥有市场、技术、设计、人才、文化多种功能,并横跨多个业务部门,致力于推动全组织的数字转型。

2015年,Francisco Gonzalez在当年的股东大会上宣布BBVA的转型目标:「建设21世纪全球最佳数字银行……把BBVA打造成完全数字化的公司」。

至此,BBVA的转型战略逐渐清晰化,即:

  1. 通过多项投资组合(包含数字销售、客户体验、分销渠道、数字能力、基础设施、组织文化)在内部驱动业务转型;
  2. 通过风险投资(包括内部投资、外部投资和收购)在内部挖潜或外部快速获得智力资源。

(图12: 2015年BBVA的数字转型目标与投资组合)

2015年最后一个季度,BBVA在已有的数字化成果上继续调整其转型目标,正式提出了其数字化转型的核心价值定位——「把机会赋予所有人(Our purpose is to bring the age of opportunity to everyone)」,并详细解读了其意涵:

  1. To Bring:BBVA的策略,即将资本、工具、产品、和建议作为能力赋予;
  2. To Everyone:BBVA服务的对象是所有个人、家庭、创业者、企业主、公众服务或私营企业、还包括BBVA的员工;
  3. The Age of Opportunity:技术的核心价值为这个社会带来无限可能;

这个核心价值,在2017年正式上升为核心品牌价值——「创造机会」甚至被放入公司的标识,成为数字转型近几年的指南针,这也标志BBVA的数字转型真正进入公司品牌核心。

(图13: 2017年,“创造机会”成为BBVA的数字转型的指南针)

2016~2018年:全面推动开放银行

经过8年的数字转型,BBVA的业务已经发生了显著变化,在移动端的投入使得门店活动(Branch Activity)的比例下降到2016年3月的41%,比2013年下降20%;同期移动端用户达到940万,较上年增幅高达45%。稳步增长的数字渠道使用比例,使得BBVA有能力通过数字化真正实现品牌的新意涵——创造机会。其具体实施包含如下几个方面:

资本持续运作

2016年2月,BBVA关闭了原有的风投机构BBVA Ventures,重新投资2.5亿美元建立新的投资机构Propel Venture Partners,背后的原因有:一为BBVA希望风投机构脱离母体更加独立运作,二为在独立运作后获得更大的投资权。此点也体现出公司对于资本运作专业化、独立化、规模化的战略要求

目前,Propel管理着17家不同类型创业公司的股份,类型覆盖区块链、数字签名、保险、理财、员工福利等,为BBVA提供技术、客户体验、和解决方案的可能性,它们包括:

(图14: BBVA新的投资机构Propel管理者17家不同类型创业公司的股份)

其投资组合主要分布企业解决方案、个人金融产品、以及客户体验相关工具三个方向,较为均匀的分布体现着BBVA对企业特别是中小企业市场、创新互联网金融产品、以及客户数字体验的战略支持。

(图15: BBVA新的投资机构Propel的投资组合)

资本运作逼迫BBVA走到金融创新的最前沿,倒逼组织内部转型、调整优先级、构建开放的基础设施、寻找下一个业务增长点。

基础设施投资推动平台化

「开放」从数字转型的一开始就成为其核心关键字,从最早的「Open Talent」创新大赛开始,到2014年建立的大数据公司BBVA Data & Analytics,最终演化成独立商业模式。2016年2月,BBVA宣布上线其在后来有深远意义的Open API平台,为互联网金融创业公司提供API接口,最初开放的四个接口包括:

  1. PayStates:聚合BBVA卡支付信息方便第三方数据分析或商业情报;
  2. Connect:为第三方应用授权访问BBVA服务;
  3. Accounts:为第三方应用授权访问BBVA账户信息;
  4. Card:为电商网站绑定BBVA支付方式

开放API基础设施的建设不但帮助BBVA广泛吸纳第三方服务,提供无缝和无处不在的客户体验,也为业务扩张和整合节约大量成本。2016第四季度,BBVA正式宣布对BBVA Compass(美国业务)和2014年收购的美国纯数字银行Simple整合,其背后使用的正是其西班牙银行业务所提供的API。

对技术基础设施的投资从未停止,2016年5月,BBVA宣布与Red Hat合作,在IaaS(Infrastructure-as-a-Service )、PaaS(Platform-as-a-Service)、以及云管理平台等领域进行深入合作;10月,BBVA宣布与Amazon Web Services合作,以获得处理每天5亿4200万笔交易的云计算能力;次月,BBVA与CRM领域巨头Salesforce合作,在西班牙完美实现全手机开户。

在数据领域,BBVA已经开始探索将数据作为企业服务的新模式——2016年11月,「Commerce 360」上线,为中小型企业提供交易(来源于丰富的POS数据)分析能力。

(图16:2016年,BBVA的Commerce 360上线,为中小企业提供交易分析服务)

2017年3月,BBVA宣布设立全球级数据职位(Head of Data),进一步稳固数据能力在全组织的战略地位。

同月,BBVA继续向英国移动银行Atom追加投资,结合自有数据和开放能力,成为在2018年前具备交付开放银行能力的欧洲少数金融机构之一。

一系列在基础设施、平台化、数据方向的投资逐步实现,帮助BBVA在2018年「PSD2(欧盟支付服务指令修正案 Payment Services Directive)」做好准备(注:PSD2即Payment Service Directive 2,欧盟2016年通过该法令,规定在2018年1月13日起欧洲银行必须把支付服务和相关客户数据开放给第三方服务商)。在「开放银行 (Open Banking)」时代,与不断涌现的金融创新颠覆者与替代金融(Alternative Finance)、和互联网巨头竞争,并领导整个传统金融服务业的创新。

写在最后

从2007年BBVA正式启动数字转型,到2015宣布最终数字转型目标的8年时间里,BBVA经历两个显著的阶段:在前一个阶段的四年里,BBVA意识到传统银行出现了身份危机,如何重新定位银行对消费者意味着什么,是数字转型成功的基础。其核心,是「在数字时代,银行应该用怎样的方式与消费者互动」的问题。带着这样的问题,BBVA花了四年时间投入在消费者触点体验上,并在一开始就将创新和开放画上等号。

后四年,转型的目标逐渐转向业务领域,其核心,是「在数字时代,银行该如何演进业务模式以适合和消费者全新互动方式」的问题。在这个阶段,BBVA一方面大幅度投入核心业务(如支付和分销网络)的数字化能力,另一方面大规模对金融科技的创业公司进行资本输出以快速获得智力资源。此外,对数据进行提前投入,为下一阶段商业模式的终极演化提供燃料,并在公司结构和品牌上为转型释放空间。

近两年,BBVA终于有资格挑战数字转型的最高层——「如何让银行成为释放整个社会经济潜力的赋能者,而非利用信息壁垒盈利的中间商」。在这个阶段,BBVA一方面持续进行大规模资本运作,同时在基础设施如数据、开放平台、云计算等领域加大投入,逐步将基础设施平台化,构建全新的商业模式。

(图17:BBVA数字10年,三阶段的核心问题和投资方向)

2018年,BBVA十年转型的领航者,CEO Francisco González 在达沃斯世界经济论坛预言:全世界有2万家银行,但在不远的将来,我们可能不需要这么多。

Francisco González, Executive Chairman BBVA attends a session on ‘The Global Business Context’ during the WEF in Davos on January 23, 2018.

(图18:BBVA CEO Francisco González 在达沃斯世界经济论坛)

银行业百年来构建于信息孤岛上的商业模式,已经远远落后于其他数字化程度更深的行业,未来只有一种商业模式能够成功,这便是BBVA十年来数字转型所一直追求的——「开放」,也是所有数字转型企业的终极目标。

相关推荐:


更多精彩商业洞见,请关注ThoughtWorks商业洞见

Share

基于密码学的数据治理Crypto-based Data Governance

最近得益于区块链在金融领域的火爆效应,Crypto-based currency&transaction改变了金融圈原本“数字货币=数字游戏”的印象,密码学货币不再只是数字货币,它还被赋予了“防篡改、去中心”的特性,但是本质上这些事务都是数据治理问题,只不过从原本的“服务级别”的访问权限校验转入了“数据级别”的完整性校验。其实密码学不只可以在金融业务方面做出贡献,在其他一系列数据治理难题中,我们也可以借鉴其中的一些思路。

下面让我们来回顾一些常见的数据治理问题,以及我们如何使用密码学来解决这些问题。

数据私密性

私密性(Confidentiality),数据作为企业的重要财产已经得到足够的重视,同时作为业务必须的原料又不得不分发到终端。我们既要做好必要的安全防护工作,同时也希望尽可能地灵活管理访问权限,在需要的时候能及时地送达业务场景中消化。

这个防护工作的目的也就是保护数据的私密性。通常有两种方式保障,授权与加密,随着数据量级的增长,私密性变得越来越细粒度。如何划分授权与加密这两种有着明确区分的方案往往被大家混淆,甚至不少开发人员认为授权是加密的一种。

常见的授权(Authorization),包含了验证(Authentication)与访问控制(Access Control)两个部分,验证是指用户或者业务模块通过一个私密的凭证来确保身份,它可以是一个密码,可以是一类数字签名(包括证书),也可以使用相对复杂的双向动态授权协议。

验证后的访问控制则是将数据权限更细粒度地拆分,提供一次性或者短暂性的访问权限,Token作为一个权证只能用来访问其对应权限下的数据,可以防止私密数据过量泄露。而目前一些新的方法中,权证分发本身被改善成了一个数字签名的过程,通过完全的非对称密码系统,让数据提供方原本需要保存的Token,转变为只需要验证访问请求所携带的数字签名就可以获知权限的Certificate/Signature,例如Hyperledger区块链平台就采用这种方式,分别签发Enrollment Certificate和Transaction Certificate为不同的业务场景提供不同的数据访问权限。

授权方案的发展历经了几个阶段(如上图),虽然和出现时间并没有太大关系,TLS早就定义了第三种形式作为分发证书链的模式,我们可以看到在第二种方案中,通过采用token的授权,使得细粒度的授权分发可以和验证分离开来。而第三种方案则更进一步,让双方不需要再传输存储授权凭证,而且整个授权过程可以是一次性的,而不会影响到数据访问。

随着高阶密码学原语的引入,我们甚至可以在验证授权的过程中为用户的访问提供隐私保护,例如通过Dual Receiver Encryption配合Ring Signature可以实现匿名组策略等效果。

加密(Encryption),往往是较为耗时和受限制的数据治理手段,尤其是非对称加密算法,只能针对少量的数据集执行,而对称加密又存在交换秘钥、存储管理秘钥时的隐患。因此作为保护数据私密性的最后手段,我们应该尽量避免滥用误用,常见的误用场景包括试图通过在客户端加密Token来防止用户篡改数据访问权限、试图用加密应用代码的方式保护数据、试图仅依靠对称加密分发数据等等。

常见的加密确保私密性,常常是基于“数据被盗”或者“数据集必须存放在用户端”的假设,“数据被盗”决定了每个数据池都有必要对基础设施进行预防,例如对硬盘加密、选择安全的通信信道和协议、避免秘钥泄露、避免系统人为操作、避免内网服务对外开放、减少私有网络的威胁等等。而“数据集必须存放在用户端”则需要考虑到恶意软件、逆向工程、暴力破解可能造成的数据损失。

数据完整性

完整性(Integrity),说到区块链的一大卖点就是不可篡改,通过确定交易双方身份的Signature、交易顺序的Merkel Hash tree、Block前向完整性(Forward integrity)Hash,三者(如图)组成了一套完整的分布式账本链条,其中每一条、每一页的交易记录之间、页与页之间都由密码学原语保护。这样的一种数据结构设计,为区块链带来了更灵活的去中心结算方案。

将区块链解构之后,我们也可以灵活地将这些密码学原语用于保障常规数据的完整性,尤其可以应对B2B场景下,企业联盟之间的数据共享信任问题,通过完整性校验,可以实现竞争关系下的同业数据融合;通过数字签名,可以为如票据交易、款项去处之类的数据审计提供证据。

大数据分析提高了对数据真实性的要求,密码学提供的完整性校验方案,可以为外来数据治理提供额外的保障。同时由于密码学原语位于设施的底层,因而这一系列的验证审计操作都可以自动化执行,而不需要额外的人力来管理校对。

数据可用性

可用性(Availablity),在数据治理中是一个非常困难的话题,我们可以将数据副本分发到业务微服务中缓存,也可以采用分布式的存储方式,这些都是为了解决单点故障、减少大量数据同步的时间开销,其中Hash Table作为最常见的检索方式,可以同时保障数据的完整性和可用性,数据池可以使用分块的方式将数据分散存储,同时使用Hash来计算出摘要以供后续的检索,通过额外的加密手段,甚至可以实现对等节点的全量和增量数据同步,而不必担心数据的私密泄露。

DynamoDB采用了这种Hash一致性算法,“均匀”地管理数据分片(如图)。Bittorrent网络采用Hashtable来寻找目标文件。Spark-mllib也使用了Hash来进行词频统计,达到数据分治的效果,避免了维护全局term-to-index map的麻烦。

此外,加密后的数据由于可读性问题,很难再做重用,而常见的保护用户敏感信息,并且同时保护数据分析可读性的方法,在微软和苹果等公司都有所尝试,称为Differential privacy(如图),数据分析师在提取数据时,Privacy Guard评估Query Privacy impact,为反馈的数据加上噪音,例如可以使用Hash替换掉真实信息,只保留数据“特征”,减少用户隐私泄露的风险,同时又能保留数据的分析价值。

重返焦点

如果说数据湖是每个企业的金库,那么数据治理的安全措施就是用于搭起金库壁垒的一砖一瓦,每个安全措施之间的紧密粘合都依托于完善和牢固的密码学设计,随着“安全无小事,商场入战场”的警钟不断敲响,从基础设施建设上对数据治理的不断规范化和标准化呼声越来越高,密码学重回技术焦点的日子应该不会太远。


更多商业洞见,请关注微信公众号:思特沃克

Share