当法律遭遇人工智能

在当今的法律体系中,法律条文的制定往往跟不上时代前进的脚步,落后的条文(或者判例)有时反而会成为新生事物的制约;部分领域的法律条文或者判例卷帙浩繁,即使是专业的法律人也得耗费数年的学习和实践才能慢慢掌握法条的场景和使用;而即便是这么多的法律条文也难以将现实发生的所有复杂情况一一枚举,因此根据案件的实际情况参考哪些法条和如何定罪与量刑是法官、律师、陪审团等法律程序参与者的任务。这种人工干预有巨大操作和斡旋空间,也就出现了各种州级法院和联邦法院判断不一致的情况—— 明明案件内容是明确的,法律条文是明确的,然而判断却是不清晰的。

这也引发了我几年前的一个脑洞:既然现实情况如此复杂,法律条文迭代缓慢且难以穷尽,为什么我们不能让机器代替我们去学习历史上那些庞大的案件判例和法条规则,然后对每一个新的法律案件或纠纷做一个定罪的多分类,这样产生的”机器判官”,其判案准确率或许要比法官要准确的多。无论法官多么经验丰富,在面对一个新案件时,其援引的判例也是有限的,而一个训练好的模型或许能将历史上所有相关的案件都考虑进来。

我以为我有了一个好主意,兴冲冲地去网上搜索,才发现 AI 和法律领域的结合早在1987年就有人开始做了,而且他们几十年来不断尝试的领域和方法也是我未曾料想到的。然而,他们也经历了一个艰辛的过程。

历史

说到 AI and Law (以下简称 AIL), 就不能不提 ICAIL (International Conference on Artificial Intelligence & Law),这是国际唯一一个关注于 AI and Law 领域的会议,自1987年第一举办以来已有31个年头。一部 ICAIL 的历史,其实就是整个 AIL 领域的发展史。

(图 来源[17]:随着时代变迁,ICAIL会议主题云图的变化,从中可以看出 expert system, knowledge base 等的淡出)

对法律条文、案件建模的尝试,早在上个世纪八十年代就开始了。那个时候就已经诞生了基于逻辑的形式化方法进行法律推理 (legal reasoning) 以及人工神经网络的数值方法。还有一些借着专家系统的东风, 通过一些 基于法律条文(rule-based),基于案例(case-based) 和 基于知识(knowledge base) 的手段帮助法律从业者进行辅助推断以及其他工作,这其中比较著名的案例是 HYPO, 一个基于案例的法律推理系统,它几乎引领了基于案例的法律推理潮流。

随着 AI 领域本身的发展,近年来基于专家系统的方法日趋势微,基于统计机器学习的方法则开始大行其道。 比如使用贝叶斯网络等图模型进行证据推理(evidential reasoning);在 E-Discovery 使用 SVM 等方法进行法律文档分类;以及与NLP的结合,如法律领域限定的命名实体识别 (NER), 信息抽取与信息检索等等;基于逻辑的形式化方法也并没有完全消散下去,而是继续在诸如计算法律(computational law) 等子领域贡献着光热。

已有工作

目前围绕 AI and Law 的工作,从功能上大体上可以分成两类: 一类尝试直接对法律本身、案件、推断过程建模,涉及到诸如道义逻辑(Deontic Logic), 非单调逻辑(non-monotonic logic) 等传统基于逻辑的形式化方法,也有基于神经网络,贝叶斯网络等的统计学习方法;另一类则选择了绕行,既然前者困难重重,那么我们不妨退而求其次,利用专家系统、自然语言系统等手段, 通过法律文档化、文献文书检索、实体识别等方法来提高法律人的工作效率,让他们从繁重的重复性工作中解脱出来从而聚焦到更有意义的事情上去,这同样是一件有价值的工作。下面简单地从几个方向分别举例说明。

Reasoning (Rule based Reasoning vs Case based Reasoning)

顾名思义,该领域主要研究法律推理的各种方法。从派系来分,可以分成基于法律规则的推理(rule based reasoning) 和基于案例的推理(case based reasoning)两派。如果说 基于法律规则的推理是将已有规则应用于案件进行推断的话,那么基于案例的推理更侧重于寻找已有比较类似的案件来进行归纳推理。从方法上来说,两者都曾经偏好使用基于逻辑的方法来进行形式化。相关逻辑理论的讨论也是领域焦点。比如考虑齐硕姆悖论(Chisholm paradox),即道义逻辑对法律形式化是否是真正可用的等等。近来基于案例的推理更加偏向主流,其原因可能是支撑基于规则推理的一些传统方法(比如专家系统, knowledge base)渐渐淡出视野,也可能是后者与统计学习的天然联系,毕竟基于案例的推理就是靠对以往大量判例的分析进行推断。

e-discovery

全称 Electronic Discovery。其目标在于为法律诉讼,政府调查等领域提供专门的信息化服务。与传统的纸质信息提供服务不同,E-Discovery 比较注重信息检索的“结构化”,也就是 metadata。比如一个信息条目的时间、地点、涉及领域,甚至事件的形式化描述等。这些信息可以大大优化相关人员的查找效率,节约成本。

由于 eDiscorvery 的本质就是从基于纯文本的文档中提取有价值的结构信息用于从业者的检索和查阅分析; 因此从解决方案上目前基本上与 NLP 联系较紧,比如之前提到的命名实体识别、自动生成文摘、情感分类等。通过这些方法,可以从法律文本中自动提取信息,自动化生成相关专业领域的文件,推动法律文档化等。

computational law

计算法律可以说几乎是与法律人工智能的最终态—— AI判官最为接近的领域了, 其目标是法律本身以及案件的形式化表达和自动推理。

The Computational Law project focusses on formalization of governmental regulations and enterprise policies, development of automated reasoning procedures for compliance checking, legal planning and regulatory analysis, and developing user-facing computer systems

该领域涉及到的方法暂时还主要偏形式化( Computational Logic ),分两部分:第一部分是事实和规则的形式化表达;第二部分是使用一些机械推理技术来分析案件自动产生推断结果。目前计算法律的发展暂时还没有成熟到可以完全使用的程度,原因是逻辑方法很多都是基于规则的,很难 case-by-case 地对复杂判例做去完全表达,这对于使用英美法系的国家来说尤为严重。

当代:与 NLP 的结合

目前在 AIL 领域应用的最多的还是自然语言处理等相关技术。因为无论是对法律本身建模还是建立一些帮助法律从业者的辅助系统,都需要我们从现有的法律条文,案件描述卷宗等资料出发,将其信息化和结构化,这是必须的第一步,而解决该问题的方法还需从 NLP 入手。比如我们可以根据主题模型(Topic Model) 将案件通过涉及到不同的法律法规或者量刑的不同进行聚类;通过信息抽取来生成案件的结构化描述信息;通过自动文摘加快从业者浏览文件的效率;通过QA来建立法律领域的自动问答系统来尝试在线法院等等。这也与当下推动“智慧法院”,将法院数字化,自动化的主旨相符。下面举出几个例子。

1 EBravia

EBravia 是一家致力于法律文档结构化的公司。它通过先端的机器学习技术,可以从非结构化的原始文本中提取里面蕴含的时间,地点,以及法律领域相关的关键词,短语,句子。大幅度节约法律工作者从文本里人工挖掘信息的时间。

(图:来自EBrevia 官网[19] 的视频简介)

2 Legal Robot

这家名为 Legal Robot 的公司则更侧重法律文档审校和合同文本分析。它推出的合同文本分析工具不仅能帮助相关工作者校对领域文法的错误;还能基于海量的合同样本数据,生成一些常用的领域短语和句子, 帮助人写出更加符合领域需要的法律文书。同时,对于已有的合同文书,它还能捕捉到里面表示模糊,给当事人带来隐性法务风险的词句,从而在风险管理领域发挥强大的作用。

(Legal Robot 样例, 来源[20])

3 LUIMA

Luima, 即 Legal UIMA, 是一个由 IAAIL 及 CMU 等相关领域的研究员共同研发的法律检索系统。它专注在疫苗伤害事故相关的法律文本,对用户搜索的 query 给出包含对应法律条文或者类似案件信息的文档用于参考和对比分析。具体而言,Luima 系统整体上分成四个模块:法律语义标注,文档存储与索引,文档搜索,搜索结果排序。

(图: 来自[13] LUIMA,一个 法律文档检索系统的 Pipeline)

对一个法律文档,Luima 会先将其拆成句子级的文本。对每个句子做 Term, Mention, Formulation 三个级别的标注,然后通过这三中标注将每个句子分为 LegalRuleSentence, EvidenceBasedFindingSentence 和 other 三个分类。对于该分类任务,Liuma 使用了句子的 n-gram TF-IDF 和上述的法律语义标注信息做特征,使用 朴素贝叶斯,逻辑回归,决策树等方法训练出一个分类模型。这样输入的原始文档就会转化成多个带有语义标注即句子级分类标签的句子集合,并存入数据库中。当用户执行查询操作的时候,Luima 会先通过 Lucence 引擎找出 Top-30 个文档结果作为预选的“专家文档”,然后对这30篇文档的 candidates 做二次重排进而筛选出更符合条件的搜索结果。进行二次重排是为了避免那些“仅仅文档的文本相似但是实际语义毫不相关”的情况。该过程综合考虑了之前产生的相关法律语义匹配情况以及文本相似度等多个特征,使用逻辑回归对文档排名进行打分,返回最终的文档结果给用户。

从 Luima 我们可以看到基于自然语言处理的技术(TF-IDF 等特征),机器学习模型(逻辑回归等)是如何与法律专业知识(领域级语义标注)结合起来并发挥作用的。

除了这三者之外,还有一些通过机器学习来做法律推理的方法,不过目前还是停留在 Paper 级别的居多,就不加赘述了。

问题

当然,AIL 的发展也并非前景大好。有一些内部本身以及涉及到跨行业的矛盾仍未得到解决。

法理学的角度

从笔者对法理学最浅薄的理解,一切法律都是依据所处国家,所处文化,道德导向等种种因素的基础上,对“自然法”——这一正义的基本和终极的原则的集合的诠释。而随着法律人工智能的进行,无论是逻辑还是模型,是否真的能体现法理学精神;是否能被传统法律从业者所接受;法律行业与人工智能领域这两个职业的最佳契合点到底在哪里,这些问题仍待解决。“人工智能能做哪些事,不能做哪些事,机器判官是否能为人所接受”;其包含的技术风险和伦理风险,可能不再是公众号和媒体的纸上谈兵。

法律过程与事实抽象的困难

法律不是数学规律,她不仅仅包含那一个个孤零零的发条。一些与现实紧密结合的法律过程和事实,比如陪审团,比如对抗式刑事审判,这些实际过程如何进行数学或者模型的抽象,都不是一个好解决的问题。

对AI本身发展的巨大依赖

从 ICAIL 的历史可以看出, AIL 的发展,几乎是强依赖与AI本身的发展的。90年代前 knowledge base 以及专家系统是主流的时候,大量基于它们的论文也如同雨后春笋,而现在则门可罗雀,统计学习和 NLP 则甚嚣尘上。这不由得不令人怀疑 AIL 是否仅仅只是 AI 的一个附庸。 到底 AIL 能不能独立出一套与其他领域无关的方法论,然后将其他领域的方法接纳进来为我所用,也可能是一个今后需要解决的问题。

展望

AIL 的理论在上个世纪得到了巨大发展,而具体的落地则刚刚开始。从“智慧法庭”和法律文档化的潮流上看,AIL 至少是一个到处都需要填坑的朝阳产业。但是计算法律的理论,AI判官是否还能继续前进下去,ICAIL 能否不再是一个两年一届的C类会而真正走向 AI 的大家庭之中,就看之后的发展了。

(图: Research – Practise Paradox, 来源[17])

Reference

  1. codex
  2. History: 50 best papers of ICAIL
  3. Connectionist expert system
  4. computational law
  5. HYPO: A Process Model of Legal Argument with Hypotheticals
  6. NLP-E-discovery
  7. conceptual retrieval and case law
  8. Formalizing Arguments, Rules and Cases
  9. Law and Logic: a Review from an Argumentation Perspective
  10. Deontic Logic
  11. Constructing and Understanding Bayesian Networks for Legal Evidence with Scenario Schemes
  12. NEST: A Compositional Approach to Rule-Based and Case-Based Reasoning
  13. LUIMA: Introducing LUIMA: an experiment in legal conceptual retrieval of vaccine injury decisions using a UIMA type system and tools
  14. 法律智能十大趋势
  15. AI and Law, 人工智能与法律(一)
  16. Law Department Artificial Intelligence Survey Report
  17. 25 Years of AI & Law ICAIL 1987 – 2013
  18. AI in Law and Legal Practice
  19. EBrevia
  20. Legal Robot
  21. 美国最高法院网上新判例
Share

不谈技术细节,自然语言处理能做些什么

深度神经网络的爆发使得机器学习受到了广泛的关注, 而NLP(自然语言处理)又是其中最受关注的部分。ThoughtWorks正在尝试NLP技术的商业化落地,例如对话机器人、针对特定领域的机器翻译等。基于NLP的重要性和其最近几年的飞速发展, 它成为了人们经常会讨论的一个流行话题。对于专业人士来说, 通常会聊到词向量, LSTM, attention等技术。但是作为一个非NLP专家, 我们要聊些什么呢?或者说我们应该学些什么呢?本文就从应用角度来总结一下自然语言处理能做哪些事, 以及在我眼中NLP有潜力去做哪些事,帮助大家建立对NLP技术初步的理解。

NLP能做哪些事?

NLP的集大成者 – 语音助手

人类研究语音助手已有几十年的历史, 在科幻电影中也常有提及,不过直到2011年,苹果发布Siri, 这种神秘的工具才获得了大众的关注。在Siri之后, 涌现出了以Amazon Alexa, Google Assistant, Microsoft Cortana为代表的一大票语音助手。早期的语音助手功能十分有限, 也很少有人使用。经过了这些年的发展, 现在的语音助手已经有了很大的进步, 已经能很好地处理天气查询, 信息检索, 添加日程, 播放音乐等简单任务。此外, 部分语音助手还支持声纹识别, 提升了安全性。如果你最近没有使用过上述的语音助手, 我强烈建议你去试用一下!

尽管NLP在语音助手应用中发挥了重要作用,但仍然不足以支撑这样一个复杂的综合性系统。语音助手基本上使用了下文中提到的所有NLP技术以及很多其他非NLP技术。创建一个完整的语音助手需要大量的资源, 是一个门槛很高的领域。

基于文本分类的应用

文本分类就是将非结构化文本数据划分到事先定义好的标签类中, 这是NLP技术的一大分支, 很多其他技术都依赖于它。由于分类任务不同, 标签的定义也不同, 比如在综合用户评论分析中, 标签可以定义为 “负面”, “中性”, “正面”。而在酒店评论分析中就可以把标签定义为”服务好”, “环境好”, “环境差”等。

由于标签体系可以灵活调整, 文本分类被广泛应用到众多领域中, 下面列出一些典型的应用:

  1. 垃圾邮件的检验:垃圾邮件检测的方法有很多, 其中一类就是利用文本分类技术来过滤垃圾邮件。
  2. 新闻自动分组:对于分类新闻网站, 将新闻归类展示是一项消耗巨大的任务, 这里可以通过自动文本分类技术来自动化这一操作, 提升分类效率和用户阅读体验。
  3. 用户情感分析(评论倾向性分析):通过对用户评论进行分类(高兴or失望)处理, 可以得到用户对商家的态度, 该方法已经在许多点评类应用中得到使用。
  4. 文档自动标签, 搜索引擎优化(SEO):通过文档自动分类得到新闻或web页面的标签, 将这些标签加入到网站的Head中能够起到优化搜索引擎排名的作用。

基于命名实体识别(NER)的应用

命名实体识别的目标是定位文本中出现的预定义分类, 包括人名, 组织名称, 地名, 日期和时间, 数量等等。下面以一个例子来具体说明:

原文:

“Jim bought 300 shares of Acme Corp. in 2006.”

标注后(括号内为实体类型):

“[Jim](Person)bought 300 shares of [Acme Corp.] (Organization)in [2006](Time).”

NER也有应用场景,下面是几个例子:

  1. 新闻标注:和文本分类不同, 这里可以使用NER技术将与文章相关的人物, 地点都以标签的形式标注出来, 方便用户对某个人物或地点进行索引。
  2. 搜索引擎:可以通过使用命名实体识别来抽取web页面中的实体, 后续可以使用这些信息来提高搜索效率和准确度。
  3. 从商品描述中自动提取商品类别, 品牌等信息, 提高货物上架效率, 在咸鱼等应用上已经实现了类似功能。
  4. 工具易用性提升, 例如从短信息或邮件中提取时间和地点等实体, 从而实现点击时间直接创建日历, 点击地址直接跳转到地图App等便捷操作。

其他

除了上面说到的几种分类之外, NLP还能做很多厉害的事情:

  1. 机器翻译:机器翻译是语音助手外另一个为大家熟知的NLP应用, 也是商业化最早的NLP应用。金山快译作为当年机器翻译市场的佼佼者是我最早接触到的几款软件之一。机器翻译刚出现时准确性较低, 不过随着近年来深度神经网络在机器翻译领域的成功应用, 目前的机器翻译已经有了很高的可用性。Google translate已经率先在生产环境部署了基于深度神经网络的翻译工具,是这方面的杰出代表。
  2. 拼写检查(拼写纠错):包括单词拼写检查, 句子正确性检查。拼写检查在搜索引擎上得到广泛应用, 当你在百度搜索”自然寓言处理”的时候, 百度会自动显示”自然语言处理”的相关结果。除了搜索引擎外, 拼写检查也广泛应用在各种文字处理系统中。

NLP有希望做哪些事?

上面讲了很多应用案例, 其中大部分已经比较成熟甚至已经投入到了商业应用中。下面再罗列一些我认为目前不是很成熟但是很有潜力的NLP技术:

  • 句子, 段落的相似性检测:词语的相似度检测已经很成熟, 句子和章节的相似性检测的研究也在进行中。相似性检测有很广的应用空间, 可以用来解决问答论坛上重复问题, 文章抄袭问题等。
  • 自动文本摘要:即为文章生成一个简短的总结性段落。当我们写文章时很多人会写一个TLNR(太长不读版), 文本摘要技术可以自动为我们生成这个TLNR, 节省我们的时间。在信息爆炸时代, 文本摘要技术有着巨大的潜力。
  • 自动问答:该技术的价值无需赘述, 不过目前的问答机器人都只能在特定领域回答一些简单地问题, 通用的问答机器人目前还无法实现, 这将是一个巨大的挑战。该领域的一款落地应用来自Google, 在其邮件应用Inbox中已经开始提供邮件快速回复功能(根据邮件自动生成三个可能的回复供用户选择), 虽然目前生成的回复都很简短, 但已经有了一定的实用性。

总结

上面介绍了几种NLP技术和应用场景, 但是NLP技术涉及的范围远不止这些, 将NLP技术与音频处理、图像处理等技术结合, 又会出现诸如视频字幕生成, 图片描述生成等等有趣的应用。可以说只要有人类, 有语言, 就存在NLP应用的可能性。也正是因为NLP技术涉及范围广泛,才吸引了越来越多企业的关注,并在其之上构建各种智能系统,给我们的生活带来了便利。

了解了这些应用,不妨花几分钟思考一下, 对于你目前接触到的业务, NLP技术能给客户带来哪些价值呢?


更多精彩洞见,请关注微信公众号:思特沃克

Share

数据质量管理的一些思考

背景

在近期的项目当中,我们为客户落地实施了数据资产平台。随后,在数据平台中接入了客户子公司的一个业务系统的明细数据。客户希望在我们的数据平台上通过数据探索和数据分析,来挖掘一些业务价值和业务创新点。

当我们拿到数据开始进行一些初步探索的时候,发现导入平台的数据质量存在一定的问题:例如一些用于数据分析的关键字段的值为空、一些本应该有主从关系的数据对应不上、数据分类混乱等。这些问题直接影响到了对业务数据的分析和价值挖掘。因此,我们决定先对这份业务数据进行一次质量评估。如果评估的结果太差,不能做太多有价值的数据分析,那么我们的工作方向可能就需要转变为帮助客户制定整改数据质量的计划和方案。

数据质量问题

什么是质量

关于质量是有个一个标准定义的:一组固有特性满足明示的、通常隐含的或必须履行的需求或期望(要求)的​程度。这里面包含了两层意思,一个是说质量其实是一组特性,另一个是说质量需要满足需求或期望。所以如果从数据分析的角度来说数据质量,就是看当前数据的特性能否满足我们做数据分析或挖掘这个需求。

质量问题的来源

数据问题的来源可能产生于从数据源头到数据存储介质的各个环节。在数据采集阶段,数据的真实性、准确性、完整性、时效性都会影响数据质量。除此之外,数据的加工、存储过程都有可能涉及对原始数据的修改,从而引发数据的质量问题。所以,技术、流程、管理等多方面的因素都有可能会影响到数据质量。

在企业中,随着企业业务的增长,数据也是一个增量积累的过程。随着数据类型、数据来源的不断丰富以及数据数量的快速增长,企业在数据管理工作和数据流程中面临越来越多的数据质量问题。而且数据质量的管理并没有被企业重视起来,其根本原因还是ROI并没有那么明显。

数据质量管理相对来说成本比较高。因为它涉及到企业数据标准的制定、规范的落地、生命周期的管理等多个环节。从收益上来说,数据质量的效益和结果并不是十分明显,大部分企业不会把数据质量作为KPI。在企业的不同系统中,业务领域的关键指标不一致,数据无法共享导致出现数据孤岛,大量数据无法关联,并且有明显的数据冗余等问题,还有数据的维护需要投入大量的人员、时间、软硬件成本。所以数据的质量管理往往被会边缘化甚至趋向于无。

数据质量评估

那么我们如何对一份数据进行质量评估呢?这是一个比较难以回答的问题。因为数据质量本身有这么几个问题。首先是数据质量定义不一致,人们对数据质量的理解并没有一个参考标准或者标准的定义,所以人们理解的数据质量就会呈现出多样性,而无论是数据评估体系还是数据质量控制体系,都离不开关于数据质量的清晰定义。其次,没有权威性的数据质量标准模型或参考模型。再者,没有系统化的数据质量评估指标,也没有对数据质量评估的指标形成一个量化的标准。所以现在多数对于数据质量的研究都是针对特定领域或特定问题的研究,并不具有普适性,很难推广成为标准化的体系或模型。

那我们能不能像CMMI(能力成熟度模型, Capability Maturity Model Integration)和 AMM(敏捷成熟度模型,Agile Maturity Model)一样对数据质量建立一个模型,我们暂且称之为DQAM(数据质量评估模型,Data Quality Assessment Model)。

首先思考一下,在进行数据质量评估时我们会选取多个指标,所以很自然会想到借用一下模糊综合评价理论。搜集了一下资料,这里选取以下若干个指标来作为我们的数据质量评价指标(当然,可以根据实际需要选取其他指标,指标的数量也可多可少):

  • Completeness:完整性,用于度量哪些数据丢失了或者哪些数据不可用
  • Conformity:规范性,用于度量哪些数据未按统一格式存储
  • Consistency:一致性,用于度量哪些数据的值在信息含义上是冲突的
  • Accuracy:准确性,用于度量哪些数据和信息是不正确的,或者数据是超期的
  • Uniqueness:唯一性,用于度量哪些数据是重复数据或者数据的哪些属性是重复的
  • Integration:关联性,用于度量哪些关联的数据缺失或者未建立索引

那么评估模型应该有这么几个要素:

  • Dataset:被评估的数据集,对于关系型数据库来说就是一张表
  • Indicators:评估指标,就是上面列出来的6个指标
  • Rule:评估规则,与上面的评估指标对应,后续会根据规则的描述来编写脚本。
  • Weight:权重,此处的权重是每一条评估规则在全部规则的所占比重
  • Expectation:期望,根据每个评估规则给出一个评估前的期望值(0-100)
  • Score:结果,每个评估规则应用到数据集后计算出来的结果值(0-100)

那么构造整个模型的过程基本就可以确定下来,首先根据需要选取数据集当中要进行评估的数据视图,再选取所需要的评估指标。下一步需要制定规则集,根据所选的评估指标来制定相应的数据质量评估规则,并确定它们相应的权值和期望值。最后一步就是根据规则集来计算结果得分。

对于数据集的N个规则计算出来的得分,最后计算其加权平均值,得到质量评估的绝对量化值。用该量化值和期望进行差值比较,可以得出该数据集是比预期的好,还是不如预期。

以上是一个简单的评估模型,目前并没有在实际的场景中应用,当然这个模型的精度并不会很高,也没有处理误差。仅仅提供一个思路,或许质量的评估可以朝着这个方向来进行。

数据质量管理

数据工作流质量管理

下面来谈谈数据质量管理。质量管理前面提到了,涉及到数据工作流的各个环节。数据的工作流可以分为以下几部分:数据产生、加工处理、存储、挖掘和应用。质量管理的前提是在每一个环节建立质量标准。数据的来源包括:业务系统产生的数据、外部系统的数据、手动录入的数据等,从这些源头采集数据,然后经过数据通道进行加工处理(ETL,Extract-Transform-Load),数据进入到数据仓库或数据集市当中。然后业务人员、数据科学家、数据工程师等,会在数据平台对数据进行探索和挖掘,这个过程可能发生在数据仓库,也可能是在数据沙箱中进行,最后对数据探索分析挖掘的产出结果,会以数据应用的方式发布出来,具体的形式包括:数据报表、数据门户、OLAP、数据产品、数据服务、智能模型等等。

数据质量监督

除了制定质量标准外,还需要对系统中的数据本身和数据工作流进行监督管理。

对数据系统进行实时监控,监测数据工作环境的服务器软硬件运行状态、性能、磁盘空间、数据库事务、锁、缓冲、会话量、备份等等一系列指标,实施预警机制,并监测一些异常情况的发生。

对数据进行定期校验,除了对数据系统进行实施监控外,还需要对数据进行校验:日常校验、数据抽检、全面校验等。

审核制度也是保证质量的一个重要措施,特别是对于敏感数据和敏感操作。建立数据变更时候的分级审核制度,尤其是一些影响较大或者权限较高的操作。建立审批制度,对于数据的读取,如果涉及到敏感数据,必要时,也需要数据审批或者是数据脱敏。

数据生命周期管理

数据的生命周期从数据规划开始,中间是一个包括产生、处理、部署、应用、监控、存档、销毁这几个步骤并不断循环的过程。随着业务的发展,系统的业务数据类型和业务规范不断变化,一个完备的数据生命周期管理方案还应当包括对系统的优化调整,根据业务系统实际运行情况、新的业务类型和规范、技术改进等调整原有的数据存储迁移策略和访问方式,以满足业务系统发展及新的业务规范需求。数据生命周期管理的目的是对不同阶段的数据采取不同的管理策略用来降低数据管理运营成本,并提高数据质量度,实现数据价值最大化的终极目的。

总结

数据质量在任何系统当中都是十分重要却容易被忽视的一部分。构建完整的数据质量管理体系,既是支持企业系统稳定运行的基本保障,同时也是企业进行数字化转型、创新的必备条件。


更多精彩洞见,请关注微信公众号:思特沃克

Share

常用的几种大数据架构剖析

数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于Hadoop系列的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统,对于BI系统来说,大概的架构图如下:

可以看到在BI系统里面,核心的模块是Cube,Cube是一个更高层的业务模型抽象,在Cube之上可以进行多种操作,例如上钻、下钻、切片等操作。大部分BI系统都基于关系型数据库,关系型数据库使用SQL语句进行操作,但是SQL在多维操作和分析的表示能力上相对较弱,所以Cube有自己独有的查询语言MDX,MDX表达式具有更强的多维表现能力,所以以Cube为核心的分析系统基本占据着数据统计分析的半壁江山,大多数的数据库服务厂商直接提供了BI套装软件服务,轻易便可搭建出一套Olap分析系统。不过BI的问题也随着时间的推移逐渐显露出来:

  • BI系统更多的以分析业务数据产生的密度高、价值高的结构化数据为主,对于非结构化和半结构化数据的处理非常乏力,例如图片,文本,音频的存储,分析。
  • 由于数据仓库为结构化存储,在数据从其他系统进入数据仓库这个东西,我们通常叫做ETL过程,ETL动作和业务进行了强绑定,通常需要一个专门的ETL团队去和业务做衔接,决定如何进行数据的清洗和转换。
  • 随着异构数据源的增加,例如如果存在视频,文本,图片等数据源,要解析数据内容进入数据仓库,则需要非常复杂等ETL程序,从而导致ETL变得过于庞大和臃肿。
  • 当数据量过大的时候,性能会成为瓶颈,在TB/PB级别的数据量上表现出明显的吃力。
  • 数据库的范式等约束规则,着力于解决数据冗余的问题,是为了保障数据的一致性,但是对于数据仓库来说,我们并不需要对数据做修改和一致性的保障,原则上来说数据仓库的原始数据都是只读的,所以这些约束反而会成为影响性能的因素。
  • ETL动作对数据的预先假设和处理,导致机器学习部分获取到的数据为假设后的数据,因此效果不理想。例如如果需要使用数据仓库进行异常数据的挖掘,则在数据入库经过ETL的时候就需要明确定义需要提取的特征数据,否则无法结构化入库,然而大多数情况是需要基于异构数据才能提取出特征。

在一系列的问题下,以Hadoop体系为首的大数据分析平台逐渐表现出优异性,围绕Hadoop体系的生态圈也不断的变大,对于Hadoop系统来说,从根本上解决了传统数据仓库的瓶颈的问题,但是也带来一系列的问题:

  1. 从数据仓库升级到大数据架构,是不具备平滑演进的,基本等于推翻重做。
  2. 大数据下的分布式存储强调数据的只读性质,所以类似于Hive,HDFS这些存储方式都不支持update,HDFS的write操作也不支持并行,这些特性导致其具有一定的局限性。

基于大数据架构的数据分析平台侧重于从以下几个维度去解决传统数据仓库做数据分析面临的瓶颈:

  1. 分布式计算:分布式计算的思路是让多个节点并行计算,并且强调数据本地性,尽可能的减少数据的传输,例如Spark通过RDD的形式来表现数据的计算逻辑,可以在RDD上做一系列的优化,来减少数据的传输。
  2. 分布式存储:所谓的分布式存储,指的是将一个大文件拆成N份,每一份独立的放到一台机器上,这里就涉及到文件的副本,分片,以及管理等操作,分布式存储主要优化的动作都在这一块。
  3. 检索和存储的结合:在早期的大数据组件中,存储和计算相对比较单一,但是目前更多的方向是在存储上做更多的手脚,让查询和计算更加高效,对于计算来说高效不外乎就是查找数据快,读取数据快,所以目前的存储不单单的存储数据内容,同时会添加很多元信息,例如索引信息。像类似于parquet和carbondata都是这样的思想。

总的来说,目前围绕Hadoop体系的大数据架构大概有以下几种:

传统大数据架构

​之所以叫传统大数据架构,是因为其定位是为了解决传统BI的问题,简单来说,数据分析的业务没有发生任何变化,但是因为数据量、性能等问题导致系统无法正常使用,需要进行升级改造,那么此类架构便是为了解决这个问题。可以看到,其依然保留了ETL的动作,将数据经过ETL动作进入数据存储。

优点:简单,易懂,对于BI系统来说,基本思想没有发生变化,变化的仅仅是技术选型,用大数据架构替换掉BI的组件。

缺点:对于大数据来说,没有BI下如此完备的Cube架构,虽然目前有kylin,但是kylin的局限性非常明显,远远没有BI下的Cube的灵活度和稳定度,因此对业务支撑的灵活度不够,所以对于存在大量报表,或者复杂的钻取的场景,需要太多的手工定制化,同时该架构依旧以批处理为主,缺乏实时的支撑。

适用场景:数据分析需求依旧以BI场景为主,但是因为数据量、性能等问题无法满足日常使用。

流式架构

在传统大数据架构的基础上,流式架构非常激进,直接拔掉了批处理,数据全程以流的形式处理,所以在数据接入端没有了ETL,转而替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者。虽然有一个存储部分,但是该存储更多的以窗口的形式进行存储,所以该存储并非发生在数据湖,而是在外围系统。

优点:没有臃肿的ETL过程,数据的实效性非常高。

缺点:对于流式架构来说,不存在批处理,因此对于数据的重播和历史统计无法很好的支撑。对于离线分析仅仅支撑窗口之内的分析。

适用场景:预警,监控,对数据有有效期要求的情况。

Lambda架构

Lambda架构算是大数据系统里面举足轻重的架构,大多数架构基本都是Lambda架构或者基于其变种的架构。Lambda的数据通道分为两条分支:实时流和离线。实时流依照流式架构,保障了其实时性,而离线则以批处理方式为主,保障了最终一致性。什么意思呢?流式通道处理为保障实效性更多的以增量计算为主辅助参考,而批处理层则对数据进行全量运算,保障其最终的一致性,因此Lambda最外层有一个实时层和离线层合并的动作,此动作是Lambda里非常重要的一个动作,大概的合并思路如下:

优点:既有实时又有离线,对于数据分析场景涵盖的非常到位。

缺点:离线层和实时流虽然面临的场景不相同,但是其内部处理的逻辑却是相同,因此有大量冗余和重复的模块存在。

适用场景:同时存在实时和离线需求的情况。

Kappa架构

​ Kappa架构在Lambda 的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代。因此对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次则可。

优点:Kappa架构解决了Lambda架构里面的冗余部分,以数据可重播的超凡脱俗的思想进行了设计,整个架构非常简洁。

缺点:虽然Kappa架构看起来简洁,但是施难度相对较高,尤其是对于数据重播部分。

适用场景:和Lambda类似,改架构是针对Lambda的优化。

Unified架构

​ 以上的种种架构都围绕海量数据处理为主,Unifield架构则更激进,将机器学习和数据处理揉为一体,从核心上来说,Unifield依旧以Lambda为主,不过对其进行了改造,在流处理层新增了机器学习层。可以看到数据在经过数据通道进入数据湖后,新增了模型训练部分,并且将其在流式层进行使用。同时流式层不单使用模型,也包含着对模型的持续训练。

优点:Unifield架构提供了一套数据分析和机器学习结合的架构方案,非常好的解决了机器学习如何与数据平台进行结合的问题。

缺点:Unifield架构实施复杂度更高,对于机器学习架构来说,从软件包到硬件部署都和数据分析平台有着非常大的差别,因此在实施过程中的难度系数更高。

适用场景:有着大量数据需要分析,同时对机器学习方便又有着非常大的需求或者有规划。

总结

以上几种架构为目前数据处理领域使用比较多的几种架构,当然还有非常多其他架构,不过其思想都会或多或少的类似。数据领域和机器学习领域会持续发展,以上几种思想或许终究也会变得过时。


更多精彩洞见,请关注微信公众号:思特沃克

Share

BBVA,数字十年

[摘要]

有着160年历史的西班牙BBVA银行,2017年9月,宣布其「数字转型的成果已经具备商业可量化性」;同年12月,「数字渠道占有率」在西班牙本土首次突破50%的门槛。这在银行业可谓难得一见。本文带你回顾BBVA十年数字转型之旅,希望能给你带来启发。

[目录]

  • 2007~2011年:交互范式探索
    • 投资线上客户体验
    • 开放创新平台
    • 人性化的触点体验
  • 2012~2015年:商业模式再造
    • 将数字化能力引入到核心业务
    • 大规模资本运作
    • 进入大数据领域
    • 调整组织战略和品牌定义
  • 2016~2018年:全面推动开放银行
    • 资本持续运作
    • 基础设施投资推动平台化
  • 写在最后

2017年9月27日,超过160年历史、西班牙第二大银行BBVA的首席财务官Jaime Sáenz de Tejada宣布「数字转型的成果已经具备商业可量化性」。去年12月,其数字化转型的重要指标「数字渠道占有率」在西班牙本土首次突破50%的门槛,其11个主要国家市场中已有6个完成数字化转折点(Digital Tipping Point)的目标。今年1月,整个南美洲用户的数字占有率整体突破50%

(图1:超过160年历史的西班牙第二大银行——BBVA,Banco Bilbao Vizcaya Argentaria)

BBVA的数字转型在过去10年里,取得发达市场国家金融业中难得一见的成就。BBVA的数字转型值得金融领域创新者学习,让我们仔细梳理过去十年里BBVA数字转型的脉络。

2007~2011年:交互范式探索

在经历2007年全球金融危机之后,2008年的世界对于金融服务商而言是全新的:多个市场的经济衰退;更加严格的法规;负利率对银行利润的巨大侵蚀。更加意义深远的,一端是消费者对于银行的「信任危机」——认为金融机构应该为这场灾难负责;另一端是方兴未艾且野心勃勃的互联网经济正蓄势待发进入全新阶段。此情此境,BBVA所迫切需要的,是重新思考银行和客户的关系,并在数字时代重新定义全新的交互范式。

2007年,BBVA的创新战略始于其技术运营部,最初的目标是在银行业引入更多新兴技术,该部门主导了2011年前BBVA的多个数字创新项目。

投资线上客户体验

2008年,BBVA推出了第一个数字项目「Tú Cuentas(意为你的账单)」——一个支出管理的线上产品,线上银行客户可以通过该平台统一管理多种支付手段的个人消费记录。四个月后「Tú Cuentas」获得了初步的成功,近1/3的线上银行客户成为其用户。这一产品有着简单直接的产品逻辑:

  1. 通过数字的方式帮助客户完成一项与个人金融相关的工作(管理支出);
  2. 让客户在数字渠道上停留,产生数据;
  3. 通过数据累积推荐个性化的其他个人金融产品;
  4. 逐步开放给非客户,适应其支出管理的需求,成为获客数字渠道。

(图2:BBVA的Tú Cuentas可以让客户统一分析多个账户的收支情况)

开放创新平台

Tú Cuentas的成功让BBVA开始意识到,如果要寻找BBVA在数字时代的定位,必须先要回到消费者身边。2009年2月,首届「Open Talent」的创新大赛举办,总共375个项目被启动。有趣的是,首届大赛的冠军Pidecita并非金融领域创新,而是一家为线上预定提供解决方案的创业公司,这也显示了BBVA对消费者端到端体验的重视程度。

至今Open Talent已经成为超过80个国家参与,金融创新领域最大的赛事之一,源源不断向BBVA输出创意和新一代数字人才。

(图3:BBVA的Open Talent大赛已经持续了9年)

人性化的触点体验

2009年,与IDEO合作、历时三年的ABIL项目正式部署,这款完全抛弃了实体键盘操作而改用触摸屏的ATM机引入许多人性化的设计概念,包括一个名为Hero的虚拟助理,以及极致化的交互方式。

(图4:2009 BBVA的ABIL项目启用了触摸屏的ATM机)

2010年,受到ABIL项目中Hero这个虚拟助理的启发,BBVA开始研发新的交互方式,一个名为Lola的全新虚拟助手将在两年后出现在线上银行的右下角,Lola以对话的形式辅助客户完成操作,这比后来的Conversational UI的兴起整整提前7年。

(图5: BBVA的Lola是一个虚拟的助理,通过对话的方式完成超过65%的线上银行服务)

人性化是BBVA在2012年以前的重要主题。2011年11月,BBVA推出了具有里程碑意义的个人金融服务平台:BBVA Contigo Adviser。这个平台使得客户随时随地通过手机与金融顾问互动,这个平台背后是大量系统的集成,也意味着BBVA在2012年以前就已完成了多个核心系统的整合,最终实现了客户与银行交互方式的重大变革。

(图6: BBVA的 Contigo Adviser,使得客户可随时随地与金融顾问互动)

在2008到2011年,BBVA在客户交互方式上进行了重大投入,从Hero、到Lola、再到Contigo,一个个虚拟角色创造了全新的交互范式,这是BBVA数字十年的第一个里程碑,即交互范式的再造。

2012~2015年:商业模式再造

多个创新项目的成功,以及Open Talent创新大赛的持续举办,使得BBVA拥有了客户的口碑、数字化专业人才、以及广泛的合作网络。在此基础之上,BBVA很快意识到创新应该与最高优先级的业务目标紧密结合,遂采取了一系列措施来进行业务模式再造,以让创新投资真正能为企业带来业务红利。

将数字化能力引入到核心业务

2012年,一支隶属国际事业部(Global Banking)下的独立创新团队正式成立,重点不再是技术导入,而是和IT部门紧密合作,将数字化能力引入企业最重要的业务领域,例如支付和渠道经营。

作为在支付领域的重要投入,BBVA推出其第一个移动现金平台「Efectivo Móvil(Mobile Cash)」。付款人通过Efectivo Móvil生成一个短信代码发送给收款人,收款人再用这个短信代码在任意一个西班牙的ATM机完成取现。

(图7: BBVA的第一个移动现金平台Efectivo Móvil)

2013年,BBVA继续加码移动支付领域,推出旗下数字钱包「Wallet」,Wallet使得用户可以在手机应用中管理各种银行卡,并实现线上支付、手机线下近场支付(通过一个特别的贴纸)。

(图8: 2013年BBVA推出的数字钱包Wallet)

2013年BBVA对于技术的投入高达24亿欧元,是2006年的两倍,对核心领域的数字化投资获得显著成效,当年,其数字银行平台每天处理2.5亿笔交易,为2006年的近2.8倍

大规模资本运作

商业模式再造除了对于核心业务领域的投入,还包括一连串的资本运作,通过资本快速获得智力资源。2014年2月,BBVA通过117亿美元收购美国纯数字银行Simple

(图9: 2014年BBVA收购数字银行Simple)

次年,以4500万英镑购置英国纯移动银行 Atom Bank 29.5%股权。

(图10: 2015年BBVA购置Atom Bank 29.5%的股权)

2013年BBVA投资1亿美元成立旗下风险投资部门BBVA Ventures,将着重投资金融科技领域的创业公司。三年时间里,BBVA完成的主要投资有:

进入大数据领域

2014年,BBVA将开放平台作为商业模式再造的第三种战略投资,正式成立大数据公司BBVA Data & Analytics,从2014年起这间公司就开始从交易数据中深度挖掘金融行为和人类社会活动的关系,例如从支付行为看西班牙旅游分布和趋势

(图11: 2014年BBVA成立BBVA Data & Analytics,尝试从支付行为挖掘旅游分布和趋势)

2014年对于数据能力的投入在若干年后转化为BBVA进一步商业模式转型的助推器,真正推动BBVA从一间传统银行逐渐转型为金融信息科技公司。

调整组织战略和品牌定义

商业模式的革新,离不开组织架构的调整和公司战略的支持。2014年,数字银行部门已经发展成一个拥有3000名员工的庞大组织,这个组织拥有市场、技术、设计、人才、文化多种功能,并横跨多个业务部门,致力于推动全组织的数字转型。

2015年,Francisco Gonzalez在当年的股东大会上宣布BBVA的转型目标:「建设21世纪全球最佳数字银行……把BBVA打造成完全数字化的公司」。

至此,BBVA的转型战略逐渐清晰化,即:

  1. 通过多项投资组合(包含数字销售、客户体验、分销渠道、数字能力、基础设施、组织文化)在内部驱动业务转型;
  2. 通过风险投资(包括内部投资、外部投资和收购)在内部挖潜或外部快速获得智力资源。

(图12: 2015年BBVA的数字转型目标与投资组合)

2015年最后一个季度,BBVA在已有的数字化成果上继续调整其转型目标,正式提出了其数字化转型的核心价值定位——「把机会赋予所有人(Our purpose is to bring the age of opportunity to everyone)」,并详细解读了其意涵:

  1. To Bring:BBVA的策略,即将资本、工具、产品、和建议作为能力赋予;
  2. To Everyone:BBVA服务的对象是所有个人、家庭、创业者、企业主、公众服务或私营企业、还包括BBVA的员工;
  3. The Age of Opportunity:技术的核心价值为这个社会带来无限可能;

这个核心价值,在2017年正式上升为核心品牌价值——「创造机会」甚至被放入公司的标识,成为数字转型近几年的指南针,这也标志BBVA的数字转型真正进入公司品牌核心。

(图13: 2017年,“创造机会”成为BBVA的数字转型的指南针)

2016~2018年:全面推动开放银行

经过8年的数字转型,BBVA的业务已经发生了显著变化,在移动端的投入使得门店活动(Branch Activity)的比例下降到2016年3月的41%,比2013年下降20%;同期移动端用户达到940万,较上年增幅高达45%。稳步增长的数字渠道使用比例,使得BBVA有能力通过数字化真正实现品牌的新意涵——创造机会。其具体实施包含如下几个方面:

资本持续运作

2016年2月,BBVA关闭了原有的风投机构BBVA Ventures,重新投资2.5亿美元建立新的投资机构Propel Venture Partners,背后的原因有:一为BBVA希望风投机构脱离母体更加独立运作,二为在独立运作后获得更大的投资权。此点也体现出公司对于资本运作专业化、独立化、规模化的战略要求

目前,Propel管理着17家不同类型创业公司的股份,类型覆盖区块链、数字签名、保险、理财、员工福利等,为BBVA提供技术、客户体验、和解决方案的可能性,它们包括:

(图14: BBVA新的投资机构Propel管理者17家不同类型创业公司的股份)

其投资组合主要分布企业解决方案、个人金融产品、以及客户体验相关工具三个方向,较为均匀的分布体现着BBVA对企业特别是中小企业市场、创新互联网金融产品、以及客户数字体验的战略支持。

(图15: BBVA新的投资机构Propel的投资组合)

资本运作逼迫BBVA走到金融创新的最前沿,倒逼组织内部转型、调整优先级、构建开放的基础设施、寻找下一个业务增长点。

基础设施投资推动平台化

「开放」从数字转型的一开始就成为其核心关键字,从最早的「Open Talent」创新大赛开始,到2014年建立的大数据公司BBVA Data & Analytics,最终演化成独立商业模式。2016年2月,BBVA宣布上线其在后来有深远意义的Open API平台,为互联网金融创业公司提供API接口,最初开放的四个接口包括:

  1. PayStates:聚合BBVA卡支付信息方便第三方数据分析或商业情报;
  2. Connect:为第三方应用授权访问BBVA服务;
  3. Accounts:为第三方应用授权访问BBVA账户信息;
  4. Card:为电商网站绑定BBVA支付方式

开放API基础设施的建设不但帮助BBVA广泛吸纳第三方服务,提供无缝和无处不在的客户体验,也为业务扩张和整合节约大量成本。2016第四季度,BBVA正式宣布对BBVA Compass(美国业务)和2014年收购的美国纯数字银行Simple整合,其背后使用的正是其西班牙银行业务所提供的API。

对技术基础设施的投资从未停止,2016年5月,BBVA宣布与Red Hat合作,在IaaS(Infrastructure-as-a-Service )、PaaS(Platform-as-a-Service)、以及云管理平台等领域进行深入合作;10月,BBVA宣布与Amazon Web Services合作,以获得处理每天5亿4200万笔交易的云计算能力;次月,BBVA与CRM领域巨头Salesforce合作,在西班牙完美实现全手机开户。

在数据领域,BBVA已经开始探索将数据作为企业服务的新模式——2016年11月,「Commerce 360」上线,为中小型企业提供交易(来源于丰富的POS数据)分析能力。

(图16:2016年,BBVA的Commerce 360上线,为中小企业提供交易分析服务)

2017年3月,BBVA宣布设立全球级数据职位(Head of Data),进一步稳固数据能力在全组织的战略地位。

同月,BBVA继续向英国移动银行Atom追加投资,结合自有数据和开放能力,成为在2018年前具备交付开放银行能力的欧洲少数金融机构之一。

一系列在基础设施、平台化、数据方向的投资逐步实现,帮助BBVA在2018年「PSD2(欧盟支付服务指令修正案 Payment Services Directive)」做好准备(注:PSD2即Payment Service Directive 2,欧盟2016年通过该法令,规定在2018年1月13日起欧洲银行必须把支付服务和相关客户数据开放给第三方服务商)。在「开放银行 (Open Banking)」时代,与不断涌现的金融创新颠覆者与替代金融(Alternative Finance)、和互联网巨头竞争,并领导整个传统金融服务业的创新。

写在最后

从2007年BBVA正式启动数字转型,到2015宣布最终数字转型目标的8年时间里,BBVA经历两个显著的阶段:在前一个阶段的四年里,BBVA意识到传统银行出现了身份危机,如何重新定位银行对消费者意味着什么,是数字转型成功的基础。其核心,是「在数字时代,银行应该用怎样的方式与消费者互动」的问题。带着这样的问题,BBVA花了四年时间投入在消费者触点体验上,并在一开始就将创新和开放画上等号。

后四年,转型的目标逐渐转向业务领域,其核心,是「在数字时代,银行该如何演进业务模式以适合和消费者全新互动方式」的问题。在这个阶段,BBVA一方面大幅度投入核心业务(如支付和分销网络)的数字化能力,另一方面大规模对金融科技的创业公司进行资本输出以快速获得智力资源。此外,对数据进行提前投入,为下一阶段商业模式的终极演化提供燃料,并在公司结构和品牌上为转型释放空间。

近两年,BBVA终于有资格挑战数字转型的最高层——「如何让银行成为释放整个社会经济潜力的赋能者,而非利用信息壁垒盈利的中间商」。在这个阶段,BBVA一方面持续进行大规模资本运作,同时在基础设施如数据、开放平台、云计算等领域加大投入,逐步将基础设施平台化,构建全新的商业模式。

(图17:BBVA数字10年,三阶段的核心问题和投资方向)

2018年,BBVA十年转型的领航者,CEO Francisco González 在达沃斯世界经济论坛预言:全世界有2万家银行,但在不远的将来,我们可能不需要这么多。

Francisco González, Executive Chairman BBVA attends a session on ‘The Global Business Context’ during the WEF in Davos on January 23, 2018.

(图18:BBVA CEO Francisco González 在达沃斯世界经济论坛)

银行业百年来构建于信息孤岛上的商业模式,已经远远落后于其他数字化程度更深的行业,未来只有一种商业模式能够成功,这便是BBVA十年来数字转型所一直追求的——「开放」,也是所有数字转型企业的终极目标。

相关推荐:


更多精彩商业洞见,请关注ThoughtWorks商业洞见

Share