智能商业时代的挑战

随着物联网、大数据、人工智能、云计算、区块链等技术的发展,商业将进入智能化时代。

智能商业将给企业带来许多业务升级和转型机会,但是并不是每个企业都能从中获益。如果对智能商业时代的商业环境和竞争态势没有准确的判断,企业内部没有足够的竞争力支撑,反而是企业没落的开始。

1 智能商业时代的竞争态势

1.1 生态系统的竞争

图1 生态系统的竞争

过去企业在战略上强调竞争优势,通过不断强化核心竞争力,扩大规模效应,以提供低成本产品、差异化的服务;但是在智能商业时代,企业还需要发展自身的生态优势,利用生态网络的放大效应和协同效应,提供一体化的产品和服务。

Gartner调研数据显示,中国有61%的企业已经参与别人的生态系统或自建生态系统。比如阿里和腾讯之间的竞争,不是淘宝和微信这两个产品的竞争,而是围绕电商交易与围绕社交形成的两个生态系统之间,在零售、娱乐、出行、旅游、金融、物流、社交、电商、云计算等多领域、全方位的生态竞争。未来不再是产品之间、企业之间或者产业链之间的竞争,而是企业连接形成的生态系统之间的竞争。

1.2 数据的竞争

过去,数据的用途和价值比较单纯,只是作为企业或组织生产经营过程中的“副产物”。随着数据不断积累,运营环境的复杂化,企业开始发掘数据的新用途。利用数据,企业能在未来获得更大的经济收益。企业需要对数据进行资产化管理,通过数据建模分析,挖掘内部和外部数据所蕴含的信息,进行精准营销、产品优化、服务改善等。数据从“副产物”,转变为经营和决策过程的“新矿藏”。实现数据驱动的智能决策,不仅可以给客户提供智能化的产品和服务,还可以提高企业商业决策的效率和质量,制定更加行之有效的战略。

据IDC的研究报告预计,从2013到2020年,全球数字信息将以每两年翻一番的速度,从2013年的4.4ZB增长到44ZB,总规模增长10倍。MIT数字商业中心联合麦肯锡商业技术部、沃顿商学院对北美330家上市公司高管进行大数据与业绩的研究表明,“运用大数据做决策的那些行业前三名企业,比其竞争对手在产能上高5%,利润上高6%”。比如Google不仅存储了网页数据,还存储用户搜索时间、内容和方式。基于这些海量的页面数据和用户行为数据,Google可以优化广告排序,制定广告的投放策略,实现广告的精准投放,将搜索流量转化为盈利模式。根据Google的母公司Alphabet发布的2018财年第三季度财报,第三季总收入337.4亿美元,其中广告业务占总收入的85.8%,达到289.5亿美元,总比增长20%。收集和使用数据的能力,将是未来企业核心的竞争力之一。

1.3 用户体验的竞争

图2 用户体验的竞争

过去企业只关注效率,重视流程。因为只有价值链的各项流程都高效运作,才能保证低成本,形成价格壁垒。但是流程的高效,只能帮助企业实现“节流”,无法实现“开源”。企业的利润最终还是来自于客户。Oracle应用软件协会曾公布一份针对电子商务的调查数据:57%的用户在体验非常差的时候会完全放弃整个处理过程,26%的用户将会转到竞争对手的网站。产品和服务的用户体验是未来企业竞争力的重要一环。比如iPhone之所以在一经面世,就引起消费者的热烈追捧,其重要的原因是它将手机的用户体验做到了极致。简洁的产品设计,简单的用户界面,听音乐、上网、拍照、打电话、玩游戏,只需要屏幕轻点一两下即可,给用户带来了一种全新的体验。用户体验,将是影响企业保持客户和获取客户的重要因素之一

2 企业内部的制约瓶颈

陈旧复杂的IT系统降低了响应力

在过去十几年,很多企业都实施了ERP等大型软件,将管理、生产、库存、采购、物流和财务进行了集成,从而提高运行效率,节约企业成本,增加企业竞争力。但是ERP关注的是企业内部,很少关注企业外部供应商和合作伙伴的协作,形成相对封闭的企业IT体系。随着企业生态合作的扩大,原有陈旧、复杂的IT系统难以快速应对生态的变化,导致企业应对变化的响应力降低。

烟囱式建设模式导致信息孤岛的形成

企业早期按项目制或“烟囱式”来建设IT系统。这些IT系统所采用的技术、数据规范、运行环境都有可能不同,就像在企业内部树立一座座相互孤立的“烟囱”,导致业务和数据的隔离、资源不能共享,运维成本和复杂度高,形成信息孤岛。

客户体验过时导致客户流失和获新困难

客户体验是指“客户与企业和品牌之间的所有互动,不仅仅是指某个时点的互动,而是指作为该企业客户的整个周期的互动”。良好的客户体验可以吸引和留住客户, 鼓励客户加深与企业的关系,购买更多产品和服务,最终增强客户的忠诚度。企业的产品操作复杂,服务低效,正不断地降低客户的忠诚度,导致客户的流失。

3 智能商业时代的企业战略

为了应对智能商业时代的生态、数据和用户体验竞争,提高企业的整体竞争力,智能生态战略的整体目标是:

  1. 充分运用技术、用户、合作伙伴等生态要素,以适应市场和用户的变化,形成生态优势;
  2. 集中管理和利用企业外部和内部的数据,实现企业智能化;
  3. 提高企业响应力和优化产品和服务的客户体验,保持和获取更多客户。

如果未来企业是一艘宇宙飞船,那么信息资产就是飞船的动力系统——发动机,运营管理则是飞船的主体——船身,用户体验和业务规划则是飞船的左右机翼。

图3 智能生态企业

3.1 飞船的发动机——信息资产

信息资产是指企业所拥有的信息系统、业务知识、数据和基础设施能力等,是给宇宙飞船提供动力的发动机,而业务服务化和数据资产化是提高发动机动力的有效举措。

图4 智能生态企业-信息资产

业务服务化

从业务角度而言,服务是指一个独立对外提供可重复业务能力的逻辑单元。独立,是指一个服务不受外界影响完成服务自身的逻辑处理,具有高度自治性。可重复,是指同样的输入,服务总是会得到相同的结果,即服务本身是无状态的。而业务服务化就是将企业内部拆分为若干个相互关联的业务服务

业务服务化对于提高竞争力有重要作用。企业实施业务服务化后,得到一系列标准化和可复用的服务。这些服务与上层的业务流和具体环境无关,所以可以很快速灵活地运用到新的业务流程和商业环境,减少定制化开发的投入,加快了产品和服务的交付速度,从而提高整个组织的响应力和敏捷度。像Google、Netflix、Amazon、PayPal等大型互联网企业很早就开始将其内部系统拆分为多个服务,以应对市场和客户需求的变化和不断增长的访问量。国际领先银行也开始纷纷参照这些互联网企业,其中,荷兰国际集团(ING)就是成功的案例。ING是一家植根于荷兰的全球化金融机构,拥有员工113,000人,在全球50个国家为6千多万客户提供银行、保险及资产管理服务。在2014年,ING完成了系统的服务化和迁移,降低其内部应用和基础架构的耦合度,得到更加独立和灵活的业务服务。产品和服务的交付速度比以往都快,推出市场的速度提高了50%。新功能从概念的产生到最终的交付,也只需要短短的5周。

业务服务不仅可以用于企业内部,还可以开放到给第三方企业使用,这样可以加强与其他企业的协同,提高企业的生态参与度,有助于融入生态圈或者围绕企业打造自己的生态圈。例如星展银行(DBS)、花旗银行(Citibank)、西班牙对外银行(BBVA)等领先银行纷纷开展生态银行和开放银行的布局,打造API平台对外开放服务,通过金融科技,提前占领与客户交互的场景,打造生态圈。

数据资产化

资产是指由企业过去的交易或事项形成的、由企业拥有或者控制的、预期会给企业带来经济利益的资源。企业所有的业务数据、业务文档、合同、设计图纸都属于数据资产。数据资产化,就是将企业记录的数据转化为可以产生预期经济效益的资产,其核心特性就是可变现

图5 数据资产化

内部变现:

数据通过作用于现有产品,对产品运营过程产生的数据进行收集、分析,用于产品自身的运营决策、用户体验提升,从而提高产品的收益,给企业产生更大的经济效益。据研究估算,大数据技术可帮助银行将交叉销售业务量提升10%-30%,信贷成本下降10%-15%,后台运营成本降低 20%-25%

外部变现:

外部变现的方式,一般是很难评估数据实际的价值。在合法合规的情况下,让数据以各种方式交易,可以给企业带来直接的经济效益,例如租售原始数据,提供数据整合、分析、报表等数据服务。例如西班牙对外银行(BBVA)在2014年2月份成立了一家名为BBVA DATA & ANALYTICS(D&A)的大数据公司,希望通过数据科学和技术,为银行创造价值。截止于2017年,D&A进行了40个数据项目,其中27个已经开始有财务回报;开发了商业化旗舰版数据产品Commerce360,并推向西班牙、墨西哥和哥伦比亚市场;获得多个学术界奖项,得到媒体和大众的认同。正是因为D&A取得巨大的成功,BBVA将其视为数字化转型的关键资产。

3.2 飞船的主体——运营管理

运营管理,主要包括将无形资产转化为客户和财务成果等有形价值的流程,是宇宙飞船的主体部分,连接和协调发动机与机翼,使飞船作为一个整体前进。流程自动化、决策智能化、体验一体化和创新协同化是优化和增强飞船主体能力的有效举措。其中,流程自动化和决策智能化是智能生态企业的核心运营管理能力

图6 智能生态企业-运营管理

流程自动化

目前,流程自动化最常见的类型是机器人流程自动化(Robotic Process Automation,RPA)。根据“机器人流程自动化和人工智能协会(IRPAAI)”的定义:“机器人流程自动化 (RPA) 是一种技术应用模式,使计算机软件或者‘机器人’能够捕获并解释现有应用,从而能够处理事务、操作数据、触发响应以及与其他数字系统进行通信”。RPA常用的场景有IT、财务、采购等内部流程自动化。企业经过业务服务化和数据资产化后,就可以将RPA运用到业务服务和数据资产之上,实现业务的自动化和高响应,提高效率、大幅度降低运营成本。据研究预估,有42%的财务活动通过采用成熟的技术可实现全自动化,还有19%可实现近全自动化。澳新银行运用RPA,成本平均降低达到40%,巴克莱银行的财务部门使用RPA实现坏账准备金流程的自动化,每年节省将近1亿美元

RPA当前普遍使用场景是基于结构化数据和基于逻辑规则的场景,随着技术的成熟,进一步是更复杂的非结构化数据流程的自动化及智能化的端到端流程自动化。

决策智能化

决策智能化,指在大数据和自动化的基础,构建大数据分析、机器学习的能力,使得企业对于数据的使用不再是简单的汇总,而是能产出洞察的深入分析,然后基于洞察作出组织、流程和人员能力方面的评估和改善,真正实现“感知—洞察—评估—响应”闭环的顺利运作与循环提升。这样,企业对自身经营发展就可以实现多维度分析和智能决策,从业务驱动转变为数据驱动。

以蚂蚁金服为例,蚂蚁金服通过商业场景的数据化积累丰富和准确的贷款者信息,然后运用算法模型对每一名贷款者进行信用打分,最后根据信用打分来决策是否贷款。这样的贷款审批方式,使得蚂蚁金服不需要信贷经理,几秒钟内就可以完成一笔自动审批,而且业务违约率约为1%,远远低于世界银行2016年估计的世界平均水平4%。澳大利亚的一家银行,也通过模型来实现营业网点运营的智能决策。他们通过建立网点定位模型,分析出市场和地点对不同类型服务的需求,然后基于分析得出的洞察,决定开设、调整或关闭网点,最终将网点的数量减少25%~30%,预计净成本节省达1亿美元,而且还能提高整体的业务量,并利用模型继续网点的持续优化。

体验一体化

一体化,是指使分散而又相互联系的单元或运作方式组合成为一个协调的整体。体验一体化,强调的是企业的产品和服务应保持简约性和一致性,避免孤岛式产品链模式,使用户可以极大便利地体验到跨系统和产品的功能,真正地以用户为中心。例如荷兰的ING银行,推进泛欧一体化银行平台,大幅改善客户体验,2017 年与 2013 年相比收入增长 14%;澳大利亚联邦银行2017年的发展战略目标为“打造简单而优质的银行”,通过三大数字化战略举措,提升服务效率和客户体验。两年间,数字客户增长25%,其中移动端增速达44%,突破1700万人,数字化销售渗透率更达到了28%,而两年前该比率仅为10%

创新协同化

协同创新指企业内部或企业之间围绕人才、资本、信息、技术的分享机制,进行多方位交流,多样化协作,使创新资源和要素能突破主体间的壁垒,充分释放而实现深度合作。智能生态企业的协同创新,能将自身与合作伙伴的优势结合起来,形成协同效应,使得整体的经营表现和竞争力都优于原有各个企业单独经营之和。协同生态创新可以是产业上下游的深度协同创新,也可以是跨产业的广度协同创新,甚至是深度和广度兼顾的全面协同创新。深度协同创新能加强企业在产业链的影响力和竞争力,而广度协同创新则增加企业的多元性,避免行业同质化竞争。余额宝就是广度协同创新的例子。余额宝是电子商务巨头阿里巴巴集团和天弘基金合作推出的以支付宝为平台,由天弘基金公司进行销售的一款互联网货币市场基金。一经推出就引发全民抢购,上线短短半年时间,就吸收了5000亿人民币的巨额资金,成为中国单一规模最大的金融产品,而天弘基金也凭借着余额宝一举成为中国最大的基金。

3.3 飞船的机翼——客户体验和业务规划

客户体验,主要描述了针对目标客户群的价值主张。业务规划,主要描述了企业的有形价值。用户体验和业务规划作为宇宙飞船的左右机翼,能给飞船提供足够的升力。

图7 智能生态企业-客户体验和业务规划

差异化

这里的差异化有两层含义,一是企业之间的差异化,主要指企业在顾客广泛重视的某些方面,力求与竞争对手有区别;另外一层是客户之间的差异化,即个性化。差异化使企业的产品和服务有别于同类竞品,每个客户都有不同的体验,提高企业产品和服务的竞争力,获取更多客户,扩大财务收入。

一体化

一体化,指企业充分利用自己在产品、技术、市场上的优势,通过与外部合作伙伴协同合作,使企业不断向深度和广度发展。企业与外部合作伙伴协同合作,充分利用外部资源的同时,也提高自身资产的利用率,给客户提供一体化、全方位的产品和服务,改善现有客户盈利性。

智能化

智能化,指企业具备智能属性,能主动地去了解客户,通过学习和分析不断提高用户体验、运营效率和决策质量,从而降低企业成本,改善现有客户盈利性。

高响应

高响应,指企业面对多变的市场、业务和客户需求,能快速做出响应。这意味着企业能快速感知变化,积极调动内外部资源,不断创新和满意客户需求,保持和获得更多客户,以扩大财务收入、改善现有客户盈利性。例如荷兰ING银行在面对日益严峻的形势下,决定进行敏捷组织的转型,将IT、研发、产品管理和营销等固有的部门壁垒打散,重新组建为“敏捷小分队”并通过敏捷管理模式进行项目的开发,大大地提高了产品交付速度,以应对市场和客户需求的变化。

智能商业时代正向我们走来,新商业范式正在萌芽,企业根基正悄然改变,你的企业准备好了吗?


更多精彩商业洞见,请关注微信公众号:ThoughtWorks商业洞见

Share

当法律遭遇人工智能

在当今的法律体系中,法律条文的制定往往跟不上时代前进的脚步,落后的条文(或者判例)有时反而会成为新生事物的制约;部分领域的法律条文或者判例卷帙浩繁,即使是专业的法律人也得耗费数年的学习和实践才能慢慢掌握法条的场景和使用;而即便是这么多的法律条文也难以将现实发生的所有复杂情况一一枚举,因此根据案件的实际情况参考哪些法条和如何定罪与量刑是法官、律师、陪审团等法律程序参与者的任务。这种人工干预有巨大操作和斡旋空间,也就出现了各种州级法院和联邦法院判断不一致的情况—— 明明案件内容是明确的,法律条文是明确的,然而判断却是不清晰的。

这也引发了我几年前的一个脑洞:既然现实情况如此复杂,法律条文迭代缓慢且难以穷尽,为什么我们不能让机器代替我们去学习历史上那些庞大的案件判例和法条规则,然后对每一个新的法律案件或纠纷做一个定罪的多分类,这样产生的”机器判官”,其判案准确率或许要比法官要准确的多。无论法官多么经验丰富,在面对一个新案件时,其援引的判例也是有限的,而一个训练好的模型或许能将历史上所有相关的案件都考虑进来。

我以为我有了一个好主意,兴冲冲地去网上搜索,才发现 AI 和法律领域的结合早在1987年就有人开始做了,而且他们几十年来不断尝试的领域和方法也是我未曾料想到的。然而,他们也经历了一个艰辛的过程。

历史

说到 AI and Law (以下简称 AIL), 就不能不提 ICAIL (International Conference on Artificial Intelligence & Law),这是国际唯一一个关注于 AI and Law 领域的会议,自1987年第一举办以来已有31个年头。一部 ICAIL 的历史,其实就是整个 AIL 领域的发展史。

(图 来源[17]:随着时代变迁,ICAIL会议主题云图的变化,从中可以看出 expert system, knowledge base 等的淡出)

对法律条文、案件建模的尝试,早在上个世纪八十年代就开始了。那个时候就已经诞生了基于逻辑的形式化方法进行法律推理 (legal reasoning) 以及人工神经网络的数值方法。还有一些借着专家系统的东风, 通过一些 基于法律条文(rule-based),基于案例(case-based) 和 基于知识(knowledge base) 的手段帮助法律从业者进行辅助推断以及其他工作,这其中比较著名的案例是 HYPO, 一个基于案例的法律推理系统,它几乎引领了基于案例的法律推理潮流。

随着 AI 领域本身的发展,近年来基于专家系统的方法日趋势微,基于统计机器学习的方法则开始大行其道。 比如使用贝叶斯网络等图模型进行证据推理(evidential reasoning);在 E-Discovery 使用 SVM 等方法进行法律文档分类;以及与NLP的结合,如法律领域限定的命名实体识别 (NER), 信息抽取与信息检索等等;基于逻辑的形式化方法也并没有完全消散下去,而是继续在诸如计算法律(computational law) 等子领域贡献着光热。

已有工作

目前围绕 AI and Law 的工作,从功能上大体上可以分成两类: 一类尝试直接对法律本身、案件、推断过程建模,涉及到诸如道义逻辑(Deontic Logic), 非单调逻辑(non-monotonic logic) 等传统基于逻辑的形式化方法,也有基于神经网络,贝叶斯网络等的统计学习方法;另一类则选择了绕行,既然前者困难重重,那么我们不妨退而求其次,利用专家系统、自然语言系统等手段, 通过法律文档化、文献文书检索、实体识别等方法来提高法律人的工作效率,让他们从繁重的重复性工作中解脱出来从而聚焦到更有意义的事情上去,这同样是一件有价值的工作。下面简单地从几个方向分别举例说明。

Reasoning (Rule based Reasoning vs Case based Reasoning)

顾名思义,该领域主要研究法律推理的各种方法。从派系来分,可以分成基于法律规则的推理(rule based reasoning) 和基于案例的推理(case based reasoning)两派。如果说 基于法律规则的推理是将已有规则应用于案件进行推断的话,那么基于案例的推理更侧重于寻找已有比较类似的案件来进行归纳推理。从方法上来说,两者都曾经偏好使用基于逻辑的方法来进行形式化。相关逻辑理论的讨论也是领域焦点。比如考虑齐硕姆悖论(Chisholm paradox),即道义逻辑对法律形式化是否是真正可用的等等。近来基于案例的推理更加偏向主流,其原因可能是支撑基于规则推理的一些传统方法(比如专家系统, knowledge base)渐渐淡出视野,也可能是后者与统计学习的天然联系,毕竟基于案例的推理就是靠对以往大量判例的分析进行推断。

e-discovery

全称 Electronic Discovery。其目标在于为法律诉讼,政府调查等领域提供专门的信息化服务。与传统的纸质信息提供服务不同,E-Discovery 比较注重信息检索的“结构化”,也就是 metadata。比如一个信息条目的时间、地点、涉及领域,甚至事件的形式化描述等。这些信息可以大大优化相关人员的查找效率,节约成本。

由于 eDiscorvery 的本质就是从基于纯文本的文档中提取有价值的结构信息用于从业者的检索和查阅分析; 因此从解决方案上目前基本上与 NLP 联系较紧,比如之前提到的命名实体识别、自动生成文摘、情感分类等。通过这些方法,可以从法律文本中自动提取信息,自动化生成相关专业领域的文件,推动法律文档化等。

computational law

计算法律可以说几乎是与法律人工智能的最终态—— AI判官最为接近的领域了, 其目标是法律本身以及案件的形式化表达和自动推理。

The Computational Law project focusses on formalization of governmental regulations and enterprise policies, development of automated reasoning procedures for compliance checking, legal planning and regulatory analysis, and developing user-facing computer systems

该领域涉及到的方法暂时还主要偏形式化( Computational Logic ),分两部分:第一部分是事实和规则的形式化表达;第二部分是使用一些机械推理技术来分析案件自动产生推断结果。目前计算法律的发展暂时还没有成熟到可以完全使用的程度,原因是逻辑方法很多都是基于规则的,很难 case-by-case 地对复杂判例做去完全表达,这对于使用英美法系的国家来说尤为严重。

当代:与 NLP 的结合

目前在 AIL 领域应用的最多的还是自然语言处理等相关技术。因为无论是对法律本身建模还是建立一些帮助法律从业者的辅助系统,都需要我们从现有的法律条文,案件描述卷宗等资料出发,将其信息化和结构化,这是必须的第一步,而解决该问题的方法还需从 NLP 入手。比如我们可以根据主题模型(Topic Model) 将案件通过涉及到不同的法律法规或者量刑的不同进行聚类;通过信息抽取来生成案件的结构化描述信息;通过自动文摘加快从业者浏览文件的效率;通过QA来建立法律领域的自动问答系统来尝试在线法院等等。这也与当下推动“智慧法院”,将法院数字化,自动化的主旨相符。下面举出几个例子。

1 EBravia

EBravia 是一家致力于法律文档结构化的公司。它通过先端的机器学习技术,可以从非结构化的原始文本中提取里面蕴含的时间,地点,以及法律领域相关的关键词,短语,句子。大幅度节约法律工作者从文本里人工挖掘信息的时间。

(图:来自EBrevia 官网[19] 的视频简介)

2 Legal Robot

这家名为 Legal Robot 的公司则更侧重法律文档审校和合同文本分析。它推出的合同文本分析工具不仅能帮助相关工作者校对领域文法的错误;还能基于海量的合同样本数据,生成一些常用的领域短语和句子, 帮助人写出更加符合领域需要的法律文书。同时,对于已有的合同文书,它还能捕捉到里面表示模糊,给当事人带来隐性法务风险的词句,从而在风险管理领域发挥强大的作用。

(Legal Robot 样例, 来源[20])

3 LUIMA

Luima, 即 Legal UIMA, 是一个由 IAAIL 及 CMU 等相关领域的研究员共同研发的法律检索系统。它专注在疫苗伤害事故相关的法律文本,对用户搜索的 query 给出包含对应法律条文或者类似案件信息的文档用于参考和对比分析。具体而言,Luima 系统整体上分成四个模块:法律语义标注,文档存储与索引,文档搜索,搜索结果排序。

(图: 来自[13] LUIMA,一个 法律文档检索系统的 Pipeline)

对一个法律文档,Luima 会先将其拆成句子级的文本。对每个句子做 Term, Mention, Formulation 三个级别的标注,然后通过这三中标注将每个句子分为 LegalRuleSentence, EvidenceBasedFindingSentence 和 other 三个分类。对于该分类任务,Liuma 使用了句子的 n-gram TF-IDF 和上述的法律语义标注信息做特征,使用 朴素贝叶斯,逻辑回归,决策树等方法训练出一个分类模型。这样输入的原始文档就会转化成多个带有语义标注即句子级分类标签的句子集合,并存入数据库中。当用户执行查询操作的时候,Luima 会先通过 Lucence 引擎找出 Top-30 个文档结果作为预选的“专家文档”,然后对这30篇文档的 candidates 做二次重排进而筛选出更符合条件的搜索结果。进行二次重排是为了避免那些“仅仅文档的文本相似但是实际语义毫不相关”的情况。该过程综合考虑了之前产生的相关法律语义匹配情况以及文本相似度等多个特征,使用逻辑回归对文档排名进行打分,返回最终的文档结果给用户。

从 Luima 我们可以看到基于自然语言处理的技术(TF-IDF 等特征),机器学习模型(逻辑回归等)是如何与法律专业知识(领域级语义标注)结合起来并发挥作用的。

除了这三者之外,还有一些通过机器学习来做法律推理的方法,不过目前还是停留在 Paper 级别的居多,就不加赘述了。

问题

当然,AIL 的发展也并非前景大好。有一些内部本身以及涉及到跨行业的矛盾仍未得到解决。

法理学的角度

从笔者对法理学最浅薄的理解,一切法律都是依据所处国家,所处文化,道德导向等种种因素的基础上,对“自然法”——这一正义的基本和终极的原则的集合的诠释。而随着法律人工智能的进行,无论是逻辑还是模型,是否真的能体现法理学精神;是否能被传统法律从业者所接受;法律行业与人工智能领域这两个职业的最佳契合点到底在哪里,这些问题仍待解决。“人工智能能做哪些事,不能做哪些事,机器判官是否能为人所接受”;其包含的技术风险和伦理风险,可能不再是公众号和媒体的纸上谈兵。

法律过程与事实抽象的困难

法律不是数学规律,她不仅仅包含那一个个孤零零的发条。一些与现实紧密结合的法律过程和事实,比如陪审团,比如对抗式刑事审判,这些实际过程如何进行数学或者模型的抽象,都不是一个好解决的问题。

对AI本身发展的巨大依赖

从 ICAIL 的历史可以看出, AIL 的发展,几乎是强依赖与AI本身的发展的。90年代前 knowledge base 以及专家系统是主流的时候,大量基于它们的论文也如同雨后春笋,而现在则门可罗雀,统计学习和 NLP 则甚嚣尘上。这不由得不令人怀疑 AIL 是否仅仅只是 AI 的一个附庸。 到底 AIL 能不能独立出一套与其他领域无关的方法论,然后将其他领域的方法接纳进来为我所用,也可能是一个今后需要解决的问题。

展望

AIL 的理论在上个世纪得到了巨大发展,而具体的落地则刚刚开始。从“智慧法庭”和法律文档化的潮流上看,AIL 至少是一个到处都需要填坑的朝阳产业。但是计算法律的理论,AI判官是否还能继续前进下去,ICAIL 能否不再是一个两年一届的C类会而真正走向 AI 的大家庭之中,就看之后的发展了。

(图: Research – Practise Paradox, 来源[17])

Reference

  1. codex
  2. History: 50 best papers of ICAIL
  3. Connectionist expert system
  4. computational law
  5. HYPO: A Process Model of Legal Argument with Hypotheticals
  6. NLP-E-discovery
  7. conceptual retrieval and case law
  8. Formalizing Arguments, Rules and Cases
  9. Law and Logic: a Review from an Argumentation Perspective
  10. Deontic Logic
  11. Constructing and Understanding Bayesian Networks for Legal Evidence with Scenario Schemes
  12. NEST: A Compositional Approach to Rule-Based and Case-Based Reasoning
  13. LUIMA: Introducing LUIMA: an experiment in legal conceptual retrieval of vaccine injury decisions using a UIMA type system and tools
  14. 法律智能十大趋势
  15. AI and Law, 人工智能与法律(一)
  16. Law Department Artificial Intelligence Survey Report
  17. 25 Years of AI & Law ICAIL 1987 – 2013
  18. AI in Law and Legal Practice
  19. EBrevia
  20. Legal Robot
  21. 美国最高法院网上新判例
Share

不谈技术细节,自然语言处理能做些什么

深度神经网络的爆发使得机器学习受到了广泛的关注, 而NLP(自然语言处理)又是其中最受关注的部分。ThoughtWorks正在尝试NLP技术的商业化落地,例如对话机器人、针对特定领域的机器翻译等。基于NLP的重要性和其最近几年的飞速发展, 它成为了人们经常会讨论的一个流行话题。对于专业人士来说, 通常会聊到词向量, LSTM, attention等技术。但是作为一个非NLP专家, 我们要聊些什么呢?或者说我们应该学些什么呢?本文就从应用角度来总结一下自然语言处理能做哪些事, 以及在我眼中NLP有潜力去做哪些事,帮助大家建立对NLP技术初步的理解。

NLP能做哪些事?

NLP的集大成者 – 语音助手

人类研究语音助手已有几十年的历史, 在科幻电影中也常有提及,不过直到2011年,苹果发布Siri, 这种神秘的工具才获得了大众的关注。在Siri之后, 涌现出了以Amazon Alexa, Google Assistant, Microsoft Cortana为代表的一大票语音助手。早期的语音助手功能十分有限, 也很少有人使用。经过了这些年的发展, 现在的语音助手已经有了很大的进步, 已经能很好地处理天气查询, 信息检索, 添加日程, 播放音乐等简单任务。此外, 部分语音助手还支持声纹识别, 提升了安全性。如果你最近没有使用过上述的语音助手, 我强烈建议你去试用一下!

尽管NLP在语音助手应用中发挥了重要作用,但仍然不足以支撑这样一个复杂的综合性系统。语音助手基本上使用了下文中提到的所有NLP技术以及很多其他非NLP技术。创建一个完整的语音助手需要大量的资源, 是一个门槛很高的领域。

基于文本分类的应用

文本分类就是将非结构化文本数据划分到事先定义好的标签类中, 这是NLP技术的一大分支, 很多其他技术都依赖于它。由于分类任务不同, 标签的定义也不同, 比如在综合用户评论分析中, 标签可以定义为 “负面”, “中性”, “正面”。而在酒店评论分析中就可以把标签定义为”服务好”, “环境好”, “环境差”等。

由于标签体系可以灵活调整, 文本分类被广泛应用到众多领域中, 下面列出一些典型的应用:

  1. 垃圾邮件的检验:垃圾邮件检测的方法有很多, 其中一类就是利用文本分类技术来过滤垃圾邮件。
  2. 新闻自动分组:对于分类新闻网站, 将新闻归类展示是一项消耗巨大的任务, 这里可以通过自动文本分类技术来自动化这一操作, 提升分类效率和用户阅读体验。
  3. 用户情感分析(评论倾向性分析):通过对用户评论进行分类(高兴or失望)处理, 可以得到用户对商家的态度, 该方法已经在许多点评类应用中得到使用。
  4. 文档自动标签, 搜索引擎优化(SEO):通过文档自动分类得到新闻或web页面的标签, 将这些标签加入到网站的Head中能够起到优化搜索引擎排名的作用。

基于命名实体识别(NER)的应用

命名实体识别的目标是定位文本中出现的预定义分类, 包括人名, 组织名称, 地名, 日期和时间, 数量等等。下面以一个例子来具体说明:

原文:

“Jim bought 300 shares of Acme Corp. in 2006.”

标注后(括号内为实体类型):

“[Jim](Person)bought 300 shares of [Acme Corp.] (Organization)in [2006](Time).”

NER也有应用场景,下面是几个例子:

  1. 新闻标注:和文本分类不同, 这里可以使用NER技术将与文章相关的人物, 地点都以标签的形式标注出来, 方便用户对某个人物或地点进行索引。
  2. 搜索引擎:可以通过使用命名实体识别来抽取web页面中的实体, 后续可以使用这些信息来提高搜索效率和准确度。
  3. 从商品描述中自动提取商品类别, 品牌等信息, 提高货物上架效率, 在咸鱼等应用上已经实现了类似功能。
  4. 工具易用性提升, 例如从短信息或邮件中提取时间和地点等实体, 从而实现点击时间直接创建日历, 点击地址直接跳转到地图App等便捷操作。

其他

除了上面说到的几种分类之外, NLP还能做很多厉害的事情:

  1. 机器翻译:机器翻译是语音助手外另一个为大家熟知的NLP应用, 也是商业化最早的NLP应用。金山快译作为当年机器翻译市场的佼佼者是我最早接触到的几款软件之一。机器翻译刚出现时准确性较低, 不过随着近年来深度神经网络在机器翻译领域的成功应用, 目前的机器翻译已经有了很高的可用性。Google translate已经率先在生产环境部署了基于深度神经网络的翻译工具,是这方面的杰出代表。
  2. 拼写检查(拼写纠错):包括单词拼写检查, 句子正确性检查。拼写检查在搜索引擎上得到广泛应用, 当你在百度搜索”自然寓言处理”的时候, 百度会自动显示”自然语言处理”的相关结果。除了搜索引擎外, 拼写检查也广泛应用在各种文字处理系统中。

NLP有希望做哪些事?

上面讲了很多应用案例, 其中大部分已经比较成熟甚至已经投入到了商业应用中。下面再罗列一些我认为目前不是很成熟但是很有潜力的NLP技术:

  • 句子, 段落的相似性检测:词语的相似度检测已经很成熟, 句子和章节的相似性检测的研究也在进行中。相似性检测有很广的应用空间, 可以用来解决问答论坛上重复问题, 文章抄袭问题等。
  • 自动文本摘要:即为文章生成一个简短的总结性段落。当我们写文章时很多人会写一个TLNR(太长不读版), 文本摘要技术可以自动为我们生成这个TLNR, 节省我们的时间。在信息爆炸时代, 文本摘要技术有着巨大的潜力。
  • 自动问答:该技术的价值无需赘述, 不过目前的问答机器人都只能在特定领域回答一些简单地问题, 通用的问答机器人目前还无法实现, 这将是一个巨大的挑战。该领域的一款落地应用来自Google, 在其邮件应用Inbox中已经开始提供邮件快速回复功能(根据邮件自动生成三个可能的回复供用户选择), 虽然目前生成的回复都很简短, 但已经有了一定的实用性。

总结

上面介绍了几种NLP技术和应用场景, 但是NLP技术涉及的范围远不止这些, 将NLP技术与音频处理、图像处理等技术结合, 又会出现诸如视频字幕生成, 图片描述生成等等有趣的应用。可以说只要有人类, 有语言, 就存在NLP应用的可能性。也正是因为NLP技术涉及范围广泛,才吸引了越来越多企业的关注,并在其之上构建各种智能系统,给我们的生活带来了便利。

了解了这些应用,不妨花几分钟思考一下, 对于你目前接触到的业务, NLP技术能给客户带来哪些价值呢?


更多精彩洞见,请关注微信公众号:思特沃克

Share

数据质量管理的一些思考

背景

在近期的项目当中,我们为客户落地实施了数据资产平台。随后,在数据平台中接入了客户子公司的一个业务系统的明细数据。客户希望在我们的数据平台上通过数据探索和数据分析,来挖掘一些业务价值和业务创新点。

当我们拿到数据开始进行一些初步探索的时候,发现导入平台的数据质量存在一定的问题:例如一些用于数据分析的关键字段的值为空、一些本应该有主从关系的数据对应不上、数据分类混乱等。这些问题直接影响到了对业务数据的分析和价值挖掘。因此,我们决定先对这份业务数据进行一次质量评估。如果评估的结果太差,不能做太多有价值的数据分析,那么我们的工作方向可能就需要转变为帮助客户制定整改数据质量的计划和方案。

数据质量问题

什么是质量

关于质量是有个一个标准定义的:一组固有特性满足明示的、通常隐含的或必须履行的需求或期望(要求)的​程度。这里面包含了两层意思,一个是说质量其实是一组特性,另一个是说质量需要满足需求或期望。所以如果从数据分析的角度来说数据质量,就是看当前数据的特性能否满足我们做数据分析或挖掘这个需求。

质量问题的来源

数据问题的来源可能产生于从数据源头到数据存储介质的各个环节。在数据采集阶段,数据的真实性、准确性、完整性、时效性都会影响数据质量。除此之外,数据的加工、存储过程都有可能涉及对原始数据的修改,从而引发数据的质量问题。所以,技术、流程、管理等多方面的因素都有可能会影响到数据质量。

在企业中,随着企业业务的增长,数据也是一个增量积累的过程。随着数据类型、数据来源的不断丰富以及数据数量的快速增长,企业在数据管理工作和数据流程中面临越来越多的数据质量问题。而且数据质量的管理并没有被企业重视起来,其根本原因还是ROI并没有那么明显。

数据质量管理相对来说成本比较高。因为它涉及到企业数据标准的制定、规范的落地、生命周期的管理等多个环节。从收益上来说,数据质量的效益和结果并不是十分明显,大部分企业不会把数据质量作为KPI。在企业的不同系统中,业务领域的关键指标不一致,数据无法共享导致出现数据孤岛,大量数据无法关联,并且有明显的数据冗余等问题,还有数据的维护需要投入大量的人员、时间、软硬件成本。所以数据的质量管理往往被会边缘化甚至趋向于无。

数据质量评估

那么我们如何对一份数据进行质量评估呢?这是一个比较难以回答的问题。因为数据质量本身有这么几个问题。首先是数据质量定义不一致,人们对数据质量的理解并没有一个参考标准或者标准的定义,所以人们理解的数据质量就会呈现出多样性,而无论是数据评估体系还是数据质量控制体系,都离不开关于数据质量的清晰定义。其次,没有权威性的数据质量标准模型或参考模型。再者,没有系统化的数据质量评估指标,也没有对数据质量评估的指标形成一个量化的标准。所以现在多数对于数据质量的研究都是针对特定领域或特定问题的研究,并不具有普适性,很难推广成为标准化的体系或模型。

那我们能不能像CMMI(能力成熟度模型, Capability Maturity Model Integration)和 AMM(敏捷成熟度模型,Agile Maturity Model)一样对数据质量建立一个模型,我们暂且称之为DQAM(数据质量评估模型,Data Quality Assessment Model)。

首先思考一下,在进行数据质量评估时我们会选取多个指标,所以很自然会想到借用一下模糊综合评价理论。搜集了一下资料,这里选取以下若干个指标来作为我们的数据质量评价指标(当然,可以根据实际需要选取其他指标,指标的数量也可多可少):

  • Completeness:完整性,用于度量哪些数据丢失了或者哪些数据不可用
  • Conformity:规范性,用于度量哪些数据未按统一格式存储
  • Consistency:一致性,用于度量哪些数据的值在信息含义上是冲突的
  • Accuracy:准确性,用于度量哪些数据和信息是不正确的,或者数据是超期的
  • Uniqueness:唯一性,用于度量哪些数据是重复数据或者数据的哪些属性是重复的
  • Integration:关联性,用于度量哪些关联的数据缺失或者未建立索引

那么评估模型应该有这么几个要素:

  • Dataset:被评估的数据集,对于关系型数据库来说就是一张表
  • Indicators:评估指标,就是上面列出来的6个指标
  • Rule:评估规则,与上面的评估指标对应,后续会根据规则的描述来编写脚本。
  • Weight:权重,此处的权重是每一条评估规则在全部规则的所占比重
  • Expectation:期望,根据每个评估规则给出一个评估前的期望值(0-100)
  • Score:结果,每个评估规则应用到数据集后计算出来的结果值(0-100)

那么构造整个模型的过程基本就可以确定下来,首先根据需要选取数据集当中要进行评估的数据视图,再选取所需要的评估指标。下一步需要制定规则集,根据所选的评估指标来制定相应的数据质量评估规则,并确定它们相应的权值和期望值。最后一步就是根据规则集来计算结果得分。

对于数据集的N个规则计算出来的得分,最后计算其加权平均值,得到质量评估的绝对量化值。用该量化值和期望进行差值比较,可以得出该数据集是比预期的好,还是不如预期。

以上是一个简单的评估模型,目前并没有在实际的场景中应用,当然这个模型的精度并不会很高,也没有处理误差。仅仅提供一个思路,或许质量的评估可以朝着这个方向来进行。

数据质量管理

数据工作流质量管理

下面来谈谈数据质量管理。质量管理前面提到了,涉及到数据工作流的各个环节。数据的工作流可以分为以下几部分:数据产生、加工处理、存储、挖掘和应用。质量管理的前提是在每一个环节建立质量标准。数据的来源包括:业务系统产生的数据、外部系统的数据、手动录入的数据等,从这些源头采集数据,然后经过数据通道进行加工处理(ETL,Extract-Transform-Load),数据进入到数据仓库或数据集市当中。然后业务人员、数据科学家、数据工程师等,会在数据平台对数据进行探索和挖掘,这个过程可能发生在数据仓库,也可能是在数据沙箱中进行,最后对数据探索分析挖掘的产出结果,会以数据应用的方式发布出来,具体的形式包括:数据报表、数据门户、OLAP、数据产品、数据服务、智能模型等等。

数据质量监督

除了制定质量标准外,还需要对系统中的数据本身和数据工作流进行监督管理。

对数据系统进行实时监控,监测数据工作环境的服务器软硬件运行状态、性能、磁盘空间、数据库事务、锁、缓冲、会话量、备份等等一系列指标,实施预警机制,并监测一些异常情况的发生。

对数据进行定期校验,除了对数据系统进行实施监控外,还需要对数据进行校验:日常校验、数据抽检、全面校验等。

审核制度也是保证质量的一个重要措施,特别是对于敏感数据和敏感操作。建立数据变更时候的分级审核制度,尤其是一些影响较大或者权限较高的操作。建立审批制度,对于数据的读取,如果涉及到敏感数据,必要时,也需要数据审批或者是数据脱敏。

数据生命周期管理

数据的生命周期从数据规划开始,中间是一个包括产生、处理、部署、应用、监控、存档、销毁这几个步骤并不断循环的过程。随着业务的发展,系统的业务数据类型和业务规范不断变化,一个完备的数据生命周期管理方案还应当包括对系统的优化调整,根据业务系统实际运行情况、新的业务类型和规范、技术改进等调整原有的数据存储迁移策略和访问方式,以满足业务系统发展及新的业务规范需求。数据生命周期管理的目的是对不同阶段的数据采取不同的管理策略用来降低数据管理运营成本,并提高数据质量度,实现数据价值最大化的终极目的。

总结

数据质量在任何系统当中都是十分重要却容易被忽视的一部分。构建完整的数据质量管理体系,既是支持企业系统稳定运行的基本保障,同时也是企业进行数字化转型、创新的必备条件。


更多精彩洞见,请关注微信公众号:思特沃克

Share

常用的几种大数据架构剖析

数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于Hadoop系列的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统,对于BI系统来说,大概的架构图如下:

可以看到在BI系统里面,核心的模块是Cube,Cube是一个更高层的业务模型抽象,在Cube之上可以进行多种操作,例如上钻、下钻、切片等操作。大部分BI系统都基于关系型数据库,关系型数据库使用SQL语句进行操作,但是SQL在多维操作和分析的表示能力上相对较弱,所以Cube有自己独有的查询语言MDX,MDX表达式具有更强的多维表现能力,所以以Cube为核心的分析系统基本占据着数据统计分析的半壁江山,大多数的数据库服务厂商直接提供了BI套装软件服务,轻易便可搭建出一套Olap分析系统。不过BI的问题也随着时间的推移逐渐显露出来:

  • BI系统更多的以分析业务数据产生的密度高、价值高的结构化数据为主,对于非结构化和半结构化数据的处理非常乏力,例如图片,文本,音频的存储,分析。
  • 由于数据仓库为结构化存储,在数据从其他系统进入数据仓库这个东西,我们通常叫做ETL过程,ETL动作和业务进行了强绑定,通常需要一个专门的ETL团队去和业务做衔接,决定如何进行数据的清洗和转换。
  • 随着异构数据源的增加,例如如果存在视频,文本,图片等数据源,要解析数据内容进入数据仓库,则需要非常复杂等ETL程序,从而导致ETL变得过于庞大和臃肿。
  • 当数据量过大的时候,性能会成为瓶颈,在TB/PB级别的数据量上表现出明显的吃力。
  • 数据库的范式等约束规则,着力于解决数据冗余的问题,是为了保障数据的一致性,但是对于数据仓库来说,我们并不需要对数据做修改和一致性的保障,原则上来说数据仓库的原始数据都是只读的,所以这些约束反而会成为影响性能的因素。
  • ETL动作对数据的预先假设和处理,导致机器学习部分获取到的数据为假设后的数据,因此效果不理想。例如如果需要使用数据仓库进行异常数据的挖掘,则在数据入库经过ETL的时候就需要明确定义需要提取的特征数据,否则无法结构化入库,然而大多数情况是需要基于异构数据才能提取出特征。

在一系列的问题下,以Hadoop体系为首的大数据分析平台逐渐表现出优异性,围绕Hadoop体系的生态圈也不断的变大,对于Hadoop系统来说,从根本上解决了传统数据仓库的瓶颈的问题,但是也带来一系列的问题:

  1. 从数据仓库升级到大数据架构,是不具备平滑演进的,基本等于推翻重做。
  2. 大数据下的分布式存储强调数据的只读性质,所以类似于Hive,HDFS这些存储方式都不支持update,HDFS的write操作也不支持并行,这些特性导致其具有一定的局限性。

基于大数据架构的数据分析平台侧重于从以下几个维度去解决传统数据仓库做数据分析面临的瓶颈:

  1. 分布式计算:分布式计算的思路是让多个节点并行计算,并且强调数据本地性,尽可能的减少数据的传输,例如Spark通过RDD的形式来表现数据的计算逻辑,可以在RDD上做一系列的优化,来减少数据的传输。
  2. 分布式存储:所谓的分布式存储,指的是将一个大文件拆成N份,每一份独立的放到一台机器上,这里就涉及到文件的副本,分片,以及管理等操作,分布式存储主要优化的动作都在这一块。
  3. 检索和存储的结合:在早期的大数据组件中,存储和计算相对比较单一,但是目前更多的方向是在存储上做更多的手脚,让查询和计算更加高效,对于计算来说高效不外乎就是查找数据快,读取数据快,所以目前的存储不单单的存储数据内容,同时会添加很多元信息,例如索引信息。像类似于parquet和carbondata都是这样的思想。

总的来说,目前围绕Hadoop体系的大数据架构大概有以下几种:

传统大数据架构

​之所以叫传统大数据架构,是因为其定位是为了解决传统BI的问题,简单来说,数据分析的业务没有发生任何变化,但是因为数据量、性能等问题导致系统无法正常使用,需要进行升级改造,那么此类架构便是为了解决这个问题。可以看到,其依然保留了ETL的动作,将数据经过ETL动作进入数据存储。

优点:简单,易懂,对于BI系统来说,基本思想没有发生变化,变化的仅仅是技术选型,用大数据架构替换掉BI的组件。

缺点:对于大数据来说,没有BI下如此完备的Cube架构,虽然目前有kylin,但是kylin的局限性非常明显,远远没有BI下的Cube的灵活度和稳定度,因此对业务支撑的灵活度不够,所以对于存在大量报表,或者复杂的钻取的场景,需要太多的手工定制化,同时该架构依旧以批处理为主,缺乏实时的支撑。

适用场景:数据分析需求依旧以BI场景为主,但是因为数据量、性能等问题无法满足日常使用。

流式架构

在传统大数据架构的基础上,流式架构非常激进,直接拔掉了批处理,数据全程以流的形式处理,所以在数据接入端没有了ETL,转而替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者。虽然有一个存储部分,但是该存储更多的以窗口的形式进行存储,所以该存储并非发生在数据湖,而是在外围系统。

优点:没有臃肿的ETL过程,数据的实效性非常高。

缺点:对于流式架构来说,不存在批处理,因此对于数据的重播和历史统计无法很好的支撑。对于离线分析仅仅支撑窗口之内的分析。

适用场景:预警,监控,对数据有有效期要求的情况。

Lambda架构

Lambda架构算是大数据系统里面举足轻重的架构,大多数架构基本都是Lambda架构或者基于其变种的架构。Lambda的数据通道分为两条分支:实时流和离线。实时流依照流式架构,保障了其实时性,而离线则以批处理方式为主,保障了最终一致性。什么意思呢?流式通道处理为保障实效性更多的以增量计算为主辅助参考,而批处理层则对数据进行全量运算,保障其最终的一致性,因此Lambda最外层有一个实时层和离线层合并的动作,此动作是Lambda里非常重要的一个动作,大概的合并思路如下:

优点:既有实时又有离线,对于数据分析场景涵盖的非常到位。

缺点:离线层和实时流虽然面临的场景不相同,但是其内部处理的逻辑却是相同,因此有大量冗余和重复的模块存在。

适用场景:同时存在实时和离线需求的情况。

Kappa架构

​ Kappa架构在Lambda 的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代。因此对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次则可。

优点:Kappa架构解决了Lambda架构里面的冗余部分,以数据可重播的超凡脱俗的思想进行了设计,整个架构非常简洁。

缺点:虽然Kappa架构看起来简洁,但是施难度相对较高,尤其是对于数据重播部分。

适用场景:和Lambda类似,改架构是针对Lambda的优化。

Unified架构

​ 以上的种种架构都围绕海量数据处理为主,Unifield架构则更激进,将机器学习和数据处理揉为一体,从核心上来说,Unifield依旧以Lambda为主,不过对其进行了改造,在流处理层新增了机器学习层。可以看到数据在经过数据通道进入数据湖后,新增了模型训练部分,并且将其在流式层进行使用。同时流式层不单使用模型,也包含着对模型的持续训练。

优点:Unifield架构提供了一套数据分析和机器学习结合的架构方案,非常好的解决了机器学习如何与数据平台进行结合的问题。

缺点:Unifield架构实施复杂度更高,对于机器学习架构来说,从软件包到硬件部署都和数据分析平台有着非常大的差别,因此在实施过程中的难度系数更高。

适用场景:有着大量数据需要分析,同时对机器学习方便又有着非常大的需求或者有规划。

总结

以上几种架构为目前数据处理领域使用比较多的几种架构,当然还有非常多其他架构,不过其思想都会或多或少的类似。数据领域和机器学习领域会持续发展,以上几种思想或许终究也会变得过时。


更多精彩洞见,请关注微信公众号:思特沃克

Share