AI大神如何用区块链解决模型训练痛点, AI+区块链的正确玩法原来是这样…… | 人物志

2019.09.11 11:32

记者 | Aholiab

出品 | 区块链大本营(blockchain_camp)



现如今,数据成为了企业发展的核心因素,据世界经济论坛的一份数据表明,到明年,我们的世界中将产生超过44个ZB的数据,这个数据量比宇宙中可见恒星的数量都多出40倍!在未来的世界中,每个人每秒钟都会产生1.7MB的数据。


只要得到数据,就能得到价值。因此这些数据经常被大公司垄断。想要得到这些数据成本非常之高。在此基础上,有人提出了数据交换平台的概念,比如DEX、BDEX等,希望通过平台把数据提供方和数据需求方进行对接。


然而数据交换平台是由第三方来运营的,这其中也会有很多问题。那么,如何解决这些问题呢?去中心化数据公司OceanProtocol给出了答案


OceanProtocol项目来源于BigChainDB团队,初衷是通过提供一套去中心化数据交换的协议,为AI模型训练等需要大量数据的业务提供服务。OceanProtocol允许数据提供者通过去中心化的数据市场与数据消费者进行交互,同时保证所有参与者的控制,可审计性,透明度和合规性


然而,要实现这样一个数据平台,却并不是件简单的事情,其中包括很多技术挑战。


为了深入了解这一项目的背后,营长近期采访了OceanProtocol联合创始人&DEX首席技术官Mike Anderson


图片来源 | AsiaBlockchain Review


Mike Anderson可谓是西方世界开源领域中非常活跃的一位开发者,主攻大数据和AI。之前曾开发过多个开源库和开源工具,比如数值计算库core.matrix等。他还曾担任麦肯锡的软件开发专家,并且创办过一些公司。如今OceanProtocol也已经被用在保险、医疗、移动等多个领域。


接下来我们就来看看OceanProtocol的前世今生,以及开源大神Mike Anderson关于去中心化数据交换协议技术上的一些思考吧!



“我看到了用区块链释放分布式数据和AI的价值”


营长:能谈谈你如何看待区块链吗?

Mike:对于我来说,区块链技术最令人兴奋的地方在于它能够将加密技术和经济机制结合在一起,创建有效的分布式系统,这个系统不需要集中控制机制。


随着区块链技术的发展,我们可以期待在未来看到智能合约被用于实现全自动业务流程,甚至实现更为完善的业务模型。


营长:你之前在数据科学及AI方向颇有建树,是什么让你决定加入一个区块链公司?分布式的数据协议,难点在哪?

Mike:我之所以作为Ocean Protocol的创始成员加入项目,是因为我看到了应用区块链技术来释放分布式数据和人工智能的价值的巨大机遇。Ocean Protocol正致力于解决将数据和人工智能技术结合起来这一关键问题。


这个问题并不简单,要面临很多挑战,例如:

  • 数据由无数个不同的组织持有,需要从一个地方流向另一个地方。这可能发生在组织内部,也可能发生在跨组织之间。
  • 数据有不同的形式和格式,而且数据资产通常不以其解决问题的最终形式存在。此外,还有许多不同的数据平台和技术,它们都有自己的接口和API。
  • 在涉及高价值或者由技术驱动的活动中经常出现经济专业化。各个组织往往会扮演最适合它们的角色。因此,为了从数据中提取价值,就会涉及多个利益相关者。
  • 不同组织和地区有不同的的法规和信任问题。


考虑到数据的分散性,集中化方法不太可能会取得大规模成功。我们需要一种分散的方法来解决我们在数据共享方面面临的挑战,并且开始创造真正的价值。


因此,要我们的主要工作是发展一套开放的数据交换标准,使分散式数据供应线得以运作。我们将其称为DEPs(Data Ecosystem Proposals,数据生态系统方案)。


*DEPs地址: https://github.com/DEX-Company/DEPs


营长:能举个例子谈谈,这种分布式的数据交换有哪些应用场景吗?

Mike:我就拿我们现在合作的几个案例来讲讲吧。


  • 在保险领域,Aviva和ConnectedLife把数据分析和人工智能应用在智能家居数据上,以加强对老年人口的保护和照顾,并支持其独立生活;

  • 在医疗领域,Roche Diagnostics正在探索如何更好地为接受血液稀释疗法(血夜透析)的患者提供护理;

  • 在零售领域,Next Billion 正在试验一种新的数据共享模式,该模式将奖励为销售数据做出贡献的农村店主;

  • 在移动领域,sgCarMart刚刚建立了一个二手车数据市场,帮助买家作出更加明智、安全的决策。



去中心化数据交换如何赋能AI模型训练?


营长:在一般的AI模型训练中,数据采集的痛点是什么?

Mike:通常来讲,数据采集和数据准备是人工智能项目中最难的部分,可能会占项目总成本的80%。如果没有充足的高质量数据,那么无论你的算法有多好都没太大意义。


而去中心化数据交易的做法是,通过消除当前数据共享的摩擦来解锁数据,并将问题所有者与问题解决者、数据持有者以及没有数据的人链接起来。


营长:这一做法的原理是什么?

Mike:我们可以从下面两张图中,看看中心化的数据服务和去中心化的数据服务的流程有哪些不同。


中心化数据供给模式


去中心化数据供给模式


在中心化的服务中,数据是由计算和存储机构来主导的;而在去中心化的模式中,数据的计算、存储等孤岛被打破。


在实现原理上,我们通过API将数据的存储、计算和算法能力开放给开发者。在这一过程中,DEPs作为中间协议对数据进行标准化。最终,将这些标准化、来自于不同节点的数据提供给开发者。



营长:既然是数据的来源来自于分布式节点,那么你们如何保证数据的质量和可用性?

Mike:在人工智能领域,数据的质量是非常主观的——这取决于你要解决的问题。满足这一个问题需求的数据不一定适合另一个问题。


为了保证数据质量,我们主要通过以下方式:

  • 通过加密技术追踪数据的来源和完整性,因此你可以确定数据没有被篡改过并且了解数据的来源;
  • 提供利用第三方组织进行数据清理和处理服务的功能,以便自动提高数据质量;
  • 为人工智能项目提供可以根据用例需求来定义自定义数据格式和工作流;
  • 通过将计算带入数据的方式(而非将数据带入计算)为分散式机器学习提供了一个用于培训和推理的基础设施。这为隐私提供了进一步的保障,因为数据不会离开其前提,从而开放了对来自多个站点的数据的访问权限;
  • 允许数据所有者保留对其数据资产访问权限的控制权。


营长:刚才你提到了DEPs,这也是链接数据提供者和消费者的核心吗?

Mike:是的,DEPs就像是在物流行业中的集装箱标准——因为每个人都是用相同大小和设计的集装箱,你就可以构建可扩展度很高的的基础设施,比如可以使用相同标准的集装箱船、港口、集装箱起重机。同样,DEPs为数据和人工智能供应线提供了一个通用的标准。


这个模型非常简单:我们定义了名为Data Assets(数据资产)的实体,它们代表有价值的数据集如果使用者有足够的访问权限,那么就可以把“数据资产”的副本从提供者转移到消费者。


此外,我们还有名为Operations(操作)的实体,代表计算服务。“操作”可以接受“数据资产”和输入,并生成其他“数据资产”作为输出。服务提供者可以自由创建他们喜欢的任何“操作”:数据清理、训练AI 模型、格式转换等等都是可能的有用操作。


通过在有向无环图中组合“数据资产”和“操作”,你可以设计跨越多个参与者的任意数据供应线。这是DEP标准所支持的关键创新点。


营长:你认为随着这种去中心化的数据交换机制的成熟,是否会带出新的应用场景?

Mike:在我看来,分布式数据交换是人工智能和分析学的未来。通过标准的、可互操作的协议,我们可以期待一个充满活力的项目生态系统蓬勃发展。


此外,我们同样还可以期待服务提供商专注于数据经济中适合其能力的特定角色。例如,分散式存储服务提供商,或者提供强大模型训练算法的人工智能公司。


这些数据生态系统可以与加密货币以及代币共存。事实上,我们期待在未来的数据经济中,加密代币可以成为消费者购买资产和服务的主要方式。



区块链+AI,前路何方?


营长:你是如何看待「区块链+人工智能」的?我们目前正处于什么阶段?

Mike:我认为,尽管区块链技术还处于初期阶段,但它在创建分散式系统和服务方面具有惊人的潜力。相比之下,人工智能技术现在在许多用例中已非常前沿,特别是在预测建模、图像识别等方面。人工智能项目通常存在的问题是在获取高质量数据进行训练和推理方面。


此外,区块链具的可追踪性。可以找到数据共享和交易记录,并且可以创建数据来源轨迹。通过在模型训练期间追踪所有交易(从数据采集、预处理到模型训练和测试)我们可以重现来源追踪,帮助我们了解模型训练过程中使用了哪些数据,谁在模型中工作或对数据价值链做出了贡献。这条来源追踪线可以与食物链相媲美,并且可以创造出「负责任的人工智能」。


营长:作为一家初创公司,你们但不担心亚马逊这样的巨头也切入到这个领域?这会对你们造成哪些影响?

Mike:如果大公司能够基于DEPs标准创建他们自己的解决方案,我会非常高兴,因为这将帮助我们构建一个真正可互操作的分散式数据生态系统。从另一方面来说,如果这些公司只是简单地创建了一个有围墙的花,比如某种形式的集中服务,那么我认为他们不会有可行的解决方案。


市场需求是一种分散式模型,它可以识别在不同参与者控制数据或处理的不同子集时需要创建的不同数据供应线的复杂性。永远不会出现适合所有人「一刀切」的集中式解决方案。


营长:你如何看待区块链在中国的发展?

Mike:中国是区块链发展的一股主要力量。我发现有一个很有趣的现象:和世界其他国家相比,中国是申请区块链相关专利最多的国家。各国在鼓励区块链发展方面似乎存在一些差异,中国显然有成为区块链领域主导者的愿景,区块链技术的发展已被列入国家五年计划。与世界其他国家相比,中国为这项技术的进步和发展制定了一条更加结构化的道路。相比之下,美国政府在区块链方面的策略则不那么集中。


我平常base在新加坡,新加坡凭正在打造「智慧国家」,对创新持有极其开放的态度,并且设立了很多项目来资助和推动新技术的发展。新加坡专门为初创公司和企业、公共和私营部门的合作创造了沙盘环境。这些沙盘极大地促进了包括区块链在内的新技术和解决方案的发展,使该国成为了十分利于开发新技术、测试概念验证和大规模部署的地方。


营长:对于那些想尝试OceanProtocol的开发者,有什么建议?

Mike:我们鼓励人们参与到这个令人兴奋的领域中来,为开源发展做贡献并把这项技术应用到你自己的项目中去。


如果你想参与进来,你可以这样做:

  • 对DEPs标准做出贡献/提供反馈;
  • 参与编写Starfish代码;
  • 开始使用该技术构建PoCs。




如何少走弯路,利用不同区块链的数据结构实现项目上链?


数据架构是区块链的重要组成部分,了解数据架构,可以让我们对于自身业务是否适合上链做出明智的判断。


9月19日,【dfuse小聚:区块链数据应用讨论会】将在上海举行,dfuse CTO&联合创始人、EOS加拿大联合创始人 Alex Bourget;慢雾科技合伙人兼安全产品负责人启富(Keywolf);MYKET联合创始人/EOS Cannon联合创始人Ricky胖哥与你一起深度探索区块链应用搭建以及区块链数据结构的奥秘,让你明白到底你的业务该如何上链!


长按识别下方二维码,了解详细议程


推荐阅读:



猛戳"阅读原文"有惊喜哟

老铁在看了吗?👇

区块链大本营

总篇数195

关注数12

区块链大本营

区块链开发者的基地,从这里出发,让区块链回归技术与应用的本质!

新闻资讯