在数据保护和技术进步之间,究竟有没有一个完美的契合点?
编者注:作为全球最大的互联网市场,欧盟与科技厂商之间的关系却一直不是太好,比如他们跟 Google 之间的天价官司就是一个例子。而在今年四月,他们推出了一部法律,这部法律对很多互联网巨头们有很大的限制,同时也对目前最流行的一项前沿技术进行了限制。欧盟为什么要在用户和最尖端的互联网技术中间设下一个障碍?他们这么做的原因是什么?
本文编译自 Wired,原文标题为「Artificial Intelligence Is Setting Up the Internet for a Huge Clash With Europe」(http://www.wired.com/2016/07/artificial-intelligence-setting-internet-huge-clash-europe/)。
神经网络正在改变互联网世界。受到人脑中神经元网络的启发,这些深层数学模型可以通过分析大量的数据来学习离散型任务。比如他们已经学会了从照片中识别出人脸,也学会了不同语言之间的文本翻译。而这只是一个开始。这些技术已经进入了像 Google 和 Facebook 这样的科技巨头们的计划中,他们正在帮你挑选你在 Google 中搜索后看到的结果以及你 Facebook 中动态消息的内容排列。
所有的这些都让我们在网络上的行为更加精准。但这也意味着,互联网正在意识形态方面走向欧盟——这一全世界最大的网络市场——的对立面。
在四月的时候,欧盟出台了针对个人数据方面的收集、储存以及使用上的新规定。这套名为「一般性数据保护条例(General Data Protection Regulation)」规定已经酝酿了 10 年,并将会从 2018 年开始实施,它将会保护所有欧盟公民的数据安全,即使是世界上其他地区的公司也不能违反它。其中,它修改了「被遗忘权」,「被遗忘权」能够让公民们要求:当他们的名字被输入到搜索引擎时,某些链接不会被显示。同时,它也给了欧盟罚款的权力:如果违反了这个条例,欧盟能够对这家公司处以 2 亿欧元的罚款,或是他们全球利润的 1/4.
但这还不是全部。在一些官方发言中没有透露的段落里,GDPR 还限制了欧盟所谓的「个人自动决策」,对于那些世界上最大的科技企业来说,这是一个潜在的问题。「个人自动决策」就是神经网络要做的事,「这其中涉及的是机器学习的问题」,来自牛津大学哲学与社会科学方面的研究员 Bryce Goodman 说道,他最近和同事发表了相关的论文。
想要解释清楚决策原理不容易
这一新出台的规定禁止了任何有可能对欧盟公民产生「重大影响」的自动决策的产生,其中包括了能评估个人在「工作、经济状况、健康、个人喜好、兴趣、行为、地理位置等方面」的技术。同时,法律还提供了 Goodman 称之为「解释的权利」。换句话说,这套法规给了欧盟公民这项权力:去检视某一项服务是如何让特定算法帮他们做出决定的。
这两项规定都对主要的互联网服务的核心部分进行了打击。举个例子,对于 Facebook 来说,机器学习系统已经在驱动他们的广告系统向前走了,而其中要依赖大量的个人数据。此外,机器学习并不能完全让企业提供「解释的权利」,因为即使是对专家们来说,要解释神经网络里发生的事也非常困难。这些系统都是通过分析数百万条数据才能运行的,尽管它们做得很好,但想要解释他们究竟为什么干得这么好却很困难。你无法轻松沿着他们的路径找到最终的答案。
Viktor Mayer-Schönberger 这位帮助起草了这套新规定的牛津大学互联网管理方面专家表示,GDPR 中关于自动决策的描述在解释方面是开放的。然而,他同样认为,「最大的问题」在于这种语言是如何对深层神经网络施加影响的。深层神经网络依赖大量的数据,而其产生的复杂算法可以是不透明的,即使是那些创造出这些系统的人也没办法解释。「在这两个维度上,GDPR 认为自己有必要做些事情」,Mayer-Schönberger 如此表示。
冲突很难避免
对于 Goodman 来说,他相信这套规定会限制 Facebook 商业模式的核心。「这套法规考虑的就是那些大型跨国公司」,他说道。Facebook 并没有对此作出回应,但这其中的张力是显而易见的。这家公司每年从广告中能赚数十亿美金,而他们现在在用机器学习系统做这件事。而有证据证明 Google 也把神经网络用到了他们的广告系统中去,就像他们已经把神经网络用到了其搜索结果中去一样。但 Google 也没有做出回应。
但 Goodman 并没有只盯着大企业看,机器学习最新的进展已经从巨头们发展到了互联网的各个角落。他认为,欧盟新的规定的影响是方方面面的,比如从基本的在线推荐引擎到信用卡及保险公司。
欧盟法院也许最终会发现神经网络并不会落实到自动决策的窠臼中去,它更多的还是在数据分析层面,Mayer-Schönberger 这样说道。然而,即使这样,科技公司也会在「解释的权利」上吃到苦头。就像他解释的那样,深度神经网络的魅力之一就在于它们是「不可言说的」,他们运行在人类的逻辑之上。而这代表着在未来的几年,将会有大量的企业在采用这项技术时不得不试图去找到符合欧盟规定的「解释」。
「这不是不可能的」,专注于神经网络研究的初创企业 Skymind 的创始人兼 CEO Chris Nicholson 这样说道,「但它非常复杂。」
人为干预是个办法
解决这个难题的方法之一是让人类决策者们干预或优先于机器的自动算法。在许多情况下,这已经实现了,因为有很多的服务是在其他技术的协同下使用机器学习技术,其中已经有了人类明确定义的规则。这就是 Google 搜索引擎工作的原理,「很多时候,算法只是解决方案的一部分」,Nicholson 表示。
但互联网正在走向更加自动化的道路,而非更少。并且最终,人为干预肯定不会是最佳选择。「人类自己做得其实比机器差多了」,一位 Hacker News 的评论员说道,「我们在这方面有着难以置信的偏见。」
这是一个公平的说法。随着机器学习水平的不断提高,它只会变得更加公平。人们倾向于更相信人类而非机器,但事实证明机器正在变得越来越重要。如同自动驾驶中的伦理问题一样,这也是目前讨论最激烈的问题之一。有人说:「我们不能让机器做出那些有关道德的决定」;但还有人说:「如果你看到了我们在路上有多安全,那你就会改变自己的想法了。」机器永远不会成为人类,但有时,他们能比人类做得更好。
在数据保护之外
最终,就像 Goodman 暗示的那样,由欧盟新法规所带出的难题将会扩展到所有事情上。机器学习是属于未来的技术,无论它的目的是去搜索、导航还是买东西之类的。Google 正在为了未来新秩序重新培训员工,而 Facebook 为内部员工提供了几乎所有机器学习方面的工具。Google、微软、Amazon 正在把他们在机器学习方面的技术通过云计算服务提供给世界上的其他人。
GDPR 的意图是保护人们的数据,但这只是潜在冲突中的一部分。举个例子,反垄断法会如何对待机器学习?Google 正在面临一起诉讼,它被指控在搜索结果中歧视它的一些竞争对手。但这个案子已经持续蛮多年了。当其他企业抱怨他们被机器「歧视」时,我们又能做什么呢?
「反驳这样的证据会变得更加困难」,Mayer-Schönbergerd 说道,因为当一项决策被做出了之后,即使是 Google 也会在解释「为什么」的时候遇到麻烦。