出门问问李志飞:过去七十年,人工智能经历了什么?

摘要

一位科学家眼中的人工智能发展史。

「最近有什么好看的电影?」「为您推荐以下热映影片」

你可能对这样的 Siri 或 Google Now 模式倍感熟悉,看着推荐自己找片、选座、付款。但出门问问的李志飞觉得这样太累,他在 GIF2016 上 demo 了最新测试产品「魔法小问」,想让你用轻松聊天完成这一过程。所以当你接上文回答:

「唐人街探案」「哪里看?」「家附近」「什么时间看?」语音识别准确,对话进行流畅,体验很棒,鼓掌。

直到它把你说的「九点」听成了「酒店」,提示「出现异常」。李志飞化身客服,当场在后台打出「到底是几点啊啊啊啊啊啊」。

虽然这个客服有点凶,但当你明确「九点」后他就会消失了,魔法小问会接着订座、生成订单,通过李志飞客服的确认后再让你付款。在小问身上,人工智能和客服相互配合,说好的「机器代替人」不见了。

思路改变的背后是什么?出门问问 &Ticwatch 创始人李志飞,想和你谈谈对人工智能的过去与未来。


以下内容根据 GIF2016 极客公园创新大会年度商业变量论坛 出门问问 Ticwatch创始人&CEO 李志飞的演讲整理而成。

一千人眼中的一千种人工智能?

「人工智能」的概念,最早可以追溯到 1950 年的计算机发明,或是阿兰 图灵早期文章《计算机器与智能》(Computing Machinery and Intelligence)。1956 年的美国达特茅斯会议上,才真正创建人工智能(Artificial Intelligence,AI)这个词,希望某天机器能模拟人行为,帮助我们做事。

工程师、科学家、政府、媒体记者,还有未来学家和科幻学家,每个人都在谈论人工智能,涉及无人驾驶、Google Glass、LSTM、Siri 各种名词,一片混沌。其实,这些词代表了人工智能的几个维度:

第一个是产品。比如机器人、无人驾驶车、Google Glass、Siri,是创业者、媒体、政府站在AI外看到的产品和服务。

第二个是技术。比如语音识别、自然语言处理、计算机视觉,是真正以 AI 为核心的公司会谈到具体的技术,也是机器人这些产品背后的支撑。

第三个是模型和算法。比如神经网络、深度学习、状态空间搜索优化,以及 LSTM、CTC 等这些非科学家很难接触的,都需要工程师或科学家每天思索、写代码,才会形成技术。

1.jpg

七十年,AI 的过去与未来

如果抛开科学或算法,更多地从应用的角度去思考,根据时间点我将其分为三个阶段,1945 - 2005 的 AI 1.0,2006 - 2015 年的 AI 2.0,以及今年开始到未来五至十年的 AI 3.0。

AI 1.0:曲折反复、螺旋式上升

1945 - 2005 的 AI 1.0 是基础理论、基础学科的建立时期,计算机科学家、统计学家们从实验室里梳理出的理论算法,逐渐建立了语音识别、自然语言处理、计算机视觉这些具体学科,期间形成了许多学派。

仿生派认为,如果机器能模拟人的行为,计算机行为必须向人类学习,尽力理解人如何学习和理解语言,用计算机模拟人的工作过程。

逻辑派则是围绕计算机本身的一派,基于对计算机的深刻了解,计算机学家们从原理看,如何实现人工智能服务。

还有一派不太学究的称为实干派行动派,不是基于某些原则,而是把数据放进去测。例如语音识别,只要有模型最后能够识别,他们不关心过程同人类语言识别过程是否一样。

最开始定义人工智能概念时,那些最伟大的科学家都非常乐观,高科技大多由美国军方高级研究院支持,认为未来几年就可以造出和人一样的机器,代替士兵投入战场。但摸索五六年,他们发现最简单的语音识别(比如数字识别)都不能做到,这时他们开始悲观,项目也都停了。但是研究人工智能是计算机和科学家的梦想,所以即使没钱很多人也不停尝试,会突然找到其他方面的应用。

AI 1.0 工业界也有一些「形象工程」,比如深蓝战胜国际象棋世界冠军、IBM 的 Watson 人工智能和 ViaVoice 语音输入,系统没有得到大规模应用,更多是媒体谈论,普通人没有真正感受到用处。

2.jpg

AI 2.0:从 Google Translate 开始面向消费市场

2006 年谷歌翻译正式上线,预示着 AI 2.0 的开端。它提供了90  种语言翻译,90*90 的 8100 个语言对,每天 2 亿人同时使用,10 亿个句子被机器自动翻译。这是 AI 发展史上,第一个得到全世界高频使用的系统,人工智能技术终于开始面向消费者。

为什么几十年没有得到发展的 AI 技术,谷歌却能推出这个系统并得到大规模普及?一方面,谷歌是全球化的互联网公司,用户对信息全球化的需求巨大,谷歌翻译是很有市场的。另一方面,谷歌在数据、算法和基础设施上的架构非常合理。它可以去网上抓 100 万或 1000 万个句子对,当作机器训练的语料,云计算结构等基础设施也能负荷这么大的数据处理量。

谷歌崇尚的是「一定要做出产品」,不是学校里做成实验就火速发论文,跟同行侃侃而谈。在语言识别里,一帮既是工程师又是科学家的人,天天在想如何把它做成产品,实现大规模化、高准确率,所以谷歌第一个把语言识别变成 to C 产品就不足为奇了。

过去两三年,深度学习得到重新应用并且与大数据结合,语音识别和机器翻译得到突破,出现了各种移动端产品。所以 AI 1.0 到 2.0的发展,是从军用到民用,从学术界到谷歌这类公司主导。以前产品大多 to B,未来大规模的一定是 to C。

有时,普通用户会觉得计算机怎么这么笨?比如你说「我想静静」,它会问你静静是谁。但计算机能够做的,把识别过程非常机械地抽象出来,当知道第一步、第二步、第三步干什么,它就会做得很好。比如促销卖东西的各种方式,给出每种大概的收益,计算机擅长的是组合各种促销方式,给出最优解。但是人类的直觉、创造力、情感,是无法用计算机建模的,这也是它为什么「笨」的原因。

3.jpg

AI 3.0:从软件到硬件,从信息到服务

从工程师或者现实的创业者去看,未来可能有两大趋势:一个是从软件到硬件,一个是从信息到服务。

过去早期人工智能硬件载体主要是 PC,2010 年后的移动时代,我们更多使用起了手机。未来我们会有各种各样的新硬件,比如可穿戴、VR、无人驾驶、智能家居。它首先一定是移动性的,可以随身携带或者自己移动。

因此,未来 AI 技术的发展也会大不相同。现在的识别是根据声音,但未来会从单一到综合。当我戴着头盔说「不要」,手也摆一下,通过视觉、声音等的识别会更加精准。此外,它提供的服务是多维度的,过去的 Siri 是软件服务,现在集成到硬件载体,是综合手势、声音等各种,还能移动。过去,人跟机器或者跟物理世界沟通现在由于机器人、VR、无人驾驶的存在,机器要对物理世界建模与之交互,机械可以帮人类主动做更多事情,这是未来比较大的技术趋势。

另外,你会希望不只找到信息,而是直接完成任务。比如以前用 Siri 会说「附近有什么咖啡馆?」,现在则是「能不能给我送一杯咖啡?」查飞机票只是第一步,还可以直接帮忙预订。但是实现上也有很多困难,这也就是为什么 Siri 现在不能直接支付,因为后续涉及很多复杂的处理。

4.jpg

人机混合:我们正在做的尝试

实现人工智能的方式往往是两个极端:要么纯人工,要么纯机器。人工的问题是,实时服务无法 24 小时在线,态度非标准,响应速度慢,但人比较聪明可以处理复杂情况。计算机可以全天在线,快速响应,但不够聪明。所以未来是中间的模式——「Human in the loop」。

人机混合服务在过去也有很多,比如淘宝客服或电话客服系统。但不一样的是,未来人的因素越来越少,机器主导智能助理,人很悠闲,但是用户反而感觉效率高、速度快。机器需要判断对决策是否有信心,如果能够完成,客服便不会参与。

实际上,用户需求非常多,不是每个客服都能处理所有情况,涉及到需求匹配客服,算法非常复杂。过去的 AI 不太希望有人去参与,但现在,我们必须承认,纯粹靠机器,AI 是不可能百分之百准确的。只有机器跟人混合的计算,才有可能给用户提供合理的服务,魔法小问就是我们的尝试。

5.jpg

作为 AI 的创业公司,我们的实现路径也与大趋势类似。早期的我们花很多时间,建立诸多人工智能的技术,语音识别、自然语言处理、智能推荐,现在我们依然花很多时间迭代,更尝试新的语音搜索场景,做软硬结合的产品。比如微信、Google Glass、智能手表,这些都是我们接触用户甚至产生现金流的测试。 

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。