别调戏各路中文语音助手了,了解 Echo 和 Alexa 才是正经事。
语音时代核心硬件形态:Echo 定义
四年前,搭载语音助手 Alexa 的亚马逊智能音箱 Echo 问世,伴随其出现的,还有一个全新的概念,「Voice First」。当时亚马逊 Echo 的负责人 Mike George 认为,语音交互具有完全无门槛的易用性和高度直觉化的引导,所以人机交互的未来将围绕着「语音」展开。这套理论在当时并没有得到广泛的认可,毕竟彼时 Siri 问世已有 3 年,并没有做出什么实质性的成绩,人们对 Siri 的使用更多是停留在「调戏」的层面,很少有人会真的从实用的角度去讨论如何使用 Siri。
人们对语音交互有着天然的不信任,也很难从过去几十年的图形界面的舒适区中马上走出来。亚马逊却认为问题并不出在「语音交互」本身。它通过 Echo,大刀阔斧地砍掉了「图形界面」的存在,用音箱这种形式,「强迫」用户通过语音去和这样一个计算设备进行交互。
在屏幕消失之后,用户开始发现其实语音交互在一些场景下反而相当方便且高效。早上起来一边刷牙一边问问 Alexa 今天的天气,让 Alexa 播放自己喜欢的音乐。Echo 的诞生让人机之间的「有效交互距离」被显著延长了,你不需要将手放到键盘鼠标上,不需要将手指放到触摸屏上,就可以「隔空」和一个计算设备进行交互,这是智能音箱的核心产品优势。
后来的故事我们都知道了,谷歌、苹果反而成为了跟随者,Google Home、HomePod,是这两大巨头对「Voice First」理论的认可。苹果在 HomePod 的产品设计上主打音质而非「智能助手」,且在发售时间上姗姗来迟,紧随其后的消息就是其销量上的滑铁卢。三个月 60 万台的销量,使苹果在智能音箱这个新战场上仅仅占据了 6% 的市场份额。而同期 Echo 的销量却高达 400 万台。
Echo 在语音交互世界里,为亚马逊获得了产品形态的领先,最新的数据显示,Echo 已经占据了这个市场 73% 的份额。亚马逊也在过去的几年里尽自己所能,让 Alexa 进入越来越多的硬件。无论是智能家居还是车载智能系统,亚马逊希望 Alexa 无处不在。
谷歌也是这么想的,所以从去年到今年的 CES 上,亚马逊和谷歌围绕着第三方硬件支持展开了一场军备竞赛,越来越多的第三方硬件开始支持 Alexa 或 Google Assistant,正在渐渐形成一种「一呼百应」的态势。
从 Skills 到 Blueprints,Alexa 开始做得更多更好
但亚马逊深知,硬件层面的产品形态只是「Voice First」的第一步。更关键的深层次问题仍然在于软件的体验,如何让 Alexa 可以做的事情越来越多,最终围绕着语音交互搭建起一个丰富完备的平台,逐渐开始生态化,才是亚马逊完成这样一个「语音乌托邦」的关键。
所以亚马逊为 Alexa 打造了「Skills」(技能)。Skills 允许第三方开发者针对 Alexa 开发应用和功能,让用户可以藉由 Alexa 使用第三方的服务。(类似于开发者为苹果生态开发的可在 App Store 下载的 App。)到去年,Alexa 上的 Skills 数量超过了 15000 个,远超谷歌的同类产品「Action」(动作)。更不必说苹果必须配合 App 才能工作的 SiriKit,在发布两年之后还处于一个几乎未起步的状态。
第三方开发生态的蓬勃发展,让 Alexa 在第三方服务接入的生态丰富性上一骑绝尘。但这并不代表 Alexa 的体验能够碾压 Google Assistant。Alexa 的平台上仍然存在着大量没什么人用的冷门 Skills,市场调研结果也显示,绝大多数情况下用户仍然只用亚马逊本身开发的那些简单的基础功能。而论基础功能,Alexa 和 Google Assistant 甚至 Siri,在体验上并没有很大的差别。
这可能是 Blueprints 诞生的源动力。
一个月前,亚马逊为 Alexa 带来了 Skill Blueprints 功能。直译过来的意思就是「技能蓝图」。Blueprints 有点像针对 Alexa 的 Workflow,用户不需要任何编程语言知识,就可以利用 Blueprints 中预设的模版,将你想要提供的信息以「答案」的形式写进已经准备好的「问题」里,打造属于用户自己的「技能」。
尽管目前 Blueprints 所支持的预设功能还非常有限,只能在预设的模版下,为特定问题预设答案。这使其在应用层面没有太多的灵活性,仅仅能用它来制作一些「问答游戏」。包括其中一个比较实用的功能是,让来到家里的访客可以问 Alexa 家里的 Wi-Fi 密码,以及如何使用电视这样的问题。目前制作好的「蓝图」也不能被发布或分享,严格与制作者的亚马逊账号绑定。
但 Blueprints 的产品逻辑使其完全有潜力成为亚马逊自己的 Workflow 或 IFTTT,通过设置一系列的条件和操作,其完全可以让 Alexa 平台上的众多功能更加有机地结合起来。
想象一下,你对 Alexa 喊出「我要去上班了」,Alexa 就可以自动关闭家里的灯、在关门后自动落锁,开启洗衣机,然后自动为你叫一辆 Uber。这在未来将成为 Alexa 上众多功能的粘合与催化剂,也会让目前的语音交互到达一个全新的次元,在定义上也将更加接近于「系统」的概念。
语音时代:将语音交互的边界推向更远的远方
在「培养用户的语音交互习惯」取得了初步成果之后,亚马逊推出了带屏幕但主要交互仍基于语音的 Echo Show。而在今年 Google I/O 的首场 KeyNote 上,谷歌也宣布其将在今年力推带屏幕的 Smart Display 产品。在消费者已经开始慢慢习惯与智能设备进行语音交互之后,带屏幕的 Smart Display 存在的产品意义很明显,就是要拓宽这样一个语音交互世界的版图,让智能助手有更强大的信息展示功能。当用户问接下来一周的天气时,与其将每一天的天气用语音播报出来,直接在屏幕上显示一张气温折线图,一定是更高效的。将语音交互和图形界面进行更深度的结合,有助于将智能语音助手进一步打造成一个完整的,拥有强势功能的「下一代操作系统」。
作为语音交互领域的领军者,亚马逊已经绘出了一副完整的蓝图,描绘了这样一个「语音乌托邦」。无论未来的世界是否将被语音交互所主导,它至少会成为一块谁都不可忽视的大蛋糕。今年的 CES,亚马逊和谷歌在智能硬件领域仍打得热火朝天,两边都想获得这样一个「语音乌托邦」的主导权。
有一种观点认为,亚马逊之所以要抢占语音交互领域的先机,其中的最关键原因在于,作为一家零售商,亚马逊想要占领一个「最简单、最直接的指令入口」。这种解释是很合理的,在语音交互的抽象世界里,「默认选项」的垄断力量只会比图形界面更强大。如果人们习惯了对着智能音箱喊一句指令就可以买东西的生活,将这些指令接入到亚马逊自身零售业务的重要性是不言而喻的。
无论是作为「下一代人机交互标准」,还是作为「零售行业的重要入口」,亚马逊成功地驱动了用户和计算机「说话」的欲望。人机交互的公式被图形界面定义了数十年之久,整个行业也几乎被巨头们笼罩得严严实实。亚马逊通过自己敏锐的产品洞察力,在其之上撕开了一个大裂口。而如何将新的交互方式与自身的业务线有机结合,将会是亚马逊未来 5 - 10 年的机遇与挑战。
刚刚过去的 Google I/O,谷歌在语音助手这一块展现出了空前的重视程度。而接下来的 WWDC 18,苹果也将在这个领域交出一份自己的答卷。无论是把握着互联网软件服务的谷歌,还是把握着硬件制造和销售主导地位的苹果,都不希望看到计算机交互的未来被把握在亚马逊的手上。而 Alexa 能否成为亚马逊走向美国科技界制高点的关键动力,会是未来几年内不可忽视的重要话题。