「自由得让你忘记这个是什么设备,在哪里,你人到哪里智能就跟到哪里。」
「定义下一代人机交互」,这是出门问问给自己定下的使命。这个还等待被定义的抽象标准,是公司创始人兼 CEO 李志飞口中的「具体愿景」。这家创办 7 年的 AI 公司,正在通过不断开拓新赛道,开辟新战场的方式去践行这个愿景。
出门问问 2013 年做中文移动语音搜索引擎,2014 年做智能手表操作系统,2015 年做智能手表,2016 年做车载产品,2017 年做智能音箱,2018 年开始 to B,还做了智能耳机。从扎根国内到进军海外,从 to C 到 to B,从软件到硬件再到定制全栈式 AI 解决方案,可以说,李志飞将「该插的旗都先插好了」。
以语音交互和软硬结合为核心,再以声音信号处理、对话管理、智能推荐和语音合成等 AI 语音交互技术建立壁垒,出门问问一直有新鲜故事可讲。
在 GeekPark IF X 的会场上,李志飞说到,「科技带来了更高的生产力,同时带来了相应的不自由。」而要个人设备层面的人机交互「终极自由」,他说那种自由是「自由得让你忘记这个是什么设备、在哪里,你人到哪里智能就跟到哪里。」让设备更小型化,交互更多模态,虚拟助理更智能且跨场景的能力更强,这是出门问问正在推进的事情。
「刚开始不知道什么是下一代最优的人机交互,好,那我就深度优先先做个完整的、简单的人机交互出来,是不是下一代最优我不知道,如果发现不够好,就改变某些节点换一条路径。」李志飞在接受甲子光年的采访时说道,「如果你连上海在哪都不知道,你首先要摸这个地图。」
触摸「定义下一代人机交互」这个愿景,这家创业公司不断摸索,不断试错,也正在不断变得「全能」。
以下内容为出门问问创始人兼 CEO 李志飞在 GeekPark IF X 中的演讲实录,经极客公园编辑整理:
大家上午好!今天的主题是《通往人机交互「终极自由」的 AI 之路》,首先,说到「终极自由」,这是一个特别复杂的问题,很难去定义什么叫「终极自由」,而且很容易产生很多的歧义。
为什么要讲这个东西?作为一个工程师,我一直都在思考科技和自由的关系到底是什么。工程师特别想通过自己的科技去改变世界,让这个世界变得自由,让人的效率得到提升,但实际中科技有的时候并不一定让人自由。
所以,我想从一个工程师的角度,去阐述科技到底怎么样给人带来自由。前面说到「终极自由」是一个特别广泛的主题,我主要是讲人机交互,更具体一点是个人设备的人机交互,因为人机交互可以有很多,像刚刚讲的自动驾驶也是人跟机器的交互,但是他更多是一个车的场景,而不是一个个人的设备。
所以,我今天想讲在个人设备上人跟机器的交互方式的变更,以及怎么样让人变得更加的自由。大家可能都看过这个图,人机交互中个人的设备是不是让我们变得更加自由?在我看来其实是不一定的,人类通过这么多年好不容易站立起来,但是因为有了手机我们又重新低下了头,这是一个非常可悲的事情。
而且,大家可能都不知不觉你都不认为这是一个问题,所以我现在想做一个调查:
第一,你用手机的时间是多长?
第二,你每天解锁手机的次数是多少?
我看到了一个数据,觉得很惊奇,我看了一下自己的手机(iPhone 上面有一个「屏幕使用时间」),就是很多人的使用时间超过 7 个小时,我记得我的是 7.5 个小时。每一天的解锁次数超过了 70 次,也是很多的,我应该是 80 多次。
这就是一个现状,而且很多人都意识不到这是一个现象或者是一个结果,带来的就是所谓的「手机病」。当你的手机不在你的身边你就焦虑,比如说现在我的手机就不在我的身边,我哪怕是在这种场景下,我还是下意识去摸一下我的手机在什么地方。
另外就是眼睛的问题,比如说我早晨起来真的会觉得特别干,甚至手的变形,当然还有更多的毛病,比如说颈椎,这就是一个结果,而且越来越多的人存在这个问题。这是一个很重要的原因,就是因为今天手机的这种设备的形态,可能就不是最优的形态,使得我们使用时长特别的长,带来的后果也特别严重。
刚刚是设备形态,另外是交互方式,如果说这个手机你永远放在兜里面,你不用 70 次拿出来解锁,然后花 5、6 个小时去跟它进行交互,可能也不是问题。但是,很不幸,由于我们今天跟手机交互的方式主要是按键跟触摸,这使得我们一定程度被手机绑架。
另外,虽然是叫智能手机,但是智能是非常有限的,所以智能手机不智能,比如说跟人机交互或者是对话特别相关的对话做不好,没有上下文,也不能理解你说的是什么话,甚至也不能够主动给你提醒、推荐。你每一次都需要自己拿手机,然后不停地看,生怕漏了什么东西。
如果我们的智能足够智能,在你有需要的时候给你一个通知或者振动,你去用一下,就不用一直盯着这个屏幕,可能也会避免刚才说的这些问题。
所以,科技虽然带来了更高的生产力,同时也带来很多不自由,那什么是「终极自由」?这是一个特别复杂的问题,而且作为科技来说,当我们想像未来的时候是特别危险的,或者特别容易打自己脸的,所以我不想说 10 年以后会怎么样,我更多讲的是未来这 10 年之内有可能怎样,因为我不是一个未来学家,也不是一个科幻学家,所以我更多是说未来 5-10 年里面人机交互方式怎么样变化,能够给大家带来更多的自由。
整个人机交互设备的大变化是越来越小型、越来越便携,比如耳机、智能手表,或者未来的眼镜,它像你的墨镜一样轻,戴在眼睛前面就有屏幕,甚至是你的 ID,比如在你体内植入一个芯片,所有设备可能都是屏幕,只有人一靠近,可能这个设备也不是你的,但是因为是统一的 ID,你一进去,所有的 app、内容都是跟你相关的,而不是别人的。
这个也不是一个特别难以想像的事情,无论是你的邮件,还是你的微信,只要是用你登录的,一进去就是你的,其实你没必要有一个专有的设备、一定要跟着你的设备。
所以,未来的这种设备一定是小型化、便携化的,而且到处都是设备,但是你的 ID 跟你相绑定。
交互方式现在更主要是屏幕、键盘,未来肯定是多模态,无论是语音、手势,还是视觉,甚至是你要说是还是不是,用脑电波来提取信息都有可能,这是交互方式上的。
还有一个是背后的智能,跟人一样,你可以想成我的手、脚、嘴巴,这些是交互的设备,但是视觉、声音是交互的方式,所有的交互背后都需要有一个大脑思考,这就是我们所说的智能。
未来是一个虚拟个人助理,它就是你的大脑,能够无处不在,呼之即来,挥之即去,而且它是非常个性化的体验,未来可能没有你个人的设备,只有你自己的 ID,人一到这里,可能前面的设备就成为你的设备了,别的东西都不需要了,所以这是我们想像的一个未来。
接下来我想放一个视频,我特别喜欢这个视频,这是 3 年前拍的,我觉得它带有一点感性,也代表一种有现实性的对未来的想象。
刚才提到这个视频有一点感性,不太像一个工程师能够想像出来的东西,但是我觉得它可能代表了感性与理性之间的平衡,未来云端的虚拟个人助理就是无处不在,呼之即来,挥之即去。
今天的现状是人被手机绑架了,未来有可能是什么样的状态,这个中间要解决什么问题,这些问题是不是能解决。大家可能看了觉得特别具体,比如说功耗的问题,这个确实是过去几年没有看到特别大变革的事情,而今天所有的设备为什么做成这样,手机、耳机、手表为什么是这个样子?因为大、不方便,而且每天要充电,特别大的问题就是续航,如果电池有革命性的变革,整个的设备形态都会有非常革命性的变革。
另外,讲到了交互的方式,我们无论是讲到自然语言理解,还是未来 VR、AR 显示的方式,今天都需要很多技术的突破。自然语音理解可能大家都知道难度,因为大家都用到各种各样的语音助手,智能本身我觉得也是非常难的一件事情。
是不是说今天不自由?另外是我们想象的终极自由,这里面又有这么多技术上的挑战,我们是不是就只能等?比如说等个 5 年、10 年,等到电池变革了我们再去做事情,其实不是的,任何的科技都是连续性的,不是突破性的,从一个长周期来看,可能都是连续性的。
而我们作为一个创业公司,到底去做什么让人机交互的方式越来越逼近我们想象的?接下来有几个例子来看一下出门问问的一些产品形态,到底是怎么样逼近我们刚刚说的「终极自由」。
第一,智能手表和智能的无线耳机,可能 5 年前我们讲这个的时候,大家第一反应就是 Apple Watch 没什么用,但是如果从 5 年的周期来看,Apple Watch 变得非常好了,至少比以前好了很多。
第二,用户的渗透率比以前高了。
而智能无线耳机,这也是一个产品,很多人刚开始的时候都觉得这个特别的不靠谱,但是今天来看 AirPods 已经成为了一个普适性的产品,而且产品的特征就跟前面说的越来越小、便携。
像出门问问自己做过的一个智能无线耳机,应该是两年前在极客公园发布过,我们今年又发布了二代的无线耳机,体积比一代小了整整 45%。所以,当你用两年的周期去看,其实这个趋势特别明显。
在我看来,到底什么是接近「终极自由」?在未来两三年能够实现的新的手机以外的计算平台,能部分的代替手机使用形态的,我认为是智能手表跟智能无线耳机的结合,尤其是智能手表本身是自己可以联网,不需要通过手机联网的。
接下来我想给大家看一个视频,当一个 4G 的智能手表再加上一个智能的无线耳机,当它们结合起来,这个耳机通过蓝牙连接到手表,手表自己直接通过 4G 连接到互联网上,是什么样的产品形态。
无线耳机连接到手表,手表通过 4G 连接到网上,这个可以干很多事情,里面没有讲到的是各种多模态的交互,比如说当人打电话进来,你只用点两下头就可以接电话了,摇两下头就拒接电话了,包括语音的唤醒词,比如说你放音乐的时候,不用说「嗨,小问」,你直接说「下一首」,它就开始下一首了,说「停止播放」它就停了,说「开始播放」它就播放了。包括讲到的更复杂的语音交互,比如说秘书的功能。
当一个智能无线耳机和手表连接以后,在这种情况下,当你出去跑步的时候,当你到楼下散步 30 分钟的时候,你其实是不需要带手机的,因为电话号码跟你的手机一样,听音乐、打电话、发消息、听消息都会通过语音交互进行。
这种交互形态已经是多模态的了,耳机侧面的触摸区域,我们可以调音量,直接往上划一下就可以调了,往下划一下就是减小音量,刚才讲的是姿态、手势,还包括一些语音的复杂功能。所以,这个产品今天看起来就是一个硬件,但其实可能就是逼近「终极自由」的终极形态。
另外我们所有的这些设备,无论是手机、手表,还是耳机、车载设备、音箱设备,在过去都是独立的,比如当你在音箱上听了一首歌,听到一半,你现在要出去,到了车里面,它就立马知道你在家里听的这首歌,继续放这首歌。
出门问问在过去几年做了很多探索,无论是音箱、车载、手表,还是耳机,我们最后都希望通过同一个虚拟个人助理,使得这些设备体验可以延续,而且这个不是一个描述性的东西,我们在一些实际的车里面(江淮大众思皓)操控家里的空调,在路上发地址给车里面,然后一上车,点一下导航就可以走了,不需要到车里再开始做语音的交互。
所以,这也是一种产品形态,自由得让你忘记这个是什么设备、在哪里,而应该是你人到哪里智能就跟到哪里。
下一个产品某种程度上也是能够增加大家自由的,比如说我有很多骚扰电话、陌生电话,有时候我不想接,但是我又怕真的接了以后是投资人要投钱给我,或者说客户要买东西、媒体要报道我们,所以这个时候特别纠结。
后来我们做了一个电话助手产品,只用关注我们的小问电话助手公众号,进行呼叫转移,当别人打电话进来的时候,如果是陌生号码,我就不接,机器人自己开始接,或者说手机不在你旁边,你根本就没接,就是机器人接。
这个极大增大了我的幸福感,降低对手机的焦虑感,因为再怎么样有一个机器人帮我接了,接完以后会给我发一个微信,我回去看一下那个微信,听一下到底在讲什么就行了。当然我最后发现没有投资人、媒体、客户,绝大部分都是骚扰电话。
接下来我想给大家放两个视频,这是完全真实的,一个是我的机器人,另外一个是我们工程总监的机器人接电话的记录,这里面有一个特点,给每一个人都产生了一个个性化的 TTS(Text To Speech,即「从文本到语音」),就是我录三五分钟声音,机器会模仿我的声音,把文字输进去,它就发出我的这种声音,大家可以听一下。
第一个骚扰我的人他知道接的是机器人,但是他还骚扰得如此理直气壮,第二个是那个人打给了我们的同事,但是这个机器人一直在告诉他说,不是自己,但是人家说你骗我干嘛,你就是你自己。
所以,人跟机器、机器跟人已经很难分清楚了,但是我知道确实是能够大幅度降低对手机的依赖,而且让我们更加自由。
最后总结一下,终极自由我们不是不能做事情,而是我们可以比较现实地去看哪一些东西可以做,所以无非就是做更小型、更便携的设备,更多模态的交互方式,而且是更加智能的虚拟个人助理。
谢谢大家!
图片来源:VPHOTO