人们需要更多「不新鲜」的科技,更多对用户需求有深度挖掘的科技。
作者 | biu
编辑 | 北方
新冠疫情下,人们没法摘下他们脸上的口罩。唇语,就这样在公共场合消失了。
听障者在和人谈话时,会紧盯对方嘴唇,这是他们在使用助听器或人工耳蜗后下意识的动作。很少人知道,即便用上这些助听辅具后,他们也不能与普通人一样,听到完整、自然的声音。在嘈杂的真实环境中,辅具帮不到的,听障者需要通过唇语补充理解。
助听器的使用体验像在收听一个调音不好的无线电,声音可能足够大,但字听不清楚。而人工耳蜗方案费用不菲,设备植入、术后调机和言语训练等部分需要花 10万 到 30 万元。「那些从小植入人工耳蜗的用户告诉我们,大概也就能听到 60%,剩下要靠唇语去猜。」亮亮视野的设计总监刘天一说道。
亮亮视野是一家成立快 8 年的 AR 公司。在大量调研听障者后,公司决定将团队去年底发布的一款面向企业端的 AR 眼镜进行改款,专门服务听障群体,成为一款能将声音实时转译为文字的「字幕眼镜」。
就像是只会播放一次的英语听力
人的耳蜗内分布着众多的毛细胞,它们负责声音的传递。但毛细胞非常脆弱,很容易被耳毒性药物、噪音和衰老等因素损伤,当毛细胞越来越少,听力也就越来越差。更不幸的是,人类并无自我再生毛细胞的能力,也就是说,听力一旦受损,几乎就是不可逆的。于是,人们开始应用辅具。
助听器像是给声音加上「放大镜」,而人工耳蜗则是直接替代毛细胞,向位于耳蜗内、功能尚完好的听神经施加脉冲电刺激——通过用户体外的言语处理器收集声音,体内的处理器进行编码处理,转化为电信号,再通过电极刺激听神经,继续后续的声音处理。
顾名思义,耳蜗的形状如同蜗牛,上面是低频,下面是高频,如同一个钢琴键盘展开,「正常人有 3 千个『琴键』,而人工耳蜗只有 24 个(目前全球人工耳蜗中电极数最多的有 24 个),所以人工耳蜗『弹』出来的声音和正常耳朵听到的声音有很大的区别。」人工耳蜗公司诺尔康总经理李楚曾在接受采访时说过。
第二次全国残疾人抽样调查显示,全国听力残疾率为 2.11%,听力残疾人 2780 万。另据 WTO 统计,国内竟然有高达 15% 的人群或多或少的有听力受损问题,这 2 亿人中只有 5% 的人群会佩戴助听器。
而人工耳蜗方案费用不菲,设备植入、术后调机和言语训练等部分需要花 10万 到 30 万元——能够负担的人群更少。
从植入人工耳蜗,到能正常与人交流,需要适应期。经过解码、又重新编制的电信号并不等同于自然声音。初期启动时,人会感到眩晕。不仅如此,听障者需要持续注意对方的口型,精神需高度集中,并会因此一直处于焦虑的状态,就像在听只会播放一次的英语听力。在工作环境中,如果不是面对面沟通,看不见对方的口型,则情况更为棘手。
由此带来的交流成本很高,一些听障者为了避免与人沟通时的尴尬,常常逐渐将自己孤立起来,性格可能变得孤僻或抑郁。如果在年幼时没能系统地建立好语言体系,封闭自我的听障者可能因此变成语言上的「难民」。
他们「亏本在卖」这款改款眼镜
这是一副看起来稍显「笨重」的眼镜,镜片透明,为光波导镜片;镜腿宽,侧视会遮挡视野,拖着一根电线。这根线需要连接到手机,手机提供电池供应,还要下载配备的「可译」app。这款眼镜重 90 克,相当于两枚鸡蛋。
亮亮视野在去年年底发布了 AR 眼镜 Leion Pro,采用双目光波导方案,透光率达到 85%,最高亮度可达 4000 尼特。另外,它还实现了语音、手势乃至头动等三维交互方式,满足安防、工业维修、设备巡检等不同领域需要。
比如,使用者可以通过佩戴眼镜,将自己的第一视角影像实时传输到异地的专家,用以指导自己的工作;运用图像识别等技术,警察可以通过眼镜了解到对方的身份。
推送培训视频、图文资料和工单;与工作伙伴进行远程视频连线……这些都是纯粹的面向 B 端用户的应用。但在线下大会、商业谈判和培训等(需要中外语言互翻)场景里,有听障用户注意到了这款产品,并产生了浓厚的兴趣。刘天一回忆,一些听障者试戴后,「一戴上就不想摘下来」。
偶然发现听障者的需求后,刘天一开始验证市场。他和团队通过北京市聋协和一些地方残联,派发了几千份线上问卷,也进行了线下调研和探访,收集听障者的年龄、学历、听力受损程度、辅具使用习惯,以及听障者希望 AR 眼镜怎么满足他们的需求。
调研完的结果让人「兴奋」,「在做面向 C 端的调研中,一般来说几千份问卷发出去,能有几十份回收就非常不错了;但这一次,百分之七八十的听障朋友都在问卷最后填下了建议:我需要用这种眼镜做这些事:……」刘天一说。
这款眼镜最核心的功能是实时的文字显示——要让文字显示能跟上说话者的速度,亮亮视野将引擎所提供的云原生 AI 语音识别、机器翻译服务整合进了这款 AR 眼镜,能进行智能分句,只会有半句话左右的延迟。
「AR,Augmented Reality,但现在市面上的不少产品都只注重 Augmented(增强),而相对忽略 Reality(现实)。」刘天一说。亮亮视野优先保证镜片的透光率达到 85%,作为对比,功能更丰富的微软 HoloLens 2 透光率只有 40%。「戴上之后,你感觉完全是透过一块玻璃去看外界。」这更利于听障用户观察周边环境和说话者。
考虑到用户有可能近视,亮亮视野在眼镜配套中预配了 200 至600 度区间的镜片,用户也可以用框架自己到眼镜店选配合适的度数。
为了更好地服务听障用户,亮亮视野砍掉了 Leion Pro 上那些功耗较高的功能。工业用 AR 眼镜比较注重视觉感知的能力,以及相应的 AI 计算能力——都是些耗电的功能。听障用户更需要的是语音转文本,只需让眼镜的算力更多应用在语音识别上,做好实时听写、转译即可。
相比只戴助听设备,使用这款眼镜的听障用户接收信息的效率能提升 50% 以上——这是亮亮视野联合清华大学的学术团队,进行听力语言测试后得到的对比数据。尽管听译 app 使用成本更低,但很多时候,面对面交流的场景并不适用——人很难同时兼顾观看手机的翻译转写界面并同时与人聊天。团队表示,「我们希望用户能把头抬起来,能更自然的畅快沟通。」有位用户在试用中表示,「第一次可以放松下来和大家聊天了」,聊着聊着她红了眼眶。
目前,这款 AR 助听眼镜的售价是 12000 元。但亮亮视野选择「亏本」,用户可以拿着国家认证的听力障碍残疾证明拿到 3999 元的入手价。
李然说到,原计划这款眼镜是作为研究和深入调研下一代听障眼镜的研发方向,但是在过程中,对于那些有迫切需求的听障伙伴,比如面试、就医、办事、语训等需求很迫切,而眼镜能带来不少帮助。即使目前来看这款眼镜只能连接安卓设备,iPhone 因为接口标准暂无法支持。但李然也透露说,「大概明年中下旬会出新一代的助听眼镜,它会是无线的一体机,能支持的机型更多,而且佩戴感受也会提升不少。」
「做成普通眼镜那样」
对这群工程师和产品经理来说,去做调研的每一天都很感动。
「有人跟我说,他出生到现在三十多年间试过大量不同的方法,从药物医疗到助听辅具,但他觉得『也就那样儿』……他们中的不少人已经『心灰意冷』了。即便有手语、辅具、翻译软件等工具的存在,他们仍然感知不到外界更丰富的声音,比如外面的风声,现在聊天室里轻微的人声。」
近年出现的「隐藏字幕」(CC 字幕)鲜有人知:除了展示台词,字幕还会解释、提示画面中所发生的事情,包括一些细微的环境音。比如动画短片《Blush》——在这部导演向其亡妻献礼的默剧中,讲述了一名园艺宇航家意外坠毁在一颗荒凉的矮行星上。宇航员的飞行器撞到行星发出的巨响,风声吹拂行星地表植物的细响,字幕都将其描述出来。
假如在未来,眼镜的感知能力和 AI 算力达到了更高的水平,也能把听障原本感知不到的丰富声音用「字幕」显示出来。有听障用户对亮亮视野表达了愿望:「司机按车喇叭,狗冲着我叫,能不能也让眼镜告诉我?」
「让眼镜里的芯片去充分理解语义,对人的言语进行智能整理,最终给听障用户呈现最精简的版本。以及,做到识别不同说话者的声纹。」这些将是亮亮视野后续进一步的目标。
公司 CEO 兼董事长吴斐说,「语音转文字 AR 眼镜并非新鲜事物,与众不同之处在于对用户场景的理解更加深刻。」
人们需要更多「不新鲜」的科技,需要更多对用户需求有深度挖掘的科技。我们已经能够找到一些例子——
比如专门为听障用户设计的手机翻译 app「迷你语音」。相比市面上的同类产品,它在技术上并不突出,但在用户界面的设计上下足了功夫。它可以将说话者的人声转换成文字,听障用户通过打字来回复对方。与此同时,用户输入的文本的字号被放大数倍并且旋转 180 度面向对方,以便对方更好地阅读。另外,迷你语音还支持了 iOS 15 的画中画特性,可以将语音识别的界面缩小,并且在使用其他 app 时继续转录。
里索科技则研发了一款叫「无声救星」的助听智能手环。手环配备了无线声音接收器,当手环接收到用户的自定关键词,比如他们的名字,就会震动,提醒用户:身边有人正在说话,请留意内容。有时,听障者说话较为大声,容易尴尬场面,当手环检测到声量过大时,便会震动提示控制声量。
Digital Nature Group 推出了翻译字幕面板 See-Through Captions,本质上是一个透明的投影仪,可将音频转换为字幕并在其双向屏幕上显示对话。产品有两种款式,固定式的和可移动的,可以在不同的场合使用。
这些都是对特殊人群的诉求做了深度挖掘的产品。
亮亮视野的工作人员提前给眼镜设置了「唤醒词」,她设置的是我的名字。biu,她叫我的名字,镜片发出了蓝色的闪烁。他们说,未来会将助听眼镜做成普通眼镜的模样,要做到与普通眼镜没有区别,「这本身就是一个人文关怀设计」。