大模型加速人机交互范式革新，2024 外滩大会热议具身交互智能

大模型时代人机关系快速变革, 机器开始承担以往人脑执行的感知与认知任务, 从而深刻影响人机之间信息交换过程, 推动了人机共进技术的发展。人机交互的想象力边界在哪里? 距离实现可信赖及规模化应用的人与 AI 共生范式还有多远?

9 月 6 日下午, 在上海举行的 2024Inclusion·外滩大会举办了一场名为「探索人与 AI 共生范式:具身交互的未来构想与可信之路」的见解论坛。专家们聚焦具身交互这一话题, 深入探讨了人机混合智能、交互式学习、无人驾驶中的具身交互、智能个人终端的交互技术等前沿主题, 并对未来具身交互范式各自发表了观点和展望。

作为学界与产业界的跨界联动, 本次论坛由清华大学、蚂蚁集团联合主办, 中国计算机学会 (CCF) 人机交互专业委员会协办。中国计算机学会秘书长唐卫清做开场致辞,CCF 人机交互专业委员会主任田丰担任主持人。

当AI进入大模型时代, 机器应主动适应人

人机交互决定了用户终端的可用性, 直接关系到大规模终端产品的市场竞争力, 已成为大国科技战略布局和全球产业竞争中的关键科技领域。近年来, 随着 AI 大模型和机器人学等技术的不断发展, 人机交互的方式也在快速发展, 从早期的键盘、鼠标操作, 到触摸屏、语音交互等现代技术, 用户的动作、身体状态以及环境中的物理物品, 正逐渐成为交互的核心媒介。这种具身交互方式, 正在虚拟现实、增强现实、可穿戴设备和智能家居等领域展现出广泛的应用前景。

那么, 如何构建更自然、更智能、更可信的具身交互技术?

(图:清华大学教授、青海大学校长史元春)

清华大学教授、青海大学校长史元春认为, 人类正进入一个万物智能互联的「人机境」三元融合时代, 虽然机器愈加智能, 但从本质上不能脱离人类智慧完成实现人类情境任务, 人机混合智能作为由人-机-环境相互作用而产生的新智能形态, 将首先实现「机器主动适应人」的情境智能。史教授进而阐述了其提出的交互式学习, 不同于传统的机器学习模式, 交互式学习在交互过程中以在线方式从交互数据学习用户知识, 实现知识从人向机器的传递, 这种在大模型基础上实现的情境语义对齐的人机协同方法, 任务执行成功率很高, 是实现具身智能的关键技术。

西安交通大学教授薛建儒主张将人的作用或类人认知能力引入到智能系统, 通过人与机器的协同与交互认知, 构建具有更高智能水平的「人机混合增强智能」新形态。人机混合增强智能主要有两种形态:人在回路的混合增强智能和嵌入脑启发的认知计算模型。前者主要通过人与机器智能交互通道, 使人的作用参与新智能形态构建;后者则是在机器智能中嵌入类人认知计算模型使机器成为人的伴随者。

据了解,2017 年国务院印发的《新一代人工智能发展规划》明确列出人机混合增强智能是新一代人工智能发展规划中的重点方向, 也是当前人工智能赋能千行百业的重要途径。

北京工业大学教授、信息科学技术学院副院长马楠报告了无人驾驶具身交互智能, 她指出无人驾驶离不开车与车、车与路、车与人之间的智能交互, 应具有良好的具身智能, 然而实际场景中, 人们是否对无人驾驶行为清楚、对它做出的决策可理解, 尤其针对复杂、不确定环境下, 无人车能与人的意图达成协同一致至关重要。近年来团队先后提出一系列人车路协同的无人车智能交互方法, 开展跨模态多视角数据获取与处理、基于时空特征的连续动作识别等具体研究与应用。她强调,「可交互、会学习、自成长是新一代智能机器的硬核。通过自主驾驶与交互认知, 不仅能使无人车安全驾驶, 还能与人有效沟通和理解, 更好服务于人类社会。」

提到具身智能, 手机终端的智能交互是我们当前触手可得的交互体验。荣耀终端有限公司产品线总裁方飞表示, 人机交互是智慧终端发展的核心驱动力。随着 AI 大模型技术发展, 未来的操作系统将更加以人为中心, 实现场景化交互。荣耀坚持平台级 AI 战略, 已创新地推出了消费者喜爱的 YOYO 建议等智慧化功能, 并率先在端侧部署了大模型, 未来将在新产品中推出更多引领行业的 AI 场景, 为用户提供专业、愉悦、便捷的服务体验。

人机交互的未来, 要兼顾交互体验与安全可信

(图:专家热议具身交互的想象力边界与可信落地)

当前, 大模型和具身智能快速推动着人工智能发展。这两大技术领域的结合, 也正以前所未有的速度重新塑造着人机交互的范式, 预示着一个更加智能化、互动化的未来。

薛建儒指出, 大模型带来了多模态信息理解和常识知识表征的新能力, 为人机交互提供了更广阔的空间。具身智能强调拥有不同形态的智能系统或机器人, 能够通过与环境的直接交互学习, 执行各种各样的任务。这使得我们去重新思考人与机器的边界, 为人机交互提供了新的工具和思维方式。

清华大学副教授喻纯认为, 大模型给人机交互带来了前所未有的机会, 但也带来了边界感、幻觉和个性化等挑战。他提倡通过交互式学习来解决这些问题, 尤其是智能终端操作系统要提供系统级支持方面的作用, 包括多模态界面、决策智能等交互式学习技术的支持。

技术是一把「双刃剑」。与会的多位专家也提醒到, 人机交互过程中也会给个人和社会带来数据安全、AI 幻觉、伦理风险等问题。在追求技术创新的同时, 我们必须对这些潜在风险保持警惕, 并采取相应措施来确保技术的健康发展。

专家们还畅想了人机交互的未来形态。方飞提到了 AI Agent 的概念, 预测未来的人机交互将更智慧化、个人化、场景化。薛建儒表示,AI Agent 其实也是人机交互最终的形态。我们希望终端能变成人类的助手, 与人类和谐共生。喻纯提出了人机交互正朝两个方向发展, 一是向外延展, 通过传感器感知环境和人的行为;二是向内探索, 通过 PPG 等技术感知人的心理和生理状态, 构建数字空间的数字人, 以提供更个性化的服务。他强调了硬件设备在人机交互中的重要作用。

清华大学副教授易鑫同样从虚实融合数字空间构建的角度进行了展望, 并特别强调了在发展中确保隐私与安全的重要性。他还提到了内容安全问题, 例如如何协助用户甄别虚假和恶意信息, 并通过交互创新进一步优化智能服务的可信与安全性。

(图:清华大学教授、青海大学校长史元春与蚂蚁集团副总裁李俊奎联合发布白皮书)

此次论坛上还发布了由清华大学、蚂蚁集团联合编制的《PPG 连续生理特征感知技术及应用》白皮书, 并宣布开源一批基于心跳识别身份的数据集。

据了解,PPG 作为一种测量心率、血氧饱和度等生理指标的非侵入性技术, 在医学健康监测与个人健康管理中扮演越来越重要的角色。PPG 信号简单易获取, 能提供高效、安全的身份验证手段, 在身份识别上的社会价值巨大。尤其是在可穿戴设备日益多样化的今天, 基于生理信号的身份认证显示出巨大的社会价值。

「好的科技应该以人为本, 我们开发了『高原智卫』支付宝小程序, 通过手机上精准 PPG 采集配合大模型技术, 实现随时随地的高原反应风险评估, 关注高原人群健康。」清华大学副研究员王运涛在互动展示环节中提到。据了解, 未来, 清华大学还将携手蚂蚁集团、青海大学持续探索多种安全核身以及普惠健康的创新可能。

来源：互联网

最新文章