
近日, 腾讯首席科学家, 腾讯 AI Lab 及腾讯 Robotics X 实验室主任张正友在 2024 年中国三维视觉大会上发表了精彩的主题演讲
近日, 腾讯首席科学家, 腾讯 AI Lab 及腾讯 Robotics X 实验室主任张正友在 2024 年中国三维视觉大会 (China3DV 2024) 上发表了精彩的主题演讲, 并分享了腾讯在 AI 数字人领域的最新研究成果。
期间, 张正友展示了以《和平精英》数字代言人吉莉为代表的全双工对话数字人技术, 并进行了现场演示。
这是吉莉继出席联合国妇女署活动、央视五四青年节特别节目等场景之后的又一次亮相, 进一步展示了光子工作室群在 AI 数字人领域的积淀和新探索。
技术革新,AI NPC 连接虚实集成世界
2024 年中国三维视觉大会由中国图象图形学学会 (CSIG) 主办, 是目前国内唯一专注于三维视觉领域的学术盛会。本届大会设置了包括 3DV 与世界模型战略、数字人等多个前沿论坛, 吸引到相关领域超过 1400 名专家学者到场研讨。
会上, 张正友表示, 随着技术力进化, 数字世界和真实世界的结合日趋紧密, 虚实集成世界已成趋势。作为虚实集成世界交互的核心, 数字人需要向人格化、知识化、个性化三个方向持续进化, 以帮助人类更好地完成数字、物理世界任务, 同时避免交互多样化导致的失控风险。
在这样的理念下, 腾讯光子工作室群联合腾讯 AI Lab 对 AI 数字人的多链路技术能力进行了持续的研究与探索, 以《和平精英》的数字人代言人吉莉为载体, 团队聚焦于全双工对话数字人与高效动画制作管线两大方向。
全双工对话数字人:人机交互新篇章
为了实现更流畅、精准的人机交互, 团队在语音识别、处理、数字人内容生成和语音播报等多个环节完成了关键技术积累。
识别阶段,ASR 语音识别技术可在声学特征提取、声学模型、语言模型与语言处理等多种能力的配合下实时、准确地识别多样真人自然语言, 实现真正意义上的「边说边听」。
处理阶段, 数字人背后的对话能力依托于千亿级参数的 LLM 进行预训练加风格人设微调, 同时依赖 RAG 技术给数字人对话内容进行知识辅助, 可快速理解用户意图, 关联上下文内容, 搜索相关知识, 最终生成逻辑清晰的回答, 并依托 TTS 语音生成、SVC 歌唱等技术, 结合应用场景实现自主规划的主动对话。
另一方面, 为推动语音交互向动画交互的进化, 团队还在探索 Speech2Face 脸部 AI 驱动算法和 LLM-based 动作预测及生成等前沿技术, 实现数字人多模态驱动。
通过 Speech2Face 脸部 AI 驱动算法, 数字人可实现更精细的口型、表情脸部驱动,LLM-based 动作预测及生成则可基于海量训练, 达成数字人躯体与语言表达、场景等元素的自然配合, 使其整体交互表现更趋近于真人。
在实机演示中, 吉莉展现出了出色的交互能力。她能够即时理解用户需求, 并给出自然流畅、情绪饱满的反馈。同时, 她的口型、表情和动作演绎都十分自然流畅, 无论是对话、外形与动作演绎, 还是面部微表情、皮肤肌理都达到了细腻、逼真的程度, 为用户带来了全新的体验。
创新动画制作管线:高效支撑内容生产
为了满足《和平精英》的内容生产需求, 腾讯 AI Lab 和和平精英团队搭建了一套创新高效的 AI 动画制作管线。这套管线集成了 3D 渲染、面部表情生成、口型动画曲线生成、语音生成、动作预测和配置等多种能力, 并经过多次迭代和优化, 最新的 AI 动画管线 3.0 算法利用高品质动画数据训练了能支持多语言、多情绪、多个性的预训练模型, 并针对吉莉的人设和个性进行了全面的音频、情感、面部动画数据采集和模型优化。这使得吉莉的面部表达更加完备、细腻, 能够呈现出个性化的演绎效果。
在算法底层表达方面, 从基础的 36 个 BS 脸部驱动 AI 动画管线 1.0, 到扩展的 62 个 BS 脸部 AI 动画管线 2.0 实现更细致的控制, 再升级到当前基于 MetaHuman 绑定的 185 个非线性控制器表达 AI 动画管线 3.0, 数字人的面部表达的完备性、细腻度一直持续提升。
该模型利用多模态神经网络来处理不同模态的输入信息, 并采用自研 Diffusion-LSTM 架构生成对应的面部驱动系数, 使得这些系数所产生的动画能够匹配音频的咬字、节奏, 情感的类型和起伏, 以及具有高表现力的个性化演绎。
此外, 该管线还支持将高品质的 MetaHuman 动画重定向到自定义的绑定标准, 以及准无损的动画压缩, 支持更多样化的需求。
目前, 该动画制作管线已能够支撑游戏宣传、商业合作等多种内容制作, 通过这套管线, 团队能够高效、高品质地完成动画视频制作, 大幅提升了制作效率, 同时确保了动画质量, 为用户提供了更好的内容体验。
科技向善, 智能数字人发挥多元价值
在持续提升用户体验的同时, 光子工作室群也积极践行腾讯「科技向善」的价值观。吉莉作为《和平精英》的数字代言人, 不断参与到文化传承、公益合作、竞技推广等工作中来, 为多个领域赋能。随着 AI 数字人技术的日益成熟, 吉莉正以其强大的表现力, 创造着探索科技向善的更多可能性。
作为一种受年轻人喜爱的新媒介, 数字人在向青年群体传递正向价值观方面发挥着重要作用。在 2022 年央视五四青年节特别节目中, 依托于光子工作室群自研的 RBF 骨骼绑定系统等前沿技术, 吉莉以高保真的动态形象打破次元壁, 与现实青年演员、歌手、高校学子们一同送出了别开生面的虚实融合表演, 以一首《New Youth》展现青年朝气, 号召青年朋友打破陈规, 创新进取。
此后, 作为全球首位出席联合国妇女署活动的数字人, 吉莉又在相关活动中做了一次三分钟、一镜到底的主题演讲。团队通过优化 3S 材质提升皮肤质感, 以 Houdini 及 Xgen 解算还原服饰毛发动态, 让吉莉以更生动、细致的近景形象融入现实世界, 以自身在游戏世界中的经历, 向世界传递开放、多元的正向价值观。
2023 年, 吉莉又化身大熊猫巡护员, 虚实结合「穿越」大熊猫国家公园, 深入了解大熊猫巡护员的工作, 向公众普及大熊猫保护知识。她以实际行动倡导环保与公益精神, 呼吁更多人关注和参与野生动物保护工作。
AI 和数字人技术不仅为游戏产业带来创新, 更在科普、教育等领域发挥着重要作用。面对网络诈骗等社会问题,《和平精英》与国家反诈中心合作推出创意短片《Game World》, 通过吉莉与反诈民警的联动, 向广大游戏玩家普及诈骗案例、相关法规及反诈手段。
作为现实世界的数字映射, 数字人还为品牌、文化提供了新的推广渠道和场景。吉莉通过多次联动, 将彭水苗绣、西湖、冬奥冰雪运动等优质文化 IP 带入游戏世界, 助力中国文化的数字化传承与发展。
与此同时,AI 数字人技术正在动画、视频制作、文保、文旅、医疗、智慧城市、工业自动化、公益等多个领域发挥重要作用, 数实融合, 为人们创造更加美好的生活。
初见成效, 技术团队持续精研深耕
截至目前,《和平精英》数字人的多次落地应用已经取得了显著的成效和好评。在商业和用户体验层面,AI 动画管线的支持使得动画制作周期缩短近 50%, 提升了内容制作效率。同时, 团队得以将更多精力投入到内容策划和质量提升上, 为用户带来了更优质的内容体验。这一成果在具体案例中得到了验证, 使用 AI 管线后的内容在推荐、播放、点评赞等数据上均获得了大幅提升。
社会价值方面, 吉莉和游戏 IP 积极响应号召, 以自身媒介特性和 IP 影响力传递正向价值观, 为优质文化的传播贡献力量。五四青年节相关话题在当时多次登上热搜, 关于和平青年、大熊猫保护等话题也引起热烈讨论, 都体现了数字技术在传播正向价值观方面的积极作用。这些成果的取得离不开光子工作室群对技术的持续探索与深耕。
我们可以看到光子工作室群、《和平精英》和腾讯 AI Lab 在技术布局探索、产品长线发展等方面的思考和行动, 不仅展现了腾讯的技术实力和创新精神, 更为整个行业树立了新的标杆。通过持续的精研、探索和落地实践, 团队正在持续积累势能的同时, 坚定地将技术服务于用户体验和社会正向价值, 以更多元、创新的能力和方式为更广泛的商业、文化领域带来正向价值。未来, 我们期待看到更多基于 AI 数字人技术的创新应用出现, 为推动虚实集成的技术发展做出更大贡献。
来源:互联网