多模态崛起,AI 应用即将迎来「超级增长期」。
今天,如果你问创业者 2025 年 AI 赛道最大的机会在哪?那么 10 个人里至少有 5 个会回答:多模态。
过去一年,我们见证了多模态模型领域的飞速发展:从 Sora 到 4o,从生成到感知,从图片、视频再到 3D,各种模态的基础模型在短短一年内完成了革命性的进化。
就像多点触屏催生了智能手机,推荐算法催生出头条、抖音,GPT-3.5 催生出 ChatGPT……每一轮基础技术的进步,都将在不久之后解锁创新的应用。而随着多模态模型的快速发展,越来越多从业者相信,2025 年多模态领域有望诞生出新的 Super App。
但真正置身其中,就会发现一切并没有那么简单,在这个赛道上有至少三个关键问题需要搞清楚:
-
多模态模型的技术能力进步有多大,到底是革命还是噱头?具体哪些模态是真正颠覆性的进步。
-
多模态到底解决的是什么问题?给用户创造的价值是什么。
-
多模态模型如何落地?什么领域适合原生应用,什么领域适合原有产品改造,还有大厂和创业者的边界在哪里。
带着这些问题,我们不久前参加了火山引擎 Force 大会。在字节跳动内部,火山引擎是承担技术 ToB 的组织,涵盖豆包模型能力的调用以及云计算相关业务。众所周知,字节在 AI 上投入巨大,模型能力和基础设施快速提升,进而带来了国内 AI 应用创业者在火山引擎上的密度迅速提升。
图片来源:火山引擎
从这些创业者的实践上,我们最明显的感觉就是大家正在形成共识:多模态技术在快速进步,而充分运用好多模态的 AI 应用,正在接近用户体验突破和用户价值突破的临界点。
01 2024 年,多模态确实「卷」出了进展
基础技术的进步会解锁应用的创新,但能否真正实现应用创新,其实也取决于基础技术的进步幅度。多模态模型这个赛道也不会例外,只有理解了多模态模型的发展现状、未来走向,摸清楚这些「新武器」的能力与边界,才能找到多模态应用创新的方向。
过去一年,图片生成、视频生成、视频理解、音乐生成、3D 生成等迎来了不同程度的突破,但在业内人士看来,目前技术已经成熟,未来一年最有可能的落地的,还是图片生成和视频生成。
对开发 AI 应用来说,主要考验模型技术在三个维度的能力:生成质量、生成速度、和可控性。按照这个标准,图片生成模型比视频生成模型的能力更成熟,现在能解锁的应用也更多。
图片生成领域起步时间早,2022 年 8 月就出现了 Stable Diffusion(第一款文生图开源模型),并在一定程度上解决了图片生成的可控性和质量问题、做到了可用的程度。随着模型算法全面向 DiT 架构转换,图像领域的可控性越来越好。同时,生成图片的效果和推理速度也在持续提升。随着工具层打造出更多的能力,图像生成领域已经能够做到在严肃场景实现高度个性化的图像生成效果。
图为豆包图像大模型生成的图片,无论是精细程度、美感、光影都越来越自然和真实。|图片来源:字节跳动
在越来越丰富多样的场景驱动下,图片生成的需求正在由开源模型承接为主,转变到以定向优化的闭源模型及其生态为主,从而满足更多样、更个性化的行业需求。同时,像 ComfyUI 这样能够让用户自己调整工作流和生图模型特定能力的中间层工具正在发挥关键作用。
火山引擎 AI 开放平台产品总监傅鹭翔介绍,目前在互动娱乐、分享陪伴、小说配图、二创影视剧解说、儿童绘本等等场景下,图片生成模型都已经开始被广泛应用。
「现在的需求是多样化的,比如我要 A 风格的图片,你想要 B 风格的图片,他想要把某一个元素(比如一瓶水、一台车)融进图片里,这就很强调满足个性化需求的能力,同时这样的场景对图片生成效果的可控性要求也非常高。」傅鹭翔表示,「在这样的条件下,火山引擎把工具层的能力开放出来,比如把图像、视频前后的控制组件、基于豆包大模型的 Lora 精调等能力开放,再把搭载 ComfyUI、搭建 workflow 的能力开放给用户,避免 100 个用户提 100 个需求,一个一个排期来做定制化。」
如果说上述图片生成模型的最新进展是由需求驱动,那么视频生成大模型的进展则主要靠供给方们「卷得有质量」。
年初 Sora 横空出世,此前采用 U-Net、GAN 等算法架构的技术路线快速向 DiT 架构收敛,之后一年里,谷歌、快手可灵、字节即梦、爱诗科技等大厂和创业公司相继推出比肩 Sora 效果的视频生成模型。
值得一提的是,在这个领域国内公司已经快速实现了技术赶超,今天国内顶尖视频生成模型的质量公认达到全球第一梯队,甚至已经被 Meta 等大厂拿来作为跑分对比的标杆。明势资本夏令认为,这是由于当技术路线和竞争点收敛成为明牌后,就进入比拼工程和产品能力的阶段,这也正是中国创业者最擅长的地方。
这是一位戏剧学院老师、编剧小文通过「即梦 AI」及其背后的「豆包视频生成大模型」制作的一位女明星的奇幻旅程,还原了电影的发展史,从默片时代到有声时代。可以看出,视频生成模型已经可以在商业场景下做到如此精细的程度。|来源:字节跳动
很多尝鲜者都是被社交媒体上的 AI 视频惊艳,但自己上手以后却发现做不出同样的效果,这是因为今天 AI 生成视频的质量不够稳定,业内将这种现象称为「抽卡率」,即输入同一条 Prompt 后生成多少条视频中能有一条可用,目前业界常见的抽卡率是「8 抽 1」「10 抽 1」,更别说想要拿到效果特别好的,就需要抽更多次卡。
过去一年,我们可以看到各种社交媒体上人们分享的惊艳 AI 视频,这种效果就是 AI 生成视频已经「可用」的最好例证,但从「可用」到「商用」,短期内视频大模型还有一个必须解决的关键问题,就是「可靠性」。在尝鲜的使用场景这不是太大的问题,用户只是拿来分享社交媒体的话完全可以花上一天生成几百条并从里面选择最好的一两条发布,但对于效率、质量、成本要求更高的商用场景,稳定性就成了一个必须解决的问题。今天业内不少团队都在尝试通过工程化的方式来提升生成视频的稳定性,也就是所谓的「技术不够,产品来凑」。
02 多模态到底解锁了什么?
关于多模态模型的意义和价值,一个言论在业界广为流传:每多一种模态的解锁,意味着用户渗透率的进一步提升。
这句话背后的意义是:只有文字的人机交互是单一的,是被限制的。人机交互的未来必然是多模态的,AI 需要多模态理解真实世界和真实的人,人也需要 AI 提供文字以外的输出。
最典型的就是语音交互之于 ChatBot 这个今天使用最广泛的 AI 场景。今天越来越多 ChatBot 类的产品都已经加入语音交互功能,而在一些特定的使用场景下(比如用豆包等 AI App 学英语),语音交互就能极大地提升用户的使用体验。
造梦次元上,用户可以选一个故事进入,与故事角色交互|截图来源:造梦次元官网
最近大火的造梦次元是一个典型的案例,在这个平台上,用户可以按照自己的想象创作「角色」,并让其他用户与自己创作的角色「互动」——聊天、咨询、调情、网恋都不在话下。
从各种乙女游戏、二次元游戏的火热中不难发现,与虚拟角色在一定的故事背景下,通过对话聊天、养成挑战等玩法形成情感连接,这种需求其实一直存在。造梦次元创始人、CEO 沈洽金向极客公园表示,「造梦次元解决的是一个已经存在了很长时间的需求。现在有了 AI 之后,我们这个互动体验就可以交给 AI 去解决,于是就做了现在这个公司,我们称之为——想法流。」
而 AI 能力的持续进步,实际上也在解锁造梦次元的体验边界。比如大语言模型的对话能力,以及构建智能体的技术,形成了造梦次元的产品基石;图片、音乐生成的技术,进一步解放了创作的技术门槛,让更多比「动手」更擅长「动嘴」的普通人也能做出高质量的虚拟角色。
而语音交互的加入,则进一步改善了用户体验。打开对话框,符合你对霸总、学霸、御姐等人设想象的声音自然流出,相比文字更容易让人产生在与真人交流的真实感。而过去要做到这一点,需要一名在专业学校培养数年的职业声优,花上数天或者数周时间熟悉角色、调整声线,还无法实时交互,而现在只要定好人设,AI 就能帮创作者完成一切。
据极客公园了解,使用多模态能力提升产品体验后,造梦次元的获客成本、用户时长、次日留存以及付费率四个关键业务指标提升明显,其也获得了锦秋基金和明势创投等多家 VC 的联合投资,成为当下 AI 应用领域的热门初创公司。
除了利用多模态的交互形式创造用户价值,多模态应用的另一条路径是:用产品补基础模型的不足。
就像上文提到的视频生成领域的可靠性问题,今天多模态模型直接用到生产环境存在各式各样的问题,针对特定的场景做产品层面的优化,反而能给用户更好的交互体验。
现在,Fotor 作为一个在图片生成赛道上跑出来的产品,在全球两百多个国家和地区提供 11 种语言,一共有接近 7 亿用户,月活 2000 万上下。Fotor 几乎已经把所有模态的模型嵌入到了产品工作流。
Fotor CTO 颜河向我们分享了 Fotor 利用多模态能力获得高速增长背后从 0 到 1 的过程,其中最行之有效的一个方法论就是「核心技术固本,优质产品拓新」。
围绕视觉图像处理场景,Fotor 通过将生成式 AI 的能力整合到产品工作流中,带来了更好的图像编辑体验。|截图来源:fotor.com
比如用户上传了一张自己的图片,想对这张图片做一定的风格上的转换。从上传图片的那 1 秒开始,Fotor 会先利用图像识别模型的能力进行精准识别,识别出来的结果是一个结构化的数据,中间包含了这张图片的构图是什么样的、有没有人物、主体是什么等等。接着根据这些细分的意图利用模型的能力对这个图片进行一定的分割,再到下一步使用大模型进行相应的生成,再到下一步,通过视频模型让生成的图片动起来,最后再给到用户一个结果。
像造梦次元和 Fotor 所代表的 AI 互动内容平台和生产力产品也是当前用到多模态技术最多的主要场景。火山引擎方舟解决方案负责人冯书云告诉我们,就所有模态的 AI 应用来看,当前主要有四个场景把产品做到了接近 PMF(产品市场匹配)。
-
第一类是泛娱乐,主要提供情绪价值。这类产品基于「类人」的互动体验,为用户提供情绪价值,比如社交、陪伴、内容等。比如阅文旗下「AI 男友平台」筑梦岛,为女性用户提供沉浸式虚拟陪伴的体验。
-
第二类是生产力场景,帮助用户提高工作效率、创造价值或者完成任务的工具或软件。由于生产力场景要求 AI 能够在特定任务上达到相对高的完成度,所以当国内模型达到 GPT-4 水平的时候,生产力应用开始大规模落地。
-
第三类是教育场景,以在线教育为核心,包括 K12、成人教育、职业教育,整个教育的全流程从教学大纲、出题、讲题、解析、互动陪练等等一个系列,基于大模型不同模态的能力,现在已经能形成一些很完整的解决方案。
-
第四类是终端或者叫硬件,包括手机、汽车、PC 这样有比较强的智能 OS 的产品,或者是一个点读笔、小的玩具、智能音箱,已经能进行一些自然互动、完成一些具体的任务。
作为字节跳动平台对内对外服务的大模型一站式服务平台,火山引擎 MaaS 平台火山方舟在过去两年的时间服务了字节内部所有的应用大模型的需求以及外部所有的客户。2024 年,火山引擎成为大模型调用量增长最猛的云厂商,半年里增长了数十倍。
火山引擎 V-Start 加速器负责人程子莹认为,随着豆包相继发布了视频生成、音乐视频、视觉模型,多模态模型供给越来越丰富,2025 年多模态一定会掀起第二波大模型应用的浪潮,会有相当多的 Token 消耗和算力发生在图片理解、视频理解、生图、生视频、语音等方面。随着模型能力变强、模态变多,也会解锁越来越多的新场景。
03 看清边界,选对技术,做好产品
「多模态模型技术会如何影响 2025 年做 AI 应用的走向」,当我们分别向模型厂商从业者、应用创业者、投资人提出这一问题时,三种不同角色身份的实干家们给出了几乎同一个答案:
不担心被模型吃掉、不担心大厂进入、不担心模型成本、多模态也成不了护城河。
「最重要的事情只有一件,围绕目标用户,越来越好地解决需求;但前提一定是要了解 AI 技术的最新边界。」这是大家对新的一年如何做好多模态 AI 应用的一致判断。
「做 AI 应用的产品节奏要与模型技术发展的节奏同频。否则,产品上不仅会做无用功,也可能会做不好」。这是沈洽金在过去一年的实践中得到的教训,「最重要的是节奏,根据对当下、未来模型技术的判断,做应用的迭代」。
2025 年,多模态模型整体上一定还是在可控性、一致性、渲染力、生成速度上做持续的能力提升。尤其是视频生成模型的可控性和一致性,亟待进一步提升来降低废片率。
但具体不同模态的模型在不同场景里,各项性能表现发展到什么程度、可以被优化到什么程度,只能在场景中反复探索、调试。Fotor 颜河表示,哪怕是同一个技术路线如都是 DiT 架构,不同公司做出来的模型表现也差别巨大,而且同一个模型在不同场景里的表现也差别巨大。「同一个场景、同一批用户,同一个时间同一个内容我们接两个模型,最好的模型跟最差的模型的数据差距可以差到 10 倍,非常夸张,这与模型参数、数据配比、做研究实验的轮次等等都有关系」。
这时候,创业者探测模型边界、找到最匹配模型的经验都是 A/B Test,同一个能力在用模型的时候会反复嵌套,不停地在背后收集用户反馈(比如人均互动次数、漏斗率等指标),谁效果好就用谁,其次才是考虑模型成本,因为后者是早晚一定可以实现的事情。
对于 2025 年,多模态会解锁哪些新应用的可能,冯书云更期待在内容消费和硬件上能打开更多空间。
作为火山方舟解决方案负责人,过去一段时间,冯书云观察、走访了各个行业最活跃的多模态模型的应用创新者。在她看来,视频生成能力再进化,可能会解锁内容消费的新场景,给更多人带来更好的创作形式。
现在,视觉内容的巅峰是电影,大模型显然在效果上还比不过电影,但是围绕电影成片的整个工作流已经有大模型介入的机会。比如,一部电影其实是上百上千个镜头的拼接,在每个镜头从布景到实现的过程中,要做很多类似于 demo 的东西,如果视频生成模型进一步成熟,可以让导演用更简单、更高效的方法去将自己的创意灵感分享给剧组。
但她最期待的还是视频理解模型的突破,比如豆包 VLM 模型,可以输入文字、图片、视频到模型让它理解,这会给 AI 硬件带来更大的新空间。
2024 年 12 月 18 日,火山引擎发布豆包视觉理解模型时,总结了其能解锁的新场景|图片来源:火山引擎
对于硬件来说,大语言模型可能只是一个大脑,而视频理解模型则是眼睛,能看「我」看到的东西,再去发挥它智力,会在很多场景中发挥作用。
比如现在看到的一些落地场景,工厂的监测、安保的巡逻,或者孩子拍了一道题,视觉理解模型加语言模型就可以帮着孩子一步一步去解题。
甚至有一些创业者认为,未来再做硬件创业时,那些简单的小机器人不需要嵌入式工程师了,人可以告诉大模型说,「根据你对世界的理解做一些动作」「如果做高兴的动作,胳膊的扭矩是多少,可以摆动多少度」,像这样通过一些比较基础的、人完全可以理解的指令去控制硬件,交互会变得非常自然,脑子变得越来越聪明,同时还有了眼睛可以理解世界。
过去几年,从 GPT-3.5 到 GPT-4,再到 Claude-3.5,每一次基础模型的迭代都引领了一波 AI 应用的爆发。展望未来,随着视频生成和视频理解模型的不断成熟,2025 年无疑将成为 AI 多模态领域的关键节点。一场新的技术浪潮正在酝酿,新一批现象级 AI 应用的诞生,势必会为这个领域注入更多可能性和想象力。