AI 视频生成大战「白热化」，阿里、字节、快手、美图均押注

近期, 国内外多家 AI 大模型密集「上新」。国内 AI 视频生成激战正酣, 也有玩家悄悄抢占 3D 大模型赛道,OpenAI 则卷向了复杂推理。分析人士认为, 这一轮技术迭代, 或将使 AI 行业诞生新的一线梯队。

近期 AI 圈最受瞩目的产品, 莫过于 OpenAI 的「o1」大模型。9 月 13 日,OpenAI 正式发布新一代大模型「o1」, 即之前所传的「草莓」模型。据介绍,「o1」大模型具备更强大的推理能力, 能够解决多步骤问题, 在复杂的科学、数学和编程任务方面,「能够像人类一样思考」。

回到国内, 角逐最激烈的, 当属视频生成赛道。今年 2 月,OpenAI 发布视频大模型 Sora, 开启了 AI 视频的新时代。此后半年, 国内大厂纷纷布局, 国产 AI 视频大模型密集诞生。

6 月, 对标 Sora, 快手发布视频生成大模型「可灵」, 支持通过文生视频、图生视频、视频续写功能, 生成最长 2 分钟、30fps 的 1080p 高分辨率视频。就在「可灵」上线一周后,Luma AI 发布文生视频模型 Dream Machine, 每 120 秒能生成 120 帧画面, 还能快速生成 5 秒钟的电影级别视觉效果视频片段。

9 月, 互联网大厂的 AI 视频之战再次掀起新高潮。

9 月 19 日, 阿里宣布通义万相视频生成功能上线。据报道, 通义万相视觉模型支持最长 5 秒、每秒 30 帧、分辨率为 720P 的视频生成, 并生成与画面匹配的音效, 目前已开放文生视频、图生视频两个创作入口。

9 月 23 日, 美图公司公布旗下美图奇想大模型 (MiracleVision) 视频生成能力全面升级。据介绍, 美图奇想大模型目前单次文生视频与图生视频时长均可达 5 秒, 最长支持 1 分钟生成时长、帧率 24FPS 的超长视频, 分辨率高达 1080P, 同时支持任意视频尺寸输出。值得一提的是, 基于美图在影像领域的深厚积累, 结合对特征的大范围提取, 其实现了在艺术风格、细腻画风与细节把控间的高度平衡, 不同画风自由切换。

此前, 美图奇想大模型已全面应用于旗下影像与设计产品, 其视频能力, 则率先落地美图旗下 AI 短片创作工具 MOKI, 让用户能够通过最低的门槛感受到 AI 为视频创作带来的改变。

字节跳动的豆包大模型, 也将于 9 月 24 日发布视频生成模型。此前, 字节跳动旗下的剪映团队已上线「即梦 AI」, 其核心功能包括图片生成、智能画布、视频生成以及故事创作等。

除了视频模型,AI 玩家也开始抢占 3D 大模型赛道。国内 3D 大模型头部玩家 VAST 近日更新旗下大模型 Tripo, 支持文生 3D、单图生 3D。腾讯也推出了专门生成开放世界视频游戏的 Transformer 模型 GameGen-O, 能模拟游戏引擎功能, 生成游戏角色、动态环境、复杂动作等等。

在大模型行业分析人士看来, 此次各家大模型视频生成能力的集中升级, 意味着国内 AI 行业正在进行新一轮洗牌, 并将诞生一批新的头部玩家。而当下 AI 行业已进入商业化竞争的关键阶段, 大模型如何落地到应用中, 真正做出符合用户需求的产品, 才是检验 AI 厂商实力的关键。

来源：互联网

最新文章