可灵 AI 开启视频生成 2.0 时代!全球用户数已突破 2200 万

摘要

让每个人都能用 AI 讲出好故事。

4 月 15 日,可灵 AI 在北京中关村国际创新中心举行「灵感成真」2.0 模型发布会,宣布基座模型再次升级,面向全球正式发布可灵 2.0 视频生成模型及可图 2.0 图像生成模型。

数据显示,自去年 6 月发布以来,可灵 AI 已累计完成超 20 次迭代,截至目前,全球用户规模突破 2200 万。来自世界各地的超 1.5 万开发者和企业客户,将可灵的 API 应用于不同的行业场景中。

一直以来,可灵 AI 致力于提升模型基础质量,增强画质清晰度,并引入更多创新功能,以满足用户多样化需求。快手高级副总裁、社区科学线负责人盖坤表示,可灵希望让每个人都能用 AI 讲出好故事,实现更加精准的复杂创意表达。

 

01

 

可灵 AI 全系模型进入 2.0 时代,

定义人和 AI 交互的全新方式

 

4 月 15 日,可灵大模型 2.0 版本及可图大模型 2.0 版本正式面向全球发布。据悉,可灵 2.0 模型在动态质量、语义响应、画面美学等维度,保持全球领先;可图 2.0 模型在指令遵循、电影质感及艺术风格表现等方面显著提升。

盖坤介绍,两款模型在团队内部的多项胜负率评测中,均稳居业内第一。例如在文生视频领域,可灵 2.0 对比谷歌 Veo2 的胜负比为 205%,对比 Sora 的胜负比达 367%,在文字相关性、画面质量、动态质量等维度上显著超越对手。

自去年 6 月发布以来,可灵 AI 已累计完成超 20 次迭代。3 月 27 日,全球知名 AI 基准测试机构 Artificial Analysis 发布了最新的全球视频生成大模型榜单,快手可灵 1.6pro(高品质模式)以 1000 分的 Arena ELO 基准测试评分登陆图生视频(Image to Video)赛道榜首。

作为全球首个用户可用的 DiT 视频生成模型,截至目前,可灵 AI 全球用户规模已突破 2200 万,累计生成 1.68 亿个视频及 3.44 亿张图片素材。自去年 6 月上线至今的 10 个月时间里,可灵 AI 的月活用户数量增长 25 倍。

 

快手高级副总裁、社区科学线负责人盖坤|图片来源:快手

盖坤认为,AI 在辅助创意表达上拥有巨大潜力,但当前的行业发展现状还远远无法满足用户需求,在 AI 生成内容的稳定性、以及用户复杂创意的精确传达上仍有「很多挑战」。也因此,要真正实现「用 AI 讲好每一个故事」的愿景,必须对基模型能力进行全方位提升,定义人和 AI 交互的「全新语言」。

一直以来,可灵 AI 致力于提升模型基础质量和模型效果,并引入更多创新功能,以满足用户的多样化需求。在本次 2.0 模型的迭代中,可灵 AI 正式发布 AI 视频生成的全新交互理念 Multi-modal Visual Language(MVL),让用户能够结合图像参考、视频片段等多模态信息,将脑海中包含身份、外观、风格、场景、动作、表情、运镜在内的多维度复杂创意,直接高效地传达给 AI。

「大家应该很自然地会感受到文字在表达影像信息时,是不完备的。我们需要有新的方式,能让人真正精准地表达出心中所想。」盖坤指出,MVL 由 TXT(Pure Text,语义骨架)和 MMW(Multi-modal-document as a Word,多模态描述子)组成,能从视频生成设定的基础方向以及精细控制这两个层面,精准实现 AI 创作者们的创意表达。

基于 MVL 理念,可灵 AI 正式推出多模态编辑功能。「从今天起,大家可以在可灵 AI 的平台上体验我们的多模态编辑能力。用户可以非常直接地把自己的想法用图像等方式作为输入,生成符合自己想法的创意视频。」盖坤介绍,MMW(多模态描述子)将不只局限于图片和视频,也可以引入其它模态的信息,例如声音、运动轨迹等,让用户实现更加丰富的表达。

 

「灵感成真」可灵 AI2.0 发布会现场|图片来源:快手

 

02

 

可灵 2.0 大师版正式发布,

全新上线多模态视频编辑功能

 

基于 MVL 这一全新交互方式,发布会现场,快手副总裁、可灵 AI 负责人张迪发布了全新的可灵 2.0 大师版,在语义响应、动态质量、画面美学等方面显著提升生成效果。

「可灵 2.0 大师版不仅仅是一次简单的技术升级,更是一次全方位的体验跃升。」张迪介绍,可灵 2.0 大师版实现了技术、体验、美学的三重突破。

 

快手副总裁、可灵 AI 负责人张迪|图片来源:快手

值得一提的是,可灵 2.0 大师版全面升级视频及图像创作可控生成与编辑能力,上线全新的多模态视频编辑功能,能灵活理解用户意图。支持在一段视频的基础之上,通过输入图片或文字,对生成的视频内容实现元素的增加、删减、替换,帮助创作者们实现更加灵活的二次编辑和处理。

 

可灵 2.0 大师版操作界面|图片来源:快手

张迪披露,当前,图生视频约占到可灵 AI 视频创作量的 85%,图片质量也对视频的生成效果产生重要作用。

在图像生成大模型领域,快手的可图 2.0 处于行业领先水平,拥有多项核心优势,诸如强大的复杂语义理解能力、电影级的画面质感、多条件的可控风格化生成等。在团队内部的多项胜负率评测中,相较于 Midjourney V7、FLUX1.1 [pro] 以及 Reve 等行业领先的图像模型,均保持明显优势。

张迪介绍,可图 2.0 文生图能力迎来全面升级。包括大幅提升指令遵循能力、显著增强电影美学表现力以及更多元的艺术风格。在风格化响应上,可图 2.0 可支持 60 多种风格化的效果转绘,模型出图创意和想象力实现大幅跃升。

同时,可图 2.0 也上线了实用的图像可控编辑功能——局部重绘和扩图,支持图片的增加、修改和修复。在图像的多模态可控生成中,可图 2.0 还上线了全新的风格转绘功能,只需要上传一张图片加上风格描述,就能一键切换图片的艺术风格,同时精准保留原图的语义内容。

 

03

 

AIGC 技术迅猛发展,

为全行业发展注入全新活力

 

除了 C 端订阅用户,可灵 AI 也面向 B 端商家提供 API 接入等服务。目前,可灵 AI 已与包括小米、亚马逊云科技、阿里云、Freepik、蓝色光标等在内的数千家国内外企业客户建立了合作关系。

盖坤披露,来自世界各地的超 1.5 万开发者,已将可灵的 API 应用于不同的行业场景中,累计生成的图像数量约 1200 万个,生成的视频素材超过 4000 万个。

如今,可灵正在成为 AI 时代视频创作的新基础设施。AIGC 技术的迅猛发展,也正在重构包括广告营销、专业创作、影视、娱乐创意等在内的多个行业。

以二次元 AI 创作社区产品狸谱为例,其产品负责人一休介绍,可灵 AI 为狸谱带来了创新突破。其 1.6 版本在人物运动流畅度、镜头移动等方面展现出卓越性能,助力狸谱成功接入「动态 LIVE」和「新春萌偶摇」两大功能。前者实现「图 - 影 - 音」快速创作,后者在春节期间引发 60 万用户转播。未来,双方将基于狸谱的优质内容数据与可灵的算法能力,打造动画模型,推动 AI 成为内容引擎,并共同孵化优质创作者,构建更活跃的创作生态,携手开启二次元内容产业的新篇章。

「可灵 AI 可全面融入剧集级创作流程」。可灵 AI 超级创作者、《新世界加载中》总导演、异类 Outliers 创始人陈翔宇在分享中介绍,AIGC 相较于实拍和动画,不仅是效率的提升,更是试错空间的革命性释放。

从剧本创作到内容发行,异类 Outliers 团队完成了一次完整的影像工业化创作流程,覆盖从美学表达到镜头结构,再到复杂动作场景与细节的全面呈现。「我们实践之后发现,可灵 AI 是一个能够稳定、大规模嵌入剧集创作流程的生成式协作大模型。」陈翔宇认为,在 AI 的辅助下,导演及编剧团队的大量内容创意也实现了更富有想象力的表达,「AIGC 也许是下一代内容结构的雏形」。

 

可灵 AI 超级创作者、《新世界加载中》总导演、异类 Outliers 创始人陈翔宇|图片来源:快手

为了进一步激发 AI 爱好者们的创作热情,快手副总裁、可灵 AI 负责人张迪还在发布会现场正式发起「可灵 AI NextGen 新影像创投计划」。该计划将加大对于 AIGC 创作者的扶持力度,通过千万资金投入、全球宣发、IP 打造和保障,以全资出品、联合出品和技术支持等灵活多样的合作方式,让 AI 好故事走向世界。同时,可灵 AI 面向全球创作者发出征集邀约,邀请用户共同打造全球首支用户共创 AI 创意短片,让创作者的灵感和创意登陆上海、香港、东京、巴黎、多伦多等世界多地广告大屏。

面向未来,盖坤表示,可灵 AI 将持续大力推动技术创新,用人与 AI 交互的全新语言,帮助用户实现复杂创意的精确表达,「我们的初心,是让每个人都能用 AI 讲出好的故事,我们也真切地希望这一天更快到来」。

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。