天工一刻 | 一文看懂 3D 大模型

摘要

3D 大模型,正在成为下一个风口。自 2023 年年底以来,一大批 AI 3D 模型生成相关技术取得突破,Meta、Adobe、Stability AI,以及 VAST(Tripo AI)、sudo AI、Meshy AI、Rodin 等海内外玩家动作频频。

3D 大模型,正在成为下一个风口。自 2023 年年底以来,一大批 AI 3D 模型生成相关技术取得突破,Meta、Adobe、Stability AI,以及 VAST(Tripo AI)、sudo AI、Meshy AI、Rodin 等海内外玩家动作频频。

今年 3 月以来,arXiv 上的 3D 生成(3D Generation)论文数量更是从 200+篇/月飙升至 400+篇/月,几乎飙升 100%——这背后是 3D 模型多项核心技术取得突破,大量新兴研究涌现。

与此同时,此前百花齐放的技术路径也在逐渐形成产业共识,步入收敛。例如,在 GAN、VAE、Diffusion 等不同生成方案中,以 Diffusion Transformer(DiT)为代表的大模型路径脱颖而出,逐渐成为当前的研究主流方案。不过,当前,在 3D 生成技术路径上,仍然存在「2D 升 3D」「纯原生 3D」「混合 3D」的不同技术流派。在过去半年甚至一年多的时间里,AI 3D 生成技术发展堪称突飞猛进:3D 模型生成的质量更好、速度更快——部分情况下甚至能把原来以小时为单位的 3D 模型生成时间压缩到秒级,带来惊人的效率提升。3D 模型的 GPT 时刻,即将来临。

传统 3D 模型设计:流程长、环节复杂、价格贵

大多数人对 3D 模型并不陌生。最常见的是各类游戏、影视、动漫、CG 中的 3D 人物与 3D 物品/环境。当前,最精致的 3D 模型已经足以高度媲美真人。

(游戏《黑神话·悟空》)

此外,在 VR、元宇宙、数字人等科技前沿赛道,3D 模型也有着广泛的应用。

(央视新闻数字手语主持人)

对于处在三维空间中的人类来说,3D 内容毫无疑问能够提供比文字、图片、视频更沉浸、更逼真的内容体验。随着 3D 技术的发展,未来,人们甚至可以像《黑客帝国》《头号玩家》一样,创造出一个三维立体的、足以以假乱真的虚拟世界——元宇宙。但正如文字-图片-视频-3D 所承载的信息量呈指数上升,3D 内容生产的复杂度也在急剧增加。以传统 3D 模型的生成为例,其制作环节可分为:概念设计/原画、3D 建模、UV 拆分、烘焙贴图、绘制材质、动画制作、渲染等诸多环节。

根据模型的复杂度与精细度不同,一个 3D 模型的生产周期可能在数小时、乃至数天以上,成本范围在 40 美元~650 美元之间。流程长、环节多、程序复杂、价格昂贵,同时普遍依赖专业人员手动操作,一道道关卡将 3D 模型的制作门槛不断推高。值得注意的是,当前的 3D 大模型远远做不到替代 3D 设计师,其生成的质量并未达到「开箱可用」的商业级别,而更像是 Adobe、数位板这类帮助设计师减少重复劳动,提高生产力的工具。3D 大模型想要解决的,是 3D 制作流程中最耗费时间精力、最重复劳动的环节——建模与贴图,通过 AI 技术将 3D 设计师们从重复劳动中解放出来,更专注地投入到艺术创作当中。

流派众多,百花齐放

评价一个 3D 模型生成效果,有以下几个核心指标:

1、几何模型的形状准确度;

2、纹理贴图质量效果与「几何-纹理」一致性;

3、3D 模型生成速度;

3D 建模相关研究最早可以追溯到 20 世纪 60 年代末的线框模型(Wire Frame Model),此后已经历数十年发展。

此前,3D 生成技术流派众多,在各种细分方向百花齐放。

按照生成方式分类,主流 3D 生成的派别包括文生 3D(text-to-3D)、图生 3D(image-to-3D);

按照生成路径划分,根据论文《A Comprehensive Survey on 3D Content Generation》的分类,可以将 3D 大模型生成分为:2D 升 3D(2D prior-based 3D generative)、纯原生 3D(3D native generative)、混合 3D(hybrid 3D generative)三大派别;

根据 3D 建模方案划分,可以分为:点云(Point Cloud)、网格(Mesh)、深度(Depth)、神经场(Neural Fields)、混合(Hybrid)等多种方案;

(3D 生成模型技术发展路线,数据截止至 2023 年 8 月;来自论文《3D Generative Models: A Survey》)

根据 3D 生成模型划分,则包括 GAN、VAE、Autoregressive、Diffusion 等模型。

目前,3D 大模型业内最新「新鲜」的研究成果来自 Meta。2024 年 6 月 25 日,Meta 发布了其最新 3D 大模型研究——Meta 3D Gen。这是一款文生 3D(text-to-3D)大模型,其能够在数十秒(<1 分钟)内生成几何形状准确、纹理材质优秀的 3D 模型。准确来说,Meta 3DGen 是一套组合模型,其几何形状与贴图纹理是两个步骤(2 Stages),分别由 Meta 3D AssetGen、Meta 3D TextureGen 两个模型生成。

(Meta 3D Gen 生成流程,来自论文《Meta 3D Gen》)这一技术路径将 3D 几何生成与 3D 纹理贴图作为两个步骤分别处理,其优势在于几何形状质量更好,而缺点在于会影响模型生成速度与几何纹理一致性。目前,业内也有不少 3D 大模型方案选择 1 Stage 一步到位的端到端生成方案,几何与纹理同步输出生成,这一技术路径的优势在于速度与纹理效果,但缺点在于几何形状质量会受到纹理影响——如一张带有波点图案的水平桌面,可能会被 3D 模型识别为凹凸不平。这两条技术路径各有千秋,目前业内尚未达成共识。 

3D 大模型的 三大主流路径

当前,3D 大模型研究的最大挑战,不是算法、甚至也不是算力——而是数据。训练数据短缺问题在文本、图像、视频大模型领域都存在,但在 3D 大模型领域格外严重。昆仑万维董事长兼 CEO 方汉在接受媒体采访时曾表示,在 3D 模型生成赛道,全世界的数据只有 1000 多万,优质的数据只有 200 万。3D 数据资源少、清洗难度高、高质量 3D 数据资源难以获取……种种困难为 3D 大模型的打造形成了诸多限制。

因此,早期 3D 生成模型的研究思路以「2D 升 3D」为主——先生成多视角的 2D 图像,然后根据该图像生成 3D 模型。

(1)2D 升 3D

这一思路的代表项目为 2022 年 9 月底谷歌推出的 DreamFusion 项目《DreamFusion: Text-to-3D using 2D Diffusion》。与 3D 模型资源相比,文生 2D 图(text-to-image)领域拥有数十亿计的海量资源,因而谷歌 DreamFusion 项目采用了「2D 升 3D」的思路,先使用一个预训练 2D 扩散模型基于文本生成一张二维图像,然后引入 Score Distillation Sampling(SDS)基于概率密度蒸馏的损失函数,生成高质量和复杂的三维结果。这一方法的亮点在于无需任何 3D 数据预训练即可生成 3D 模型,开创了 SDS 路径的先河,也在随后催生出大量「2D 升 3D」的相关研究。

(2D 升 3D 路径代表研究,来自论文《A Comprehensive Survey on 3D Content Generation》)

但与此同时,以 SDS 为代表 2D 升 3D 路线也存在生成速度慢、生成质量不可控等问题,其中最受关注的是由此带来的「多头」问题(Janus problem)——在生成的 3D 模型中,有时会出现两个甚至多个人物/动物头部,高度影响模型的合理性。因而,近年间,原生 3D 又逐渐成为研究主流。准确划分起来,原生 3D 又可以分为「纯原生」3D 生成与「混合」3D 生成两条路径。

(2)「纯原生」3D

「纯原生」3D 生成方案与通用大模型思路类似,采用端到端方案,首先使用海量 3D 数据集训练大模型,然后以前馈(feed-forward)方案生成 3D 模型。

(「纯原生」3D 大模型路径代表研究,来自论文《A Comprehensive Survey on 3D Content Generation》)

这一路径的代表玩家毫无疑问有 OpenAI——Scaling Law 与大模型领域的坚定支持者。2022 年 12 月,OpenAI 发布论文《Point-E: A System for Generating 3D Point Clouds from Complex Prompts》,并开源了文生 3D 项目 Point-E;2023 年 5 月,OpenAI 则进一步发布论文《Shap-E: Generating Conditional 3D Implicit Functions》,开源了升级版模型 Shap-E。

(OpenAI 于 2022 年底发布的 Point-E 大模型 3D 生成效果 demo)

与文本大模型不同,在 3D 大模型领域,OpenAI 并没有显著的领先优势。3D 原生路径的真正代表玩家为 Adobe 于 2023 年 11 月推出的 LRM 项目《LRM: Large Reconstruction Model for Single Image to 3D》。LRM 是图生 3D 的代表模型,其拥有 5 亿参数,能够在 5 秒钟内实现图片-3D 模型的生成。LRM 采用高度可扩展的 transformer-based 架构,其突破性地将图生 3D 任务转换成了「将图片翻译为 3D 模型」的任务,并在 100+万公开 3D 数据集上进行了训练。Adobe 的 LRM 项目因 3D 模型的生成质量与生成速度都有着极大提高,其发布后在学术与产业界引起了大量关注,并也从此催生了一大批相关研究。不过,高质量 3D 数据稀缺依旧困扰着「纯原生」3D 大模型的发展。因而,近年间,「混合」3D 生成技术路径悄然兴起。

(3)「混合」3D

混合 3D 是当下 3D 大模型最前沿的技术方向,也是昆仑万维 3D 大模型团队专攻的技术方向。

由于纯原生 3D 路径训练数据不足,而 2D 升 3D 路径只能提取有限的 3D 几何知识。因此,在最新的混合 3D 路径中,大模型研发人员将 3D 信息注入预训练的 2D 模型,例如,通过多视角图像微调 Stable Diffusion 模型,使其能够生成稳定、一致的 3D 模型。

以困扰「2D 升 3D」路径的「多头」问题(Janus problem)为例,通过将多视角 Stable Diffusion 与大规模 3D 重建模型相结合,混合 3D 能够有效解决模型 3D 几何生成质量问题,解决多头问题并提升模型生成速度。

(「混合」3D 大模型路径代表研究,来自论文《A Comprehensive Survey on 3D Content Generation》)

除了昆仑万维外,这前沿一思路的代表项目包括哥伦比亚大学的 Zero123、加州大学与 Adobe 等的 One-2-3-45、香港大学与腾讯游戏等的 SyncDreamer、香港大学与清华大学等的 Wonder3D、Adobe 的 Instant3D 等等。

这一技术路径既利用了目前丰富的 2D 图像资源,规避了 3D 数据不足问题,又一定程度上突破了 2D 升 3D 带来的几何等多项问题。

当前,昆仑万维 3D 大模型团队坚持自研混合 3D 技术路线,在 3D 大模型两大核心领域(3D 几何生成与 3D 纹理生成)均达到产业最领先水平。相较于同类产品,昆仑万维 3D 大模型有着极强的模型优势与数据壁垒,在 3D 大模型领域拥有三大产品技术亮点:

(1)模型生成速度更快;

(2)模型布线更加规则,方便接入游戏引擎;

(3)模型纹理更加可控。

例如,在 3D 纹理生成领域,今年 3 月,昆仑万维联合北京大学、浙江大学、南洋理工大学共同发布论文《InTeX: Interactive Text-to-texture Synthesis via Unified Depth-aware Inpainting》,该论文是 3D 大模型纹理生成领域的最前沿技术成果之一,其创造性地将深度信息(Depth)融入模型纹理生成环节,使得 3D 模型的纹理生成效果更稳定、更自然;项目的另一大亮点在于模型的可交互性,普通用户只需要通过简单的文字指令,就能实时改变 3D 模型的局部颜色、纹理,大幅降低 3D 大模型纹理生成的工业应用门槛。

(昆仑万维 2024 年 3 月发布论文《InTeX: Interactive Text-to-texture Synthesis via Unified Depth-aware Inpainting》)

InTeX 是一款可交互的、文生纹理(Text-to-Texture)大模型,用户可以通过简单的文字指令实时改变 3D 模型的局部纹理。

该模型通过将深度信息(Depth)与 inpainting 纹理贴图相结合,解决了目前常见的预训练深度 Diffusion + inpainting 模型方案存在几何-纹理不一致、不可控问题,提高了模型生成速度,并能够允许用户实现特定区域的重新绘制和精确的纹理编辑。

值得一提的是,在最新的 Meta 3D Gen 纹理生成研究中,引用了昆仑万维团队《InTeX: Interactive Text-to-texture Synthesis via Unified Depth-aware Inpainting》的研究内容。

结语

在过去半年甚至一年多的时间里,AI 3D 生成技术发展堪称突飞猛进:3D 模型生成的质量更好、速度更快——部分情况下甚至能把原来以小时单位的 3D 模型生成时间压缩到秒级,带来惊人的效率提升。

与此同时,3D 大模型目前仍然面临着训练数据不足、模型几何准确性不够、精细度不足、模型几何-纹理一致性不足等多项挑战,暂时无法满足 4A 大作、科幻电影中高度精细化的 3D 模型生成需求。

不过在大量中小型场景中,已经能够满足需求。在影视、游戏行业中,3D 大模型能够快速生成 3D 原型,帮助设计师们实时具现化灵感,提高工作效率。而在工业设计、制造等场景中,3D 大模型还可以用于产品原型设计和仿真测试,减少研发成本和时间。此外,3D 大模型在 AI 视频、元宇宙,甚至具身智能领域都有着广阔的应用空间。随着相关技术的快速发展,3D 大模型即将迎来更多突破性进展。

参考资料:

1.3D Generative Models: A Survey

2.A Comprehensive Survey on 3D Content Generation

3.Interactive Text-to-texture Synthesis via Unified Depth-aware Inpainting

4.LRM: Large Reconstruction Model for Single Image to 3D

5.Meta 3D AssetGen: Text-to-Mesh Generation with High-Quality Geometry, Texture, and PBR Materials

6.Meta 3D Gen

7.Meta 3D TextureGen: Fast and Consistent Texture Generation for 3D Objects

8.Point-E: A System for Generating 3D Point Clouds from Complex Prompts

9.Shap-E: Generating Conditional 3D Implicit 

来源:互联网

 

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。