一张图生成 3D 资产,TripoSplat 把高斯泼溅带进开源工作流

摘要:TripoAI 和 VAST AI Research 开源了 TripoSplat:从单张 2D 图片直接生成可变数量的 3D Gaussians。它真正重要的地方,不只是“图生 3D”,而是把质量、渲染成本和创作工作流的控制权交回给开发者。

一张图变成 3D 资产这件事,过去几年一直很热。

但大多数时候,它给人的感觉仍然像一个演示技术:

能生成。

能旋转。

能看。

但真要进入游戏、AR/VR、仿真、数字孪生或内容生产流水线,还会卡在几个老问题上:

细节不够稳定。

文件太重。

渲染成本不可控。

生成出来的东西更像“预览模型”,不像可以被认真接入资产管线的生产材料。

TripoAI 和 VAST AI Research 最近开源的 TripoSplat,真正值得看的地方就在这里。

它不是又一个“输入一张图,输出一个 3D 结果”的工具。

它更像是在回答一个更工程化的问题:

如果 AI 生成 3D 资产要进入真实工作流,模型能不能同时给出质量、速度、文件大小和渲染预算的控制权?

TripoSplat 的答案是:用 3D Gaussian Splatting 做资产表达,并且让 Gaussian 的数量可以按需求变化。

TripoSplat 到底是什么?

项目 README 里的定义很直接:

TripoSplat 可以把单张 2D 图片转换成高质量、可变数量的 3D Gaussians,由 TripoAI 开发,可用于资产创建、AR/VR、游戏开发、仿真环境等场景。

这句话里最重要的不是“单图转 3D”。

而是“可变数量的 3D Gaussians”。

传统 3D 生成模型经常会给你一个固定规格的输出。

无论输入对象是一个简单杯子,还是一台结构复杂的机器人,模型都倾向于用差不多的表达预算去生成。

这在 demo 里没问题。

但在真实生产里非常别扭。

一个背景道具,没必要塞太多细节。

一个主角资产,又不能因为预算固定而丢掉关键结构。

移动端、Web、VR 头显、游戏引擎、仿真系统,对资产复杂度的要求也完全不同。

TripoSplat 的核心卖点,就是你可以在推理阶段调整 Gaussian 数量,最高到 262,144 个,在质量和渲染成本之间做权衡。

这意味着同一张输入图,可以生成不同预算版本:

低预算版本适合背景物体、快速预览和轻量渲染。

高预算版本适合主视觉资产、展示级细节和复杂结构。

中间版本则可以作为 LOD,也就是多层级细节系统的一部分。

这比“生成一个固定 3D 文件”更接近工业工作流。

因为真实资产生产从来不是只问“能不能生成”,而是问:

这个资产要放在哪里?

谁来渲染?

要跑在什么设备上?

需要多高精度?

能不能批量生成不同质量档位?

TripoSplat 把这些问题提前放进了模型设计里。

为什么是 Gaussian Splatting?

过去我们讲 3D 资产,第一反应往往是 mesh:

顶点、面片、UV、材质、骨骼、贴图。

这套体系非常成熟,也仍然是游戏和工业软件里的主干。

但 AI 生成 3D 时,mesh 并不总是最自然的中间表达。

3D Gaussian Splatting 的思路不一样。

它不是先生成一个干净的多边形外壳,而是用大量带有位置、尺度、方向、颜色和透明度的高斯粒子来表达物体或场景。

渲染时,这些高斯点会被投影到屏幕上,形成连续的视觉效果。

它的优势很明显:

渲染可以非常快。

视觉细节可以很丰富。

从图像监督中学习 3D 表达比较自然。

对 AI 模型来说,它比传统 mesh 更容易作为生成对象。

但问题也很明显:

如果高斯点分布不聪明,就会浪费。

简单区域塞太多点,文件变重。

复杂区域点不够,细节又保不住。

所以 TripoSplat 真正解决的,不是“用不用 Gaussian Splatting”。

而是“高斯点应该长在哪里,长多少”。

DeG:让模型自己学会把细节放到该放的地方

TripoSplat 背后的论文题目是 Generative 3D Gaussians with Learned Density Control,2026 年 5 月 8 日提交到 arXiv,论文里提出的核心表示叫 Density-Sampled Gaussians,简称 DeG。

它的想法可以用一句话概括:

不要让模型直接死板地预测一组固定位置的高斯点,而是让高斯中心从一个可学习的 3D 密度函数里采样出来。

这个密度函数被定义在 octree,也就是八叉树结构上。

八叉树本身就适合表达 3D 空间的层级细节:

哪里复杂,哪里可以分得更细。

哪里简单,哪里可以保持粗略。

TripoSplat 的聪明之处是,它把这种空间密度控制放进了生成模型里。

模型会在渲染监督下学习:

哪些地方对画面误差贡献更大。

哪些地方需要更多 Gaussian。

哪些地方已经拟合得足够好,可以少放点。

论文把这件事做成了一个可微的密度控制框架,用一种类似策略梯度的思路,让模型知道某个高斯点的存在到底对降低渲染误差有没有帮助。

通俗讲,就是模型不再平均撒点。

它会把更多预算投到轮廓、结构转折、纹理复杂、视觉贡献大的地方。

这很关键。

因为生成式 3D 最怕的不是细节少,而是预算用错地方。

该清楚的地方糊了。

该轻量的地方堆了。

最后视觉质量上不去,渲染成本还下不来。

DeG 的价值,就是让模型学会“钱花在刀刃上”。

可变预算,才是生产级 3D 生成的关键

TripoSplat 官方技术博客里提到,它可以在相同 Gaussian 数量下达到更高视觉质量,也可以在接近 TRELLIS 这类结构对齐方法质量的同时,用更少的粒子。

官方还做了一个用户研究:用 94 张不同风格和几何复杂度的输入图,收集 32 名参与者的 399 次两两偏好选择,计算 Elo 评分。

结果里,TripoSplat 的 Elo 为 1137,高于 TRELLIS、TRELLIS.2、UniLat3D 和 Hunyuan3D 2.1 等对比方法。

当然,所有这类官方评测都要带着工程判断看。

Elo 偏好能说明视觉观感优势,但不等于它在所有生产场景都无条件胜出。

真正更值得重视的是另一个能力:

推理时的预算控制。

开发者可以按场景指定 Gaussian 数量。

这件事一旦进入内容管线,就会产生很实际的价值。

做电商 3D 预览,可以优先考虑加载速度。

做游戏场景背景,可以把远处资产压到低预算。

做 AR 展示,可以按设备性能切不同版本。

做主角道具或工业演示,可以给高预算保细节。

做仿真环境,可以先快速生成粗版本,再逐步提高关键对象精度。

这才是 TripoSplat 比普通图生 3D demo 更值得关注的地方。

它不是只追求“生成得像”。

它开始把生成结果放进后续渲染、部署和资产管理的问题里。

开源方式也很克制

这次 TripoSplat 的另一个亮点,是开源方式比较干净。

GitHub README 写得很明确:

代码和模型权重都采用 MIT License。

核心代码主要是 triposplat.pymodel.py 两个文件,总量大约 2000 行。

依赖也刻意做得很轻,不依赖 transformers、diffusers 这类容易引发版本冲突的大框架,主要基于 PyTorch 生态。

这对研究者和工程团队都很重要。

很多开源 3D 项目看起来效果不错,但一落地就陷入环境配置地狱:

CUDA 版本不匹配。

PyTorch 版本不匹配。

依赖库互相打架。

模型权重散落在不同目录。

推理脚本和论文代码对不上。

TripoSplat 至少在设计目标上避开了这种复杂性。

README 里也给出了很直接的使用方式:

从 Hugging Face 或 ModelScope 下载权重到 ckpts 目录。

安装 numpy、safetensors、pillow、tqdm 等基础依赖。

运行 run_example.py。

生成的 .ply 或 .splat 文件,可以用 SparkJS、SuperSplat 等 3D Gaussian viewer 查看。

它还提供 Gradio demo。

更重要的是,官方 README 里已经写了 ComfyUI workflow 支持。

ComfyUI 官方博客也在 2026 年 6 月发布文章,介绍把 3D Gaussian Splats 原生支持带进 ComfyUI,并使用 TripoSplat 做单图到 3D Gaussian 的工作流。

这意味着 TripoSplat 不只是研究者可以跑。

它也开始进入创作者熟悉的节点式工作流。

对 3D AIGC 来说,这一步很重要。

因为真正的内容生产者不一定愿意写 Python 脚本。

他们需要的是:

上传一张图。

调几个参数。

看预览。

导出资产。

继续接到材质、动画、后处理、游戏引擎或 Web 展示里。

ComfyUI 支持,本质上是在降低 3D 生成的工作流门槛。

它对 AI 3D 产业意味着什么?

我觉得 TripoSplat 的意义,可以分三层看。

第一层,是技术层。

它把生成式 3D Gaussian 的密度控制问题做得更系统。

过去很多方法要么固定网格,要么固定数组,要么在结构表达和生成稳定性之间反复折中。

TripoSplat 用 DeG 和 VecSeq 这类机制,把非结构化高斯点、可变分辨率解码和生成模型训练稳定性接了起来。

第二层,是工程层。

它让单图到 3D Gaussian 的输出变得更可控。

可控预算这件事,比单纯刷榜更贴近开发者需求。

真正做产品时,你不可能只生成一个“最好看但最重”的版本。

你要的是一套资产分发策略。

第三层,是生态层。

MIT 开源、轻依赖、Hugging Face 权重、ModelScope 下载、ComfyUI 支持,这几个组合放在一起,说明它不是封闭平台里的一个功能按钮,而是一个可以被拆进别人工作流里的组件。

这对 3D 生成很关键。

因为 3D 资产生产天然是链式流程:

建模。

纹理。

材质。

拓扑。

压缩。

导入引擎。

交互展示。

性能优化。

没有任何单点模型能吞掉整条链。

真正有生命力的模型,必须能被嵌进已有工具链。

TripoSplat 在这方面比很多“只能在官网里点一下”的 3D 生成产品更像基础设施。

但别误解:它还不是万能 3D 资产工厂

也要冷静一点。

TripoSplat 生成的是 3D Gaussians,不是传统意义上的干净 mesh。

如果你的目标是游戏角色绑定、精细 UV、物理碰撞、制造级 CAD、结构仿真,它仍然不能直接替代传统资产流程。

Gaussian Splatting 更擅长视觉呈现。

它非常适合:

快速 3D 预览。

Web 互动展示。

AR/VR 轻量资产。

场景可视化。

AI 原型。

视觉型数字资产。

但如果要进入严肃工程设计、可编辑拓扑、加工制造、仿真边界条件,后面仍然需要 mesh 重建、拓扑清理、语义分层和工程约束。

所以 TripoSplat 最现实的定位,不是“替代所有 3D 建模师”。

而是让 3D 资产的第一步变得更快、更开放、更可控。

过去你可能需要从草图、参考图、建模软件开始。

现在你可以从一张图直接得到可渲染的 3D Gaussian 版本,然后再决定是否进入后续编辑和资产加工。

这对游戏原型、营销展示、虚拟展厅、数字孪生预览、机器人仿真环境、AR 商品展示,都会有很直接的价值。

AI 3D 的竞争点正在从“能生成”转向“能接入”

TripoSplat 让我更确定一个判断:

AI 3D 的下一阶段,不会只比谁生成得更炫。

而是比谁更容易接入生产系统。

能不能开源。

能不能本地跑。

能不能调预算。

能不能导出通用格式。

能不能进 ComfyUI。

能不能被 Web viewer 直接加载。

能不能在不同设备之间做质量档位。

能不能和后续 mesh、材质、动画、仿真流程衔接。

这些问题听起来没那么性感,却决定一个模型能不能从 demo 变成工具。

TripoSplat 的有趣之处,正是它把 3D 生成从“看起来像魔法”往“可以被工程化管理”推了一步。

这也是我认为它值得关注的原因。

一张图生成 3D,已经不新鲜了。

真正新鲜的是:

生成之后,你还能控制它的复杂度、成本和接入方式。

这才是 AI 资产生产走向真实世界的开始。

参考资料

分享到