摘要:TripoAI 和 VAST AI Research 开源了 TripoSplat:从单张 2D 图片直接生成可变数量的 3D Gaussians。它真正重要的地方,不只是“图生 3D”,而是把质量、渲染成本和创作工作流的控制权交回给开发者。
一张图变成 3D 资产这件事,过去几年一直很热。
但大多数时候,它给人的感觉仍然像一个演示技术:
能生成。
能旋转。
能看。
但真要进入游戏、AR/VR、仿真、数字孪生或内容生产流水线,还会卡在几个老问题上:
细节不够稳定。
文件太重。
渲染成本不可控。
生成出来的东西更像“预览模型”,不像可以被认真接入资产管线的生产材料。
TripoAI 和 VAST AI Research 最近开源的 TripoSplat,真正值得看的地方就在这里。
它不是又一个“输入一张图,输出一个 3D 结果”的工具。
它更像是在回答一个更工程化的问题:
如果 AI 生成 3D 资产要进入真实工作流,模型能不能同时给出质量、速度、文件大小和渲染预算的控制权?
TripoSplat 的答案是:用 3D Gaussian Splatting 做资产表达,并且让 Gaussian 的数量可以按需求变化。
TripoSplat 到底是什么?
项目 README 里的定义很直接:
TripoSplat 可以把单张 2D 图片转换成高质量、可变数量的 3D Gaussians,由 TripoAI 开发,可用于资产创建、AR/VR、游戏开发、仿真环境等场景。
这句话里最重要的不是“单图转 3D”。
而是“可变数量的 3D Gaussians”。
传统 3D 生成模型经常会给你一个固定规格的输出。
无论输入对象是一个简单杯子,还是一台结构复杂的机器人,模型都倾向于用差不多的表达预算去生成。
这在 demo 里没问题。
但在真实生产里非常别扭。
一个背景道具,没必要塞太多细节。
一个主角资产,又不能因为预算固定而丢掉关键结构。
移动端、Web、VR 头显、游戏引擎、仿真系统,对资产复杂度的要求也完全不同。
TripoSplat 的核心卖点,就是你可以在推理阶段调整 Gaussian 数量,最高到 262,144 个,在质量和渲染成本之间做权衡。
这意味着同一张输入图,可以生成不同预算版本:
低预算版本适合背景物体、快速预览和轻量渲染。
高预算版本适合主视觉资产、展示级细节和复杂结构。
中间版本则可以作为 LOD,也就是多层级细节系统的一部分。
这比“生成一个固定 3D 文件”更接近工业工作流。
因为真实资产生产从来不是只问“能不能生成”,而是问:
这个资产要放在哪里?
谁来渲染?
要跑在什么设备上?
需要多高精度?
能不能批量生成不同质量档位?
TripoSplat 把这些问题提前放进了模型设计里。
为什么是 Gaussian Splatting?
过去我们讲 3D 资产,第一反应往往是 mesh:
顶点、面片、UV、材质、骨骼、贴图。
这套体系非常成熟,也仍然是游戏和工业软件里的主干。
但 AI 生成 3D 时,mesh 并不总是最自然的中间表达。
3D Gaussian Splatting 的思路不一样。
它不是先生成一个干净的多边形外壳,而是用大量带有位置、尺度、方向、颜色和透明度的高斯粒子来表达物体或场景。
渲染时,这些高斯点会被投影到屏幕上,形成连续的视觉效果。
它的优势很明显:
渲染可以非常快。
视觉细节可以很丰富。
从图像监督中学习 3D 表达比较自然。
对 AI 模型来说,它比传统 mesh 更容易作为生成对象。
但问题也很明显:
如果高斯点分布不聪明,就会浪费。
简单区域塞太多点,文件变重。
复杂区域点不够,细节又保不住。
所以 TripoSplat 真正解决的,不是“用不用 Gaussian Splatting”。
而是“高斯点应该长在哪里,长多少”。
DeG:让模型自己学会把细节放到该放的地方
TripoSplat 背后的论文题目是 Generative 3D Gaussians with Learned Density Control,2026 年 5 月 8 日提交到 arXiv,论文里提出的核心表示叫 Density-Sampled Gaussians,简称 DeG。
它的想法可以用一句话概括:
不要让模型直接死板地预测一组固定位置的高斯点,而是让高斯中心从一个可学习的 3D 密度函数里采样出来。
这个密度函数被定义在 octree,也就是八叉树结构上。
八叉树本身就适合表达 3D 空间的层级细节:
哪里复杂,哪里可以分得更细。
哪里简单,哪里可以保持粗略。
TripoSplat 的聪明之处是,它把这种空间密度控制放进了生成模型里。
模型会在渲染监督下学习:
哪些地方对画面误差贡献更大。
哪些地方需要更多 Gaussian。
哪些地方已经拟合得足够好,可以少放点。
论文把这件事做成了一个可微的密度控制框架,用一种类似策略梯度的思路,让模型知道某个高斯点的存在到底对降低渲染误差有没有帮助。
通俗讲,就是模型不再平均撒点。
它会把更多预算投到轮廓、结构转折、纹理复杂、视觉贡献大的地方。
这很关键。
因为生成式 3D 最怕的不是细节少,而是预算用错地方。
该清楚的地方糊了。
该轻量的地方堆了。
最后视觉质量上不去,渲染成本还下不来。
DeG 的价值,就是让模型学会“钱花在刀刃上”。
可变预算,才是生产级 3D 生成的关键
TripoSplat 官方技术博客里提到,它可以在相同 Gaussian 数量下达到更高视觉质量,也可以在接近 TRELLIS 这类结构对齐方法质量的同时,用更少的粒子。
官方还做了一个用户研究:用 94 张不同风格和几何复杂度的输入图,收集 32 名参与者的 399 次两两偏好选择,计算 Elo 评分。
结果里,TripoSplat 的 Elo 为 1137,高于 TRELLIS、TRELLIS.2、UniLat3D 和 Hunyuan3D 2.1 等对比方法。
当然,所有这类官方评测都要带着工程判断看。
Elo 偏好能说明视觉观感优势,但不等于它在所有生产场景都无条件胜出。
真正更值得重视的是另一个能力:
推理时的预算控制。
开发者可以按场景指定 Gaussian 数量。
这件事一旦进入内容管线,就会产生很实际的价值。
做电商 3D 预览,可以优先考虑加载速度。
做游戏场景背景,可以把远处资产压到低预算。
做 AR 展示,可以按设备性能切不同版本。
做主角道具或工业演示,可以给高预算保细节。
做仿真环境,可以先快速生成粗版本,再逐步提高关键对象精度。
这才是 TripoSplat 比普通图生 3D demo 更值得关注的地方。
它不是只追求“生成得像”。
它开始把生成结果放进后续渲染、部署和资产管理的问题里。
开源方式也很克制
这次 TripoSplat 的另一个亮点,是开源方式比较干净。
GitHub README 写得很明确:
代码和模型权重都采用 MIT License。
核心代码主要是 triposplat.py 和 model.py 两个文件,总量大约 2000 行。
依赖也刻意做得很轻,不依赖 transformers、diffusers 这类容易引发版本冲突的大框架,主要基于 PyTorch 生态。
这对研究者和工程团队都很重要。
很多开源 3D 项目看起来效果不错,但一落地就陷入环境配置地狱:
CUDA 版本不匹配。
PyTorch 版本不匹配。
依赖库互相打架。
模型权重散落在不同目录。
推理脚本和论文代码对不上。
TripoSplat 至少在设计目标上避开了这种复杂性。
README 里也给出了很直接的使用方式:
从 Hugging Face 或 ModelScope 下载权重到 ckpts 目录。
安装 numpy、safetensors、pillow、tqdm 等基础依赖。
运行 run_example.py。
生成的 .ply 或 .splat 文件,可以用 SparkJS、SuperSplat 等 3D Gaussian viewer 查看。
它还提供 Gradio demo。
更重要的是,官方 README 里已经写了 ComfyUI workflow 支持。
ComfyUI 官方博客也在 2026 年 6 月发布文章,介绍把 3D Gaussian Splats 原生支持带进 ComfyUI,并使用 TripoSplat 做单图到 3D Gaussian 的工作流。
这意味着 TripoSplat 不只是研究者可以跑。
它也开始进入创作者熟悉的节点式工作流。
对 3D AIGC 来说,这一步很重要。
因为真正的内容生产者不一定愿意写 Python 脚本。
他们需要的是:
上传一张图。
调几个参数。
看预览。
导出资产。
继续接到材质、动画、后处理、游戏引擎或 Web 展示里。
ComfyUI 支持,本质上是在降低 3D 生成的工作流门槛。
它对 AI 3D 产业意味着什么?
我觉得 TripoSplat 的意义,可以分三层看。
第一层,是技术层。
它把生成式 3D Gaussian 的密度控制问题做得更系统。
过去很多方法要么固定网格,要么固定数组,要么在结构表达和生成稳定性之间反复折中。
TripoSplat 用 DeG 和 VecSeq 这类机制,把非结构化高斯点、可变分辨率解码和生成模型训练稳定性接了起来。
第二层,是工程层。
它让单图到 3D Gaussian 的输出变得更可控。
可控预算这件事,比单纯刷榜更贴近开发者需求。
真正做产品时,你不可能只生成一个“最好看但最重”的版本。
你要的是一套资产分发策略。
第三层,是生态层。
MIT 开源、轻依赖、Hugging Face 权重、ModelScope 下载、ComfyUI 支持,这几个组合放在一起,说明它不是封闭平台里的一个功能按钮,而是一个可以被拆进别人工作流里的组件。
这对 3D 生成很关键。
因为 3D 资产生产天然是链式流程:
建模。
纹理。
材质。
拓扑。
压缩。
导入引擎。
交互展示。
性能优化。
没有任何单点模型能吞掉整条链。
真正有生命力的模型,必须能被嵌进已有工具链。
TripoSplat 在这方面比很多“只能在官网里点一下”的 3D 生成产品更像基础设施。
但别误解:它还不是万能 3D 资产工厂
也要冷静一点。
TripoSplat 生成的是 3D Gaussians,不是传统意义上的干净 mesh。
如果你的目标是游戏角色绑定、精细 UV、物理碰撞、制造级 CAD、结构仿真,它仍然不能直接替代传统资产流程。
Gaussian Splatting 更擅长视觉呈现。
它非常适合:
快速 3D 预览。
Web 互动展示。
AR/VR 轻量资产。
场景可视化。
AI 原型。
视觉型数字资产。
但如果要进入严肃工程设计、可编辑拓扑、加工制造、仿真边界条件,后面仍然需要 mesh 重建、拓扑清理、语义分层和工程约束。
所以 TripoSplat 最现实的定位,不是“替代所有 3D 建模师”。
而是让 3D 资产的第一步变得更快、更开放、更可控。
过去你可能需要从草图、参考图、建模软件开始。
现在你可以从一张图直接得到可渲染的 3D Gaussian 版本,然后再决定是否进入后续编辑和资产加工。
这对游戏原型、营销展示、虚拟展厅、数字孪生预览、机器人仿真环境、AR 商品展示,都会有很直接的价值。
AI 3D 的竞争点正在从“能生成”转向“能接入”
TripoSplat 让我更确定一个判断:
AI 3D 的下一阶段,不会只比谁生成得更炫。
而是比谁更容易接入生产系统。
能不能开源。
能不能本地跑。
能不能调预算。
能不能导出通用格式。
能不能进 ComfyUI。
能不能被 Web viewer 直接加载。
能不能在不同设备之间做质量档位。
能不能和后续 mesh、材质、动画、仿真流程衔接。
这些问题听起来没那么性感,却决定一个模型能不能从 demo 变成工具。
TripoSplat 的有趣之处,正是它把 3D 生成从“看起来像魔法”往“可以被工程化管理”推了一步。
这也是我认为它值得关注的原因。
一张图生成 3D,已经不新鲜了。
真正新鲜的是:
生成之后,你还能控制它的复杂度、成本和接入方式。
这才是 AI 资产生产走向真实世界的开始。
参考资料
- GitHub:VAST-AI-Research/TripoSplat,https://github.com/VAST-AI-Research/TripoSplat
- arXiv:Generative 3D Gaussians with Learned Density Control,https://arxiv.org/abs/2605.16355
- Hugging Face:VAST-AI/TripoSplat,https://huggingface.co/VAST-AI/TripoSplat
- TripoAI Research:TripoSplat,https://www.tripo3d.ai/research/triposplat
- ComfyUI Blog:Bringing Native Support for 3D Gaussian Splats into ComfyUI with TripoSplat,https://blog.comfy.org/p/bringing-native-support-for-3d-gaussian