Trellis-3D资产生成-开源项目


“microsoft/TRELLIS”是一个用于 3D 资产生成的项目仓库。 - 项目概述:其核心是结构化 3D 潜在(SLAT)表示和校正流变压器,能根据文本或图像提示生成高质量 3D 资产,如辐射场、3D 高斯和网格等多种格式,提供了在 500K 多样物体的 3D 资产数据集上训练的多达 20 亿参数的预训练模型,在功能和性能上超越现有方法,并具备灵活输出格式选择和局部 3D 编辑能力。 - 主要内容 - 文件结构:包含 assets、dataset_toolkits 等文件夹及众多代码文件,如 app.py、example.py 等,各文件在不同时间有更新,涉及多图像条件处理、高斯导出等功能改进。 - 功能特性:生成的 3D 资产质量高、细节丰富;支持文本或图像输入,输出格式多样;可对生成资产进行灵活编辑。 - 更新与待办:2024 年 12 月 26 日发布 TRELLIS - 500K 数据集和工具包;已实现 TRELLIS - image 模型的多图像条件处理和高斯导出;待发布推理代码、TRELLIS - image - large 模型、数据集及工具包、TRELLIS - text 系列模型和训练代码。 - 安装指南:目前仅在 Linux 系统测试,需 NVIDIA GPU(至少 16GB 内存),CUDA toolkit(11.8 或 12.2 测试通过),推荐 Conda 管理依赖,Python 3.8 及以上。通过 git clone 仓库并执行 setup.sh 安装依赖,安装时需注意环境和 CUDA 版本设置等细节。 - 预训练模型:有 TRELLIS - image - large(1.2B 参数)等模型,托管在 Hugging Face,可从代码直接加载或本地加载。 - 使用示例:包括最小示例,如加载模型、输入图像、运行管道生成不同格式 3D 资产并渲染保存;还有基于 Gradio 的 app.py 提供的网络演示,需额外安装依赖后运行。 - 数据集与许可:提供 TRELLIS - 500K 数据集;模型和大部分代码遵循 MIT 许可,部分子模块有不同许可;使用相关工作需引用特定论文。

官网

github

paper