您提供的链接指向的是GitHub上的一个项目,名为TANGO,这是一个官方实现的论文项目,论文标题为“TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio-Motion Embedding and Diffusion Interpolation”。以下是该项目的一些关键信息:
- 项目简介:
-
TANGO是一个用于口型同步手势视频重演的项目,它结合了层次化的音频-动作嵌入和扩散插值技术。
-
新闻更新:
-
2024年10月,TANGO项目在Hugging Face空间上线,代码用于创建手势图现已可用。
-
结果视频:
-
项目页面提供了一些结果视频的展示,包括动态图片。
-
演示视频:
-
项目在YouTube上有演示视频。
-
发布计划:
-
计划发布AuMoClip和ACInterp的训练代码、ACInterp的推理代码、处理过的YouTube商业视频数据、创建手势图的脚本以及带有AuMoClip和预训练权重的推理代码。
-
安装指南:
-
提供了克隆仓库和构建环境的指令,推荐使用Python版本3.9.20和CUDA版本11.8。
-
训练和推理:
-
提供了运行推理脚本的命令,生成两个8秒视频大约需要3分钟。可以通过直接查看视频或通过Blender使用EMAGE插件检查结果的.npz文件。
-
创建自定义角色的图:
-
提供了为自定义角色创建图的指南。
-
版权信息:
- 项目感谢开源项目Wav2Lip、FiLM、SMPLerX,并提到了之前的工作,包括Co-Speech 3D motion Generation DisCo、BEAT、EMAGE。
- 该项目仅用于研究或教育目的,不可用于商业用途或重新分发。脚本仅在署名-非商业性使用4.0国际(CC BY-NC 4.0)许可下可用。
TANGO项目是一个有趣的研究项目,它结合了音频和动作数据,用于生成同步的手势视频。如果您对这个项目感兴趣,可以访问GitHub页面以获取更多详细信息和代码。