TANGO-口型同步手势视频重演的项目


您提供的链接指向的是GitHub上的一个项目,名为TANGO,这是一个官方实现的论文项目,论文标题为“TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio-Motion Embedding and Diffusion Interpolation”。以下是该项目的一些关键信息:

  1. 项目简介
  2. TANGO是一个用于口型同步手势视频重演的项目,它结合了层次化的音频-动作嵌入和扩散插值技术。

  3. 新闻更新

  4. 2024年10月,TANGO项目在Hugging Face空间上线,代码用于创建手势图现已可用。

  5. 结果视频

  6. 项目页面提供了一些结果视频的展示,包括动态图片。

  7. 演示视频

  8. 项目在YouTube上有演示视频。

  9. 发布计划

  10. 计划发布AuMoClip和ACInterp的训练代码、ACInterp的推理代码、处理过的YouTube商业视频数据、创建手势图的脚本以及带有AuMoClip和预训练权重的推理代码。

  11. 安装指南

  12. 提供了克隆仓库和构建环境的指令,推荐使用Python版本3.9.20和CUDA版本11.8。

  13. 训练和推理

  14. 提供了运行推理脚本的命令,生成两个8秒视频大约需要3分钟。可以通过直接查看视频或通过Blender使用EMAGE插件检查结果的.npz文件。

  15. 创建自定义角色的图

  16. 提供了为自定义角色创建图的指南。

  17. 版权信息

  18. 项目感谢开源项目Wav2Lip、FiLM、SMPLerX,并提到了之前的工作,包括Co-Speech 3D motion Generation DisCo、BEAT、EMAGE。
  19. 该项目仅用于研究或教育目的,不可用于商业用途或重新分发。脚本仅在署名-非商业性使用4.0国际(CC BY-NC 4.0)许可下可用。

TANGO项目是一个有趣的研究项目,它结合了音频和动作数据,用于生成同步的手势视频。如果您对这个项目感兴趣,可以访问GitHub页面以获取更多详细信息和代码。

github

文档