阿里团队推出 AI 视频生成框架 Tora,基于轨迹导向的扩散变换器(DiT)技术,集成文本、视觉和轨迹用于生成视频,Tora 由一个轨迹提取器(TE)、一个时空 DiT 和一个运动引导融合器(MGF)组成:TE 使用 3D 视频压缩网络将任意轨迹编码为分层时空运动补丁。MGF 将运动贴片集成到 DiT 模块中,以生成遵循轨迹的连贯视频。
论文地址:
https://arxiv.org/pdf/2407.21705
开源地址:
https://ali-videoai.github.io/tora_video/
本站文章通过互联网转载或者由本站编辑人员搜集整理发布,如有侵权,请联系本站删除。