VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning.

Qiushi Zhu,Long Zhou,Ziqiang Zhang,Shujie Liu,Binxing Jiao,Jie Zhang,Lirong Dai,Daxin Jiang,Jinyu Li,Furu Wei

IEEE TRANSACTIONS ON MULTIMEDIA（2024）

引用 10|浏览103

关键词

Visualization,Task analysis,Speech recognition,Representation learning,Predictive models,Data models,Transformers,Speech representation learning,unified masked prediction,visual-audio-text pre-training

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要