Ming-UniAudio 是蚂蚁集团开源的音频多模态模型,统一语音理解、生成和编辑任务。核心是 MingTok-Audio,一个基于 VAE 框架和因果 Transformer 架构的连续语音分词器,能有效整合语义和声学特征。基于此,Ming-UniAudio 开发了一个端到端的语音语言模型,平衡了生成和理解能力,并通过扩散头确保高质量的语音合成。Ming-UniAudio 提供了首个指令引导的...详情>>
Ming-UniAudio是什么Ming-UniAudio 是蚂蚁集团开源的音频多模态模型,统一语音理解、生
Ming-UniAudio是什么Ming-UniAudio 是蚂蚁集团开源的音频多模态模型,统一语音理解、生成和编辑任务。核心是 MingTok-Audio,一个基于 VAE 框架和因果 Transf
Ming-UniAudio 是蚂蚁集团开源的音频多模态模型,统一语音理解、生成和编辑任务。核心是 MingTok-Audio,一个基于 VAE 框架和因果 Transformer 架构的连续语音分词器