认识 SeamlessM4T:Meta AI 的语音翻译新基础模型
00 分钟
2023-8-29
2023-8-30
type
status
slug
summary
date
tags
category
password
Text
AI summary
AI custom autofill
Multi-select
Status
URL
hashtag
勘误
标签
标题
类型
贴文
🪄
icon
notion image
语音正迅速成为基础模型的下一个前沿领域之一。虽然语言和计算机视觉等领域仍然占据头条新闻,但语音正在成为一个越来越重要的领域。语音到语音翻译(S2ST)等领域依赖于级联架构,该架构结合了大量组件来逐步执行翻译。结果是,该领域并未显示出与基础模型其他领域相同的进展。最近,Meta AI Research 公布了 SeamlessM4T——大规模多语言和多模态机器翻译背后的研究,这是一个针对不同语音翻译任务的统一语音基础模型。
在当今的基础模型生态系统中,现有的机器翻译 (MT) 系统主要围绕文本展开,而忽略了语音支持(如果存在的话)。与基于文本的对应物相比,语音与机器翻译领域的集成常常被置于次要地位。尽管单独的单峰模型取得了成就,但实现具有可比广度和功效的统一 S2ST 模型仍然遥不可及。这种根源于模式的差异可归因于多种因素,但音频数据的稀缺和建模的限制仍然是突出的障碍。
此类系统的当前状况存在三个主要缺陷。
1. 语音翻译模型的重点主要集中在英语、西班牙语和法语等高资源语言上,而往往忽略低资源语言。
2. 它们主要迎合从源语言到英语的翻译,而不是相互的方向。
3. 目前大多数 S2ST 系统严重依赖级联框架,由多个连续的子系统组成,这些子系统分阶段处理翻译 - 从自动语音识别 (ASR) 开始,过渡到 T2TT,最后到文本转语音 (TTS)综合作为三层架构的一部分。
将这些多方面的功能统一到一个有凝聚力的实体中的努力已经产生了端到端语音翻译系统的初始版本。然而,这些系统尚未达到级联系统设定的性能基准。

SeamlessM4T

SeamlessM4T(大规模多语言和多模式机器翻译)是一个包含 ASR、T2TT、语音到文本翻译 (S2TT)、文本到语音翻译 (T2ST) 和 S2ST 功能的集成平台。该模型建立在 Meta AI 在语音翻译领域突破的悠久历史之上。值得注意的是,Meta AI 在去年推出了 No Language Left Behind (NLLB)——一种文本到文本的机器翻译模型,旨在涵盖令人印象深刻的 200 种语言。在接下来的几个月里,Meta AI 展示了开创性的通用语音翻译器。这一突破性的系统促进了闽南语的直接语音到语音翻译,闽南语的特点是缺乏广泛采用的书写系统。这项努力还创建了 SpeechMatrix,这是一个具有里程碑意义的多语言语音到语音翻译数据集。该数据集诞生于 SpeechLASER 的创新,标志着监督表示学习领域的一个里程碑。随着大规模多语言语音的推出,今年早些时候实现了后续的一大进步。这一全面的产品涵盖自动语音识别、语言识别和语音合成功能,涵盖 1,100 多种语言。
notion image
图片来源:Meta AI
SeamlessM4T 的出现,综合了从这些不同项目中收集到的见解。结果是源自单一模型的变革性多语言和多模式翻译体验。该模型经过精心构建,借鉴了广泛的语音数据源,并最终产生了最先进的结果。
为了构建统一的模型,Meta AI 需要一个轻量级的序列建模工具包,该工具包可以与其他现代 PyTorch 生态系统库无缝集成。为了满足这一需求,Meta AI 重新设计了 fairseq,其原始序列建模工具包。通过整合更高效的建模和数据加载器 API,fairseq2 现在在驱动 SeamlessM4T 的底层建模过程中发挥着关键作用。
notion image
图片来源:Meta AI
该模型的核心是多任务 Unity 模型架构,旨在执行一系列功能,包括生成翻译文本和语音。该架构还有助于自动语音识别、文本到文本翻译、文本到语音转换、语音到文本翻译和语音到语音翻译——这些功能已经是普通 UnityY 模型所固有的。多任务 UnitY 模型围绕三个主要顺序组件构建。文本和语音编码器担负着识别近 100 种语言的语音输入的任务。随后,文本解码器将该含义转换为文本内容的各种语言,然后使用文本到单元模型将其解码为为 36 种语音语言量身定制的离散声学单元。通过对自监督编码器、语音到文本、文本到文本翻译组件、文本到单元模型的预训练,提高了模型的质量,保证了训练的稳定性。然后使用多语言 HiFi-GAN 单元声码器将所得解码离散单元转换为语音。
Meta AI 采用一种称为 w2v-BERT 2.0 的自监督语音编码器,这是 w2v-BERT 的增强迭代,其特点是提高了训练稳定性和表示质量。该编码器经过训练,可以识别语音模式中的结构和含义,从跨越数百万小时的大量多语言语音中获取见解。从功能上讲,编码器将音频信号分解成更小的片段,构建语音内容的内部表示。假设口语包含各种声音和字符,则采用长度适配器将这些元素映射到相应的单词,尽管是以近似的方式。
同样,Meta AI 采用基于 NLLB 模型的文本编码器。该文本编码器经过训练,可以理解涵盖近 100 种语言的文本内容,生成在翻译任务中证明有价值的表示形式。
Meta AI 的文本解码器擅长处理编码语音表示或文本表示。此功能可用于同一语言的任务,包括自动语音识别和多语言翻译工作。例如,当说话者用法语说出“bonjour”一词时,就会无缝生成相应的斯瓦希里语翻译文本“habari”。通过多任务训练,Meta AI 利用强大的文本到文本翻译模型 (NLLB) 的能力,通过标记级知识蒸馏来指导语音到文本翻译模型。
在语音生成的背景下,Meta AI 利用声学单位来表示目标语音。UnitY 模型中的文本到单元 (T2U) 组件根据文本输出协调离散语音单元的创建。该组件在 Unity 微调阶段之前对 ASR 数据进行预训练。随后,采用多语言 HiFi-GAN 单元声码器将这些离散单元转换为音频波形。
SeamlessM4T 等数据驱动模型从大量高质量端到端数据(特别是语音到文本和语音到语音数据)中获得了显着的好处。然而,仅依靠人工转录和翻译的语音数据不足以解决 100 种语言语音翻译的复杂性。为此,Meta AI 基于其在文本到文本挖掘方面的开创性工作,在统一嵌入空间中采用相似性度量,并在语音挖掘方面进行了初步探索,为 SeamlessM4T 模型训练生成额外资源。

结果

凭借独特的模型,Meta AI 的 SeamlessM4T 在近 100 种语言的令人印象深刻的范围内取得了前沿成果。其多任务处理能力进一步增强了这一成就,涵盖自动语音识别、语音到文本、语音到语音、文本到语音和文本到文本翻译功能。
值得注意的是,该系统将其进步扩展到涵盖具有低级和中级资源可用性的语言,从而显着提高了它们的性能。这种增强伴随着系统在为高资源语言提供强大结果方面的坚定不移的卓越性。
为了追求准确的系统评估,Meta AI 引入了超越基于文本的评估的扩展指标 BLASER 2.0。这种改进的指标能够以类似于其前身的准确性评估语音和文本单元。通过严格的稳健性测试,该系统在语音转文本任务中展现出卓越的弹性。在背景噪声和说话者特性差异的背景下,该系统取得了显着的增强——平均分别提高了 37% 和 48%——优于目前最先进的模型。
notion image
图片来源:Meta AI
SeamlessM4T 无疑是迄今为止语音翻译领域最令人兴奋的基础模型之一。希望我们能看到它融入 Meta AI 的多模式工作中。
 

 

评论