Common Voice不仅包括语音片段,还包括对训练语音引擎有用的自愿贡献的元数据,如发言者的年龄、性别和口音。它被设计为与DeepSpeech集成,DeepSpeech是一套开源的语音到文本、文本到语音引擎,以及由Mozilla的机器学习小组维护的训练模型。
收集Common Voice中超过550万个片段需要大量的工作,不过,到目前为止,在7226个小时中,有5591个小时被该项目贡献者确认为有效。而根据Mozilla的数据,Common Voice中的五种语言--英语、德语、法语、意大利语和西班牙语现在已经有超过5000名独特的使用者,而七种语言英语、德语、法语、卡比勒语、加泰罗尼亚语、西班牙语和基尼亚卢旺达语则有超过500小时的记录。
今天还发布了Mozilla有史以来第一个数据集目标段,旨在为特定目的和用例收集语音数据。这个细分市场包括数字 "0 "到 "9",以及 "是"、"不是"、"嘿 "和 "火狐 "等词语,共有1.1万人在18种语言中说了120个小时。
Common Voice刷新之后,DeepSpeech进行了重大更新,纳入了迄今为止最快的开源语音识别模型之一。最新版本增加了对TensorFlow Lite的支持,TensorFlow Lite是谷歌TensorFlow机器学习框架的发行版,针对计算受限的移动和嵌入式设备进行了优化,并将DeepSpeech的内存消耗减少了22倍,同时将其启动速度提升了500多倍。
Common Voice和DeepSpeech都为Mozilla项目工作提供了参考,比如Firefox Voice,这是一个为Firefox增加语音识别支持的浏览器扩展。目前,Firefox Voice可以理解 "天气如何 "和 "查找Gmail标签 "等命令,但目标是促进仅使用语音与网站进行 "有意义的互动"。