
Universal Speech Model
2023年3月6日 · Universal Speech Model (USM) is a family of state-of-the-art speech models with 2B parameters trained on 12 million hours of speech and 28 billion sentences of text, spanning 300+ languages.
Google USM: Scaling Automatic Speech Recognition Beyond 100 …
2023年3月2日 · We introduce the Universal Speech Model (USM), a single large model that performs automatic speech recognition (ASR) across 100+ languages. This is achieved by pre-training the encoder of the model on a large unlabeled multilingual dataset of 12 million (M) hours spanning over 300 languages, and fine-tuning on a smaller labeled dataset.
[论文尝鲜]谷歌的USM-一次搞定100种语言的语音识别 - 知乎
usm框架,可以在使用小规模标注数据的前提下,很好的适配到300+语言的,asr和ast任务,即语音识别(speech-to-text),以及语音翻译(即,跨语言的语音识别);
Universal Speech Model (USM): State-of-the-art speech AI for …
2023年3月6日 · Today, we are excited to share more about the Universal Speech Model (USM), a critical first step towards supporting 1,000 languages. USM is a family of state-of-the-art speech models with 2B parameters trained on 12 million hours of speech and 28 billion sentences of text, spanning 300+ languages.
谷歌的野心:通用语音识别大模型已经支持100+语言 | 机器之心
2023年3月7日 · USM 包含一系列 SOTA 语音模型,带有 20 亿 参数,经过 1200 万小时的语音和 280 亿个文本句子的训练,涵盖 300 多种语言。 USM 不仅可以对英语和普通话等广泛使用的语言执行自动语音识别(ASR),还可以对阿姆哈拉语、宿雾语、阿萨姆语、阿塞拜疆语等使用人数 ...
语音大模型之USM - 知乎专栏
2023年12月19日 · 本文将要介绍的是Google 2023年3月份发布的语音大模型 USM (Universal Speech Model),从名字就可以看出这个模型的“野心”了。 之前文章 介绍的OpenAI的语音大模型 Whisper 支持的语种数有98种,而USM支持的语种数量则超过了100种。 一、数据
比 OpenAI 更好!!谷歌发布 20 亿参数通用语音模型——USM …
2023年3月9日 · 谷歌推出了20亿参数的通用语音模型USM,能识别100多种语言,应用于YouTube字幕生成。 该模型在处理小众语言时表现出色,且对比OpenAI的Whisper模型,其训练时间更短,错误率更低。
Implementation of Google's USM speech model in Pytorch
Implementation of Google's universal speech model from the paper: Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages I'm implementing this mostly because Gemini the all-new multi-modality foundation model from google uses it! Check out our Gemini implementation here:
谷歌发布通用语音模型(USM):100多种语言的最先进的语音人 …
2023年3月7日 · 通用语音模型(USM)是一系列最先进的语音模型,其2B参数训练有1200万小时的语音和280亿行文本,涵盖300多种语言。 USM用于YouTube(例如,用于隐藏式字幕),可以在英语和普通话等广泛使用的语言上执行自动语音识别(ASR),也可以在旁遮普语、阿萨姆语、Santhali、巴厘语、肖纳语、马达加语、卢干达语、罗、班巴拉语、索加、马宁卡语、科萨语、阿坎语、林加拉语、奇切瓦语、恩科雷语、恩泽马语等语言上执行自动语音识别(ASR)。 其 …
数据集-OpenDataLab
2023年1月1日 · 通用语音模型 (USM) 是一系列最先进的语音模型,其 2B 参数经过 1200 万小时的语音和 280 亿条文本句子的训练,涵盖 300 多种语言。 USM 用于 YouTube(例如,隐藏式字幕),可以对广泛使用的语言(如英语和普通话)以及旁遮普语、阿萨姆语、桑塔利语、巴厘岛语、绍纳语、马达加斯加语等语言执行自动语音识别 (ASR), Luganda、Luo、Bambara、Soga、Maninka、Khosa、Akan、Lingala、Chichewa、Nkore、Nzema 等等。 其中一些语言只有不 …
- 某些结果已被删除