Mozilla 同聲計畫( Common Voice ) 開源語音資料庫正體中文募集開跑

Mozilla 同聲計畫（Common Voice）開源語音資料庫正體中文募集開跑
同聲計畫目前已經累積超過900小時音檔年底可望成為全球最大開源語音資料集

【台北訊】 - 致力推動網路平等、開放與自由的美商謀智 (Mozilla) ，其最大開源語音募集專案- 同聲計畫（ Common Voice），日前已正式開始募集正體中文音檔，成為其語音資料的第一種亞洲語言。正體中文音檔目前在同聲計畫資料集中成長快速，已是英、法、德語以外的最大語音資料。

語音辨識已逐漸成為個人與電子裝置互動的首選方式，它能為使用者節省大量時間，同時技術發展也能跨越鍵盤、滑鼠或螢幕的框架。然而，今日的語音辨識技術大多掌握在少數透過既有產品優勢，以專屬平台收集語音的企業手中。此外，現有商用數位及語音辨識服務往往也偏廢了弱勢語言。有鑑於此，Mozilla 認為需要建立多國語言開源語音資料庫，透過語音技術的民主化支持創新，也為視障者、未受教育者、兒童或年長者等相對的資訊弱勢族群降低取得資訊的門檻。

Mozilla 自去年 7 月開始啟動開源的同聲計畫，目標是收集用於訓練語音辨識技術的聲音數據，至今共有超過兩百位開發者參與計畫的軟體開發。到目前為止，同聲計畫已經募集了來自 112 個國家的 2 萬 4 千多人所貢獻的聲音，收集到超過 900 小時的語音樣本，一躍成為全球第二大開源語音資料集* 。同聲計畫於上月開始收集多國音檔之後，預期在年底前可望成為全球最大開源語音資料集。

目前專案平台已擁有60種語言版本，並已開始收集15 種語言音檔。Mozilla 繼上個月開始募集德、法語和威爾斯語錄音檔之後，日前也開始由正體中文著手，展開中文語音的音檔募集。

過去一年內，同聲計畫成長快速。Mozilla 於去年 11 月發表了同聲計畫第一版資料集，語音資料下載量至今已達數千次。同時也與 Mycroft、Snips.AI 以及威爾斯的 Bangor 大學等新創企業或校園夥伴進行語音收集與技術合作，所收集的語音資料同時也應用在 Mozilla 本身的語音辨識引擎「深度語音辨識」(Project DeepSpeech) 上。

Mozilla 目前正試圖打造全球最大的開源多語語音資料庫，歡迎所有中文使用者一起捐出聲音，協助強化中文語音資料庫。您也可透過 iOS 應用來捐獻語音錄音檔。如果您想將您的語言納入同聲計畫和語音辨識技術，請造訪專案計畫的語言頁。若您所隸屬的組織也想參與此計畫，請與 Mozilla 聯繫。

* 公有領域的磁帶書 LibriSpeech 資料庫大約有1千小時。

圖說一：語音辨識的三大元素：演算法，運算能力與語音資料。
圖說二：Mozilla 最大開源語音募集專案- 同聲計畫（ Common Voice），日前已正式開始募集正體中文音檔，成為其語音資料的第一種亞洲語言。
圖說三：同聲計畫已經募集了來自 112 個國家的 2 萬 4 千多人所貢獻的聲音，收集到超過 900 小時的語音樣本，一躍成為全球第二大開源語音資料集

關於同聲計畫（Common Voice）
同聲計畫是 Mozilla 為充實其語音辨識技術開發工作——「深度語音辨識」(Deep Speech) 專案——所推出的計畫。Deep Speech 為精確處理人類語音的開源語音辨識引擎模型，於 2017 年 11 月釋出。隨著專案語音資料日漸茁壯，Mozilla 相信此技術將能催生出新一波的創新產品與服務，使人人都能受惠。

關於Mozilla
在逾15 年的時間裡，Mozilla 一直是 Open Web 最堅定的倡導者和領航者。我們致力創造和推動開放標準，以推升創新及推展 Web 成為共享平台。時至今日，全球有數億人使用Firefox，在電腦、平板和行動電話探索、體驗和連上 Web。如需更多資訊，歡迎造訪 Mozilla 網站：www.mozilla.org。

PC TECH 電腦技術