天天報道:OpenAI宣布開源多語言語音識別系統(tǒng)Whisper
盡管包括 Google、亞馬遜和 Meta 在內的科技巨頭,都將各自開發(fā)的功能強大的語音識別系統(tǒng)置于其軟件和服務的核心地位。但在人工智能和機器學習領域,語音識別仍是一個頗具挑戰(zhàn)性的話題。好消息是,今日 OpenAI 隆重地宣布了 Whisper 的開源 —— 可知作為一套自動語音識別系統(tǒng),官方宣稱它能夠實現(xiàn)多種語言的強大轉錄、并將它們翻譯成英語。
訪問:
(資料圖)
Parallels Desktop 18 今年首次促銷:限時75折
(來自:OpenAI Blog)
OpenAI 表示,Whisper 的不同之處,在于其接受了從網(wǎng)絡收集的 68 萬小時的多語言和“多任務”訓練數(shù)據(jù),從而提升了該方案對獨特口音、背景噪聲和技術術語的識別能力。
官方 GitHub 存儲庫上的概述稱:
Whisper 模型的主要目標用戶,是研究當前模型穩(wěn)健性、泛化、能力、偏差和約束的 AI 研究人員。
與此同時,它也很適合作為面向開發(fā)者的自動語音識別解決方案尤其是英語語音識別。
感興趣的朋友,可以從托管平臺上下載 Whisper 系統(tǒng)的多個版本,其模型在大約 10 種語言上展現(xiàn)出了強大的 ASR 結果。
此外假如在某些任務上加以微調的話,它們還有望在語音活動檢測、講述者分類等應用場景下表現(xiàn)出額外的能力。
架構示意
遺憾的是,Whisper 尚未在相關領域得到強有力的評估、且模型也有其局限性 —— 有其在文本預測領域。
由于該系統(tǒng)接受了大量“嘈雜”的數(shù)據(jù)訓練,OpenAI 決定提前給大家打一劑預防針,警告稱 Whisper 可能在轉錄中包含實際上未講述的單詞。
原因可能是 Whisper 既試圖預測音頻中的下一個單詞、又試圖轉錄音頻本身。
流程示例
此外 Whisper 在不同語言場景下的表現(xiàn)也不大一致,尤其涉及在訓練數(shù)據(jù)中沒有很好被代表的語言的講述者時,其錯誤率也會更高。
不過后者在語音識別領域早已不是什么新鮮事,即使業(yè)內首屈一指的系統(tǒng),也一直受到此類偏差的困擾。
參考斯坦福大學在 2020 年分享的一項研究結果 —— 相較于黑人,來自亞馬遜、蘋果、Google、IBM 和微軟的系統(tǒng),針對白人用戶的錯誤率要低得多(大約 35%)。
Whisper 有約 1/3 的音頻數(shù)據(jù)集為非英語
即便如此,OpenAI 還是認為 Whisper 的轉錄功能,可被用于改進現(xiàn)有的可訪問性工具。其在 GitHub 上寫道:
盡管 Whisper 模型不適用于開箱即用的實時轉錄,但其速度和大小表明,其他人可在此基礎上構建近乎實時的語音識別和翻譯應用程序。
建立在 Whisper 模型之上的有益應用程序,其價值切實地表明了這些模型的不同性能,有望發(fā)揮出真正的經(jīng)濟影響力。
我們希望大家能夠將該技術積極應用于有益目的,使自動語音識別技術更易獲得改進、讓更多參與者能夠打造出更負責任的項目。
在速度和準確性的雙重優(yōu)勢下,Whisper 將允許對大量通信提供可負擔得起的自動轉錄和翻譯體驗。
相關文章:
[視頻]OpenAI展示DALL-E 2:AI圖像生成器支持編輯圖像了
OpenAI的DALL-E繪畫AI 已能夠擴展創(chuàng)作更大的圖像
過濾系統(tǒng)升級:OpenAI再次開放DALL-E 2的面容編輯功能
推薦
-
與亞馬遜Audible展開競爭 Spotify在美國推出有聲讀物服務
已在美國推出有聲讀物服務,此舉欲與亞馬遜的 Audible 展開競爭。Spotify 稱,用戶可在 Spotify Ap...
來源:TechWeb -
YouTube視頻網(wǎng)站中“不感興趣”按鈕幾乎沒有任何作用 類似相關視頻還會出現(xiàn)
有一項新的研究發(fā)現(xiàn),即使用戶對 YouTube 中某些類型視頻選擇了不感興趣,但是類似相關的視頻還會出現(xiàn)...
來源:鳳凰科技 -
阿里巴巴將在核心科技上持續(xù)投入 助力全球產(chǎn)業(yè)鏈供應鏈韌性與穩(wěn)定
阿里巴巴集團董事會主席兼首席執(zhí)行官張勇表示,國際地緣政治沖突加劇、逆全球化思潮涌現(xiàn)等因素給全球產(chǎn)...
來源:網(wǎng)易科技 -
-
Instagram短視頻功能發(fā)展正趨于停滯 觀看時長不及TikTok十分之一
幾個月來 Instagram 一直在努力發(fā)展其短視頻項目 Reels,但據(jù)一份內部報告顯示,短視頻功能的發(fā)展正...
來源:TechWeb -
5G高空瞭望智能“監(jiān)督員”24小時在崗 鶴壁打造5G智慧社區(qū)
守在大屏前,小區(qū)各處安全狀況一覽無余;不用跑醫(yī)院,5G健康小屋幫你體檢;在公園座椅休息時,可以同時充...
來源:人民郵電報 -
筑牢網(wǎng)絡安全防線 中國工業(yè)互聯(lián)網(wǎng)研究院設立“網(wǎng)絡安全宣傳角”
在第九屆國家網(wǎng)絡安全宣傳周活動中,中國工業(yè)互聯(lián)網(wǎng)研究院依托門戶網(wǎng)站、微信公眾號發(fā)布《2022網(wǎng)絡安全...
來源:人民郵電報 -
-
提升城鎮(zhèn)一體化醫(yī)療服務能力 安溪升級智慧醫(yī)療云
近日,福建安溪電信在成功打造全縣醫(yī)療云服務的基礎上,依托EC產(chǎn)業(yè)園醫(yī)療云平臺,聯(lián)手安溪衛(wèi)健局開展醫(yī)...
來源:人民郵電報 -
AT&T投資600萬美元推出數(shù)字素養(yǎng)計劃 預計有超過65000人受益
美國電信運營商AT&T計劃捐贈600萬美元,用于推動覆蓋全美范圍的數(shù)字素養(yǎng)計劃,預計有超過65000人受益于...
來源:人民郵電報
直播更多》
-
構建網(wǎng)絡安全保障體系 天津濱海高新區(qū)在信創(chuàng)安全領域持續(xù)發(fā)力
9月上旬,天津濱海高新區(qū)內企業(yè)麒麟軟件...
-
構建網(wǎng)絡安全保障體系 天津濱海高新區(qū)在信創(chuàng)安全領域持續(xù)發(fā)力
9月上旬,天津濱海高新區(qū)內企業(yè)麒麟軟件...
-
解放大量人力物力 智慧漁政網(wǎng)絡為執(zhí)法插上科技翅膀
有人正在長江非法垂釣!近日,武漢市農(nóng)業(yè)...
-
將加強政策引導 廣西管局推進自貿(mào)區(qū)工業(yè)企業(yè)工業(yè)互聯(lián)網(wǎng)建設
近日,廣西信息通信業(yè)與中國(廣西)自由...
-
快手高級副總裁帶隊國際化業(yè)務一個多月 對部門組織架構進行調整
快手高級副總裁馬宏彬在帶隊國際化業(yè)務...
-
特斯拉公司目前正聚焦中國市場 并打算進一步擴大在華生產(chǎn)
特斯拉公司目前正聚焦中國市場,并打算...
資訊更多》
焦點
- 廈門國家火炬高新區(qū)專精特新企業(yè)培育項目開班 50名備企業(yè)高管開啟研學之旅
- 為禁捕退捕裝上“數(shù)字眼” 中國聯(lián)通助力長江黃河流域水域治理
- 順豐同城寄丟20克黃金保價8000元只賠2000元 當事人質疑保價意義何在
- SK明年將在韓國投資73萬億韓元提升產(chǎn)能 未來5年還將投入25萬億韓元
- 大理州首個文旅行業(yè)5G應用 5G智慧文旅項目落戶銀都水鄉(xiāng)
- 德國柏林國際消費電子展全面恢復線下舉辦 大量“智慧家居”類產(chǎn)品吸引眼球
- 中俄邊境地區(qū)無線電頻率協(xié)調工作組及專家組會談 近日以線上視頻形式召開
- 浙江移動物聯(lián)網(wǎng)連接數(shù)突破1億 率先邁入萬物智聯(lián)時代
- 全力構建數(shù)據(jù)出境的“安全屏障” 9月1日起《數(shù)據(jù)出境安全評估辦法》正式施行
- 侵犯mRNA技術平臺核心專利 莫德納對輝瑞和BioNTech提起訴訟