NVIDIA利用AI強化機器合成語音擬真感

作者: 廖專崇
2021 年 09 月 13 日

過去自動電話語音和 GPS 導航系統都只能發出生硬的機器合成聲音,人工智慧(AI)可以協助讓智慧型手機和智慧音箱中的虛擬助理呈現逼真的語調。不過,AI合成的聲音和人們在日常對話及媒體中聽到的真實人聲之間,還是差了一點,原因在於人們說話時帶有複雜的節奏、音調和音色,這是很難以 AI 仿真出來的。有鑑於此,NVIDIA的研究人員正在打造高品質、可控制的語音合成模型與工具,它們能捕捉人類口語中的豐富細節,又不會聽起來人工感很重。

NVIDIA透過AI強化機器語音的擬針感

這些模型有助銀行和零售商的自動語音客服,也能讓電玩遊戲或書籍中的人物更為生動,並即時為數位分身加上合成語音。NVIDIA內部的創意團隊甚至運用這項技術,為一支介紹AI的系列影片製作出富有表現力的旁白內容。

表達性語言合成只是 NVIDIA Research 團隊在對話式 AI 的其中一項研究,此領域還包括自然語言處理、自動語音辨識、關鍵字偵測、音訊增強等。這項研究成果的部分內容已透過NVIDIA NeMo工具套件成為開放原始碼,可以在NGC容器及其它軟體中心取得,並經最佳化調整,能在NVIDIA GPU上高效執行。

另外,NVIDIA的研究人員與創意專家將對話式AI導入該公司的《I AM AI》系列影片中,實際運用語音合成模型,介紹重塑各產業發展的全球AI創新者。過去的語音合成模型對於合成聲音的節奏和音調控制能力有限,因此和真人旁白的影片相比,嘗試以AI製作影片旁白無法激起觀眾的情感。

隨著NVIDIA的文字轉語音研究團隊發展出更強大、控制能力更強的語音合成模型,透過RAD-TTS,使用個人說話的聲音來訓練文字轉語音模型,可以將任何文字提示變成說話者的聲音。聲音轉換是它的另一項功能,例如畫面上是A在說話(甚至是唱歌),觀眾們聽到的卻是B的聲音。設計RAD-TTS介面的靈感來源是將人的聲音當成一種樂器,使用者便能夠逐幀微調合成聲音的音調、持續時間和能量。

影片製作人可以使用這個介面,錄製自己讀出影片腳本的聲音,接著用 AI 模型將說話內容變成女性旁白者的聲音。製作人可以再運用這個基本的旁白內容,像配音員一樣指導AI並進行調整,讓合成出來的語音強調特定字眼、修改旁白節奏,以更貼切地表達影片的調性。

該AI模型不只能用在配音上:文字轉語音的功能還能用在遊戲、協助聲音機能或語言機能障礙者,或幫助使用者用自己的聲音翻譯不同語言;甚至還能重現著名歌手的表演,不僅可以配合歌曲旋律,還能配合人聲背後所表達的情感。

標籤
相關文章

Xilinx AI轉型拉攏資料中心 劍指Intel、NVIDIA

2018 年 10 月 19 日

NVIDIA攜手VMware力推AI Enterprise 軟體套件

2021 年 03 月 19 日

NVIDIA/佛羅里達大學合作打造教學用AI超級電腦

2020 年 07 月 23 日

NVIDIA推出BlueField DPU系列產品

2020 年 10 月 07 日

元宇宙商機近在眼前 NVIDIA智慧模擬再進化

2022 年 08 月 10 日

美超微AI產品線升級 支援最新款NVIDIA GPU

2025 年 03 月 26 日
前一篇
提升切換式電源供應器效率 SiC無縫切入高電壓應用
下一篇
2021 Q3半導體銷量強勁 索尼成長率居冠