OpenAI展示新音頻工具可朗讀文本并模仿聲音

2024-04-02 08:41:15 來(lái)源：新浪科技評(píng)論：0 [收藏] [評(píng)論]

導(dǎo)讀：　　OpenAI公布了一項(xiàng)功能的早期測(cè)試結(jié)果，該功能可用令人信服的人聲朗讀文字。這彰顯了人工智能的一個(gè)新領(lǐng)域，并引發(fā)了關(guān)于深度偽造的擔(dān)憂�！　≡摴痉窒砹嗣麨檎Z(yǔ)音引擎(Voice Engine)的文本轉(zhuǎn)語(yǔ)音模型小規(guī)模

　　OpenAI公布了一項(xiàng)功能的早期測(cè)試結(jié)果，該功能可用令人信服的人聲朗讀文字。這彰顯了人工智能的一個(gè)新領(lǐng)域，并引發(fā)了關(guān)于深度偽造的擔(dān)憂。

　　該公司分享了名為“語(yǔ)音引擎”(Voice Engine)的文本轉(zhuǎn)語(yǔ)音模型小規(guī)模試用的早期演示和用例，據(jù)發(fā)言人介紹，目前約有10家開(kāi)發(fā)商可使用該模型。OpenAI在3月早些時(shí)候向記者介紹了這一功能，但決定暫不大規(guī)模發(fā)布。

　　OpenAI的發(fā)言人說(shuō)該公司在收到政策制定者、行業(yè)專家、教育工作者和創(chuàng)意人士等利益相關(guān)方的反饋后決定縮減發(fā)布規(guī)模。據(jù)早前的新聞發(fā)布會(huì)介紹，該公司原本計(jì)劃通過(guò)申請(qǐng)流程向多達(dá)100家開(kāi)發(fā)商發(fā)布該工具。

　　其他AI技術(shù)已經(jīng)在某些情境下被用來(lái)偽造聲音。今年1月，一通自稱喬·拜登(Joe Biden)總統(tǒng)打來(lái)的以假亂真的電話呼吁新罕布什爾州居民不要在初選中投票，這一事件在全球關(guān)鍵選舉前加劇了對(duì)AI的恐懼。

　　與OpenAI過(guò)去生成音頻的功能不同，語(yǔ)音引擎可以創(chuàng)建聽(tīng)起來(lái)像具體個(gè)人的聲音，并完整呈現(xiàn)特有的語(yǔ)調(diào)和語(yǔ)氣。該軟件只需要一段15秒的錄音，即可重現(xiàn)一個(gè)人的聲音。

　　“只要音頻設(shè)置得當(dāng)，基本就能得出人類水準(zhǔn)的聲音。”OpenAI產(chǎn)品負(fù)責(zé)人杰夫·哈里斯(Jeff Harris)說(shuō)，“這種技術(shù)質(zhì)量非常了不起。”但哈里斯也表示，“準(zhǔn)確模仿人類語(yǔ)音的能力顯然存在很多安全上的不確定性。”

　　非營(yíng)利性醫(yī)療系統(tǒng)Lifespan旗下的Norman Prince Neurosciences Institute是OpenAI目前的開(kāi)發(fā)合作伙伴之一，該機(jī)構(gòu)正在利用此項(xiàng)技術(shù)幫助患者恢復(fù)聲音。例如，據(jù)OpenAI的博客文章，該工具被用于恢復(fù)一位因腦瘤失去清晰說(shuō)話能力的年輕患者的聲音，方法是復(fù)制她此前為一個(gè)學(xué)校項(xiàng)目錄制的發(fā)言。

　　OpenAI的自定義語(yǔ)音模型還可將生成的音頻翻譯成不同語(yǔ)言。這對(duì)于音頻行業(yè)公司非常有用，比如Spotify Technology SA。Spotify已經(jīng)在自己的試點(diǎn)計(jì)劃中利用該技術(shù)來(lái)翻譯萊克斯·弗里德曼(Lex Fridman)等熱門主持人的播客節(jié)目。OpenAI還宣傳了該技術(shù)的其他有益應(yīng)用，例如為兒童教育內(nèi)容創(chuàng)建更多樣化的聲音。

　　在測(cè)試計(jì)劃中，OpenAI要求合作伙伴同意其使用政策，即在使用原始聲音前征得聲音主人的同意，并告知聽(tīng)眾他們聽(tīng)到的是AI生成的聲音。該公司還加入了聽(tīng)不見(jiàn)的音頻水印，以判斷哪些音頻由其工具創(chuàng)建。

　　OpenAI表示在決定是否大范圍發(fā)布該功能前，正在征求外部專家的反饋。該公司在博文中表示：“讓全球人民了解這項(xiàng)技術(shù)的發(fā)展方向至關(guān)重要，不論我們最終是否親自廣泛部署它。”

　　OpenAI還寫道，希望其軟件的試用能“激發(fā)增強(qiáng)社會(huì)韌性的需求”，以應(yīng)對(duì)更先進(jìn)的AI技術(shù)帶來(lái)的挑戰(zhàn)。例如，該公司呼吁銀行逐步停止將語(yǔ)音身份驗(yàn)證作為訪問(wèn)銀行賬戶和敏感信息的安全措施。它還尋求開(kāi)展公眾教育，幫助大家了解欺騙性的AI內(nèi)容，并開(kāi)發(fā)更多技術(shù)來(lái)檢測(cè)音頻內(nèi)容是否由AI生成。

分享到：

責(zé)任編輯：zsz

更多相關(guān)搜索：

新聞
圖片
下載
專題

返回產(chǎn)品頻道

快速導(dǎo)航：新聞立場(chǎng) 角度消費(fèi) 服務(wù) 產(chǎn)品

OpenAI展示新音頻工具可朗讀文本并模仿聲音

網(wǎng)友評(píng)論

智能應(yīng)用排行

延伸閱讀

最新智能應(yīng)用

OpenAI展示新音頻工具 可朗讀文本并模仿聲音

網(wǎng)友評(píng)論

智能應(yīng)用排行

延伸閱讀

最新智能應(yīng)用

OpenAI展示新音頻工具可朗讀文本并模仿聲音