OpenAI展示新音頻工具 可朗讀文本并模仿聲音

2024-04-02 08:41:15   來(lái)源:新浪科技   評(píng)論:0   [收藏]   [評(píng)論]
導(dǎo)讀:  OpenAI公布了一項(xiàng)功能的早期測(cè)試結(jié)果,該功能可用令人信服的人聲朗讀文字。這彰顯了人工智能的一個(gè)新領(lǐng)域,并引發(fā)了關(guān)于深度偽造的擔(dān)憂! ≡摴痉窒砹嗣麨檎Z(yǔ)音引擎(Voice Engine)的文本轉(zhuǎn)語(yǔ)音模型小規(guī)模
  OpenAI公布了一項(xiàng)功能的早期測(cè)試結(jié)果,該功能可用令人信服的人聲朗讀文字。這彰顯了人工智能的一個(gè)新領(lǐng)域,并引發(fā)了關(guān)于深度偽造的擔(dān)憂。

  該公司分享了名為“語(yǔ)音引擎”(Voice Engine)的文本轉(zhuǎn)語(yǔ)音模型小規(guī)模試用的早期演示和用例,據(jù)發(fā)言人介紹,目前約有10家開(kāi)發(fā)商可使用該模型。OpenAI在3月早些時(shí)候向記者介紹了這一功能,但決定暫不大規(guī)模發(fā)布。

  OpenAI的發(fā)言人說(shuō)該公司在收到政策制定者、行業(yè)專家、教育工作者和創(chuàng)意人士等利益相關(guān)方的反饋后決定縮減發(fā)布規(guī)模。據(jù)早前的新聞發(fā)布會(huì)介紹,該公司原本計(jì)劃通過(guò)申請(qǐng)流程向多達(dá)100家開(kāi)發(fā)商發(fā)布該工具。

  其他AI技術(shù)已經(jīng)在某些情境下被用來(lái)偽造聲音。今年1月,一通自稱喬·拜登(Joe Biden)總統(tǒng)打來(lái)的以假亂真的電話呼吁新罕布什爾州居民不要在初選中投票,這一事件在全球關(guān)鍵選舉前加劇了對(duì)AI的恐懼。

  與OpenAI過(guò)去生成音頻的功能不同,語(yǔ)音引擎可以創(chuàng)建聽(tīng)起來(lái)像具體個(gè)人的聲音,并完整呈現(xiàn)特有的語(yǔ)調(diào)和語(yǔ)氣。該軟件只需要一段15秒的錄音,即可重現(xiàn)一個(gè)人的聲音。

  “只要音頻設(shè)置得當(dāng),基本就能得出人類水準(zhǔn)的聲音。”OpenAI產(chǎn)品負(fù)責(zé)人杰夫·哈里斯(Jeff Harris)說(shuō),“這種技術(shù)質(zhì)量非常了不起。”但哈里斯也表示,“準(zhǔn)確模仿人類語(yǔ)音的能力顯然存在很多安全上的不確定性。”

  非營(yíng)利性醫(yī)療系統(tǒng)Lifespan旗下的Norman Prince Neurosciences Institute是OpenAI目前的開(kāi)發(fā)合作伙伴之一,該機(jī)構(gòu)正在利用此項(xiàng)技術(shù)幫助患者恢復(fù)聲音。例如,據(jù)OpenAI的博客文章,該工具被用于恢復(fù)一位因腦瘤失去清晰說(shuō)話能力的年輕患者的聲音,方法是復(fù)制她此前為一個(gè)學(xué)校項(xiàng)目錄制的發(fā)言。

  OpenAI的自定義語(yǔ)音模型還可將生成的音頻翻譯成不同語(yǔ)言。這對(duì)于音頻行業(yè)公司非常有用,比如Spotify Technology SA。Spotify已經(jīng)在自己的試點(diǎn)計(jì)劃中利用該技術(shù)來(lái)翻譯萊克斯·弗里德曼(Lex Fridman)等熱門主持人的播客節(jié)目。OpenAI還宣傳了該技術(shù)的其他有益應(yīng)用,例如為兒童教育內(nèi)容創(chuàng)建更多樣化的聲音。

  在測(cè)試計(jì)劃中,OpenAI要求合作伙伴同意其使用政策,即在使用原始聲音前征得聲音主人的同意,并告知聽(tīng)眾他們聽(tīng)到的是AI生成的聲音。該公司還加入了聽(tīng)不見(jiàn)的音頻水印,以判斷哪些音頻由其工具創(chuàng)建。

  OpenAI表示在決定是否大范圍發(fā)布該功能前,正在征求外部專家的反饋。該公司在博文中表示:“讓全球人民了解這項(xiàng)技術(shù)的發(fā)展方向至關(guān)重要,不論我們最終是否親自廣泛部署它。”

  OpenAI還寫道,希望其軟件的試用能“激發(fā)增強(qiáng)社會(huì)韌性的需求”,以應(yīng)對(duì)更先進(jìn)的AI技術(shù)帶來(lái)的挑戰(zhàn)。例如,該公司呼吁銀行逐步停止將語(yǔ)音身份驗(yàn)證作為訪問(wèn)銀行賬戶和敏感信息的安全措施。它還尋求開(kāi)展公眾教育,幫助大家了解欺騙性的AI內(nèi)容,并開(kāi)發(fā)更多技術(shù)來(lái)檢測(cè)音頻內(nèi)容是否由AI生成。

分享到:
責(zé)任編輯:zsz

網(wǎng)友評(píng)論