當(dāng)?shù)貢r(shí)間周二(7月30日),美國(guó)人工智能(AI)研究公司OpenAI宣布,即日起開(kāi)始向部分ChatGPT Plus用戶(hù)推出GPT-4o的語(yǔ)音模式。
據(jù)OpenAI介紹,高級(jí)語(yǔ)音模式能提供更自然的實(shí)時(shí)對(duì)話(huà),允許用戶(hù)隨時(shí)打斷,并能感知和響應(yīng)用戶(hù)的情緒。實(shí)時(shí)響應(yīng)和可打斷對(duì)話(huà)是目前語(yǔ)音助手公認(rèn)的技術(shù)難點(diǎn)。
OpenAI在今年5月推出了新版本大模型GPT-4o,同時(shí)還展示出了語(yǔ)音模式。該公司原定于6月底開(kāi)始逐步向用戶(hù)開(kāi)放語(yǔ)音模式,但最終決定推遲至7月發(fā)布。語(yǔ)音模式將于今年秋季向所有ChatGPT Plus用戶(hù)開(kāi)放。
OpenAI周二表示:“通過(guò)逐步推出,我們可以密切監(jiān)控使用情況,并根據(jù)實(shí)際反饋不斷改進(jìn)模型的能力和安全性!痹摴具透露,它仍在開(kāi)發(fā)5月發(fā)布會(huì)期間展示的視頻和屏幕共享功能。這些功能尚未確定推出時(shí)間。
因此,語(yǔ)音模式初期的功能將比較有限。例如,ChatGPT將無(wú)法使用計(jì)算機(jī)視覺(jué)功能,該功能可讓聊天機(jī)器人通過(guò)智能手機(jī)的攝像頭對(duì)用戶(hù)的舞蹈動(dòng)作提供語(yǔ)音反饋。
目前GPT-4o語(yǔ)音模式可使用四種預(yù)設(shè)聲音,Juniper、Breeze、Cove和Ember,這些聲音是與付費(fèi)配音演員合作制作的。
此前,ChatGPT一款名為Sky的女性配音被指與好萊塢明星斯嘉麗·約翰遜十分相似。在收到約翰遜團(tuán)隊(duì)的律師函后,OpenAI暫停使用Sky語(yǔ)音。
OpenAI還表示,它已引入了新的過(guò)濾器,以確保軟件能夠發(fā)現(xiàn)并拒絕某些生成音樂(lè)或其他形式的受版權(quán)保護(hù)的音頻的請(qǐng)求。對(duì)于AI公司而言,避免陷入法律糾紛已成為格外需要警惕的事項(xiàng)。