周一,OpenAI發(fā)布了一款名為GPT-4o的新旗艦生成式人工智能模型,并計(jì)劃在未來幾周內(nèi)逐步在其各種產(chǎn)品中推出。OpenAI的首席技術(shù)官M(fèi)uri Murati介紹說,GPT-4o在保持GPT-4級(jí)別的智能的同時(shí),對(duì)文本、視覺和音頻功能進(jìn)行了改進(jìn),所有用戶均可免費(fèi)使用,而付費(fèi)用戶的容量限制是免費(fèi)用戶的五倍。
Murati在OpenAI辦公室的一次主題演講中提到,GPT-4o跨越了語音、文本和視覺的多個(gè)領(lǐng)域。OpenAI將推出桌面版ChatGPT及全新用戶界面。
GPT-4是OpenAI之前的領(lǐng)先模型,它集成了圖像和文本功能,能夠分析圖像和文本,完成從提取圖像中的文本到描述圖像內(nèi)容等任務(wù)。而GPT-4o在此基礎(chǔ)上增加了語音功能。
這一改進(jìn)帶來了哪些新功能?包括但不限于以下幾點(diǎn):
GPT-4o顯著提升了ChatGPT的使用體驗(yàn)—ChatGPT是OpenAI的人工智能聊天機(jī)器人。雖然ChatGPT長期支持語音模式,將ChatGPT 的文本轉(zhuǎn)為語音,但GPT-4o在此基礎(chǔ)上進(jìn)行了優(yōu)化,使用戶能夠更像與助手互動(dòng)一樣自然地使用ChatGPT。
例如,用戶現(xiàn)在可以在ChatGPT回答問題時(shí)中斷它,而OpenAI表示,新模型能夠提供“實(shí)時(shí)”響應(yīng),甚至能夠捕捉到用戶聲音中的情感,并以不同的情感風(fēng)格生成語音。
GPT-4o還增強(qiáng)了ChatGPT的視覺功能。通過照片或屏幕截圖,ChatGPT現(xiàn)在可以迅速回答相關(guān)問題,從“這段代碼是做什么用的”到“這個(gè)人穿的是什么品牌的襯衫”。
從即日起,GPT-4o將在ChatGPT的免費(fèi)版本中提供,而OpenAI的高級(jí)版本ChatGPT Plus和Team用戶則可享有“五倍消息限制”的優(yōu)勢(shì),企業(yè)選項(xiàng)也將“即將推出”(當(dāng)用戶達(dá)到使用閾值時(shí),系統(tǒng)將自動(dòng)轉(zhuǎn)為使用 GPT-3.5)。OpenAI表示,計(jì)劃在下月左右為Plus用戶推出改良后的GPT-4o語音體驗(yàn)。
OpenAI還表示,GPT-4o的多語言功能得到了增強(qiáng),在50種不同的語言中表現(xiàn)更佳。在OpenAI的API中,GPT-4o的處理速度是GPT-4(特別是 GPT-4 Turbo)的兩倍,價(jià)格則是GPT-4 Turbo的一半,同時(shí)擁有更高的速率限制。
用戶只需發(fā)出簡(jiǎn)單的“嘿,ChatGPT”語音提示,即可獲得代理的口語回應(yīng)。然后,用戶可以用口語提交查詢,并在必要時(shí)附上文字、音頻或視覺效果——后者可包括照片、手機(jī)攝像頭的實(shí)時(shí)畫面或代理能“看到”的任何其他內(nèi)容。
在音頻輸入方面,人工智能的平均響應(yīng)時(shí)間為320毫秒,與人類的對(duì)話響應(yīng)時(shí)間類似。
目前,GPT-4o的應(yīng)用程序接口中尚未為所有客戶提供語音功能。鑒于濫用風(fēng)險(xiǎn),OpenAI計(jì)劃在未來幾周內(nèi)首先向“一小部分可信賴的合作伙伴”推出對(duì)GPT-4o新音頻功能的支持。
其他方面,OpenAI將在網(wǎng)絡(luò)上發(fā)布全新的ChatGPT UI,新的主屏幕和消息布局“更具對(duì)話性”,同時(shí)還將發(fā)布桌面版的ChatGPT for Mac,用戶可以通過鍵盤快捷鍵向ChatGPT提問,也可以通過打字或說話截圖并進(jìn)行討論(從今天開始,Plus用戶將首先獲得訪問權(quán)限,Windows版本的應(yīng)用程序?qū)⒂诮衲晖硇⿻r(shí)候推出)。此外,ChatGPT的免費(fèi)用戶現(xiàn)在還可以訪問GPT Store(OpenAI 基于其人工智能模型構(gòu)建的第三方聊天機(jī)器人庫)。
GPT-4o的文本和圖像功能已經(jīng)開始向付費(fèi)的ChatGPT Plus和Team用戶推出,企業(yè)用戶也即將推出。免費(fèi)用戶也將開始使用,但有使用限制。
語音版GPT-4o將“在未來幾周內(nèi)”開始提供。開發(fā)人員將能夠使用GPT-4o的文本和視覺模式,并在未來幾周內(nèi)向“一小部分值得信賴的合作伙伴”提供音頻和視頻功能。