OpenAI 近期推出了炙手可熱的文本轉(zhuǎn)視頻生成模型 Sora,然而該公司首席技術(shù)官 (CTO) Mira Murati 在接受華爾街日報采訪時卻語焉不詳,無法明確說明 Sora 的訓練數(shù)據(jù)來源。
在采訪中,記者直接詢問 Murati 關(guān)于 Sora 訓練數(shù)據(jù)來源時,她僅以含糊的官方話術(shù)搪塞:“我們使用的是公開可用數(shù)據(jù)和許可數(shù)據(jù)!
當記者追問具體來源是否包含 YouTube 視頻時,Murati 竟然表示“我實際上并不確定(I'm actually not sure about that)”,并拒絕回答有關(guān) Instagram 或 Facebook 視頻是否被納入訓練集的問題。她辯稱,如果這些視頻是公開可用且可以使用的,那么可能會被使用,但她本人對此并不確定。
當記者詢問 OpenAI 是否與其合作伙伴圖片素材公司 Shutterstock 達成過數(shù)據(jù)訓練方面的合作,Murati 索性拒絕繼續(xù)討論數(shù)據(jù)來源話題。
Murati 甚至回避記者關(guān)于 OpenAI 與圖片素材巨頭 Shutterstock 的數(shù)據(jù)合作,拒絕透露來自該平臺的視頻是否被用于訓練 Sora。最終,她干脆中止了相關(guān)討論,堅稱數(shù)據(jù)來源“肯定是公開可用或經(jīng)過許可的”,卻無法給出任何具體細節(jié)。
Murati 這番閃爍其詞的做法讓 OpenAI 陷入尷尬境地。此前,該公司就因數(shù)據(jù)抓取行為引發(fā)廣泛爭議,甚至面臨多起版權(quán)訴訟,其中就包括紐約時報的指控。如今,連 CTO 都無法說清其最熱門模型的訓練數(shù)據(jù)來源,難免讓人懷疑 OpenAI 高層對該問題的重視程度。
據(jù)報道,采訪結(jié)束后,Murati 私下承認了確有使用 Shutterstock 視頻訓練 Sora。然而,相較于網(wǎng)絡上浩如煙海的視頻內(nèi)容,來自 Shutterstock 的素材可能只是 Sora 訓練數(shù)據(jù)的一小部分。
Murati 的諱莫如深引發(fā)了網(wǎng)友熱議。不少人認為她缺乏坦誠,質(zhì)疑其對自身產(chǎn)品的了解程度。有人直言,CTO 竟然對如此關(guān)鍵的問題不知情,實在令人難以置信。
然而,也有人為 Murati 辯護,認為既然內(nèi)容已經(jīng)發(fā)布到網(wǎng)絡,就應該允許人工智能公司加以利用。他們認為,用戶既然選擇公開內(nèi)容,就應該承擔被使用的風險。
Murati 的回避行為究竟是為了防止更多版權(quán)糾紛,還是真的對數(shù)據(jù)來源一無所知,我們不得而知。但可以肯定的是,公眾有權(quán)質(zhì)疑這些“公開可用且經(jīng)過許可”的 AI 訓練數(shù)據(jù)究竟來自何處。未來,含糊其辭的官方說辭恐怕難以平息人們的疑慮。