由于面臨美國(guó)芯片限制和比西方同行更少的預(yù)算,中國(guó)人工智能(AI)公司正在降低成本以創(chuàng)建具有競(jìng)爭(zhēng)力的模型。01.ai(零一萬(wàn)物)和DeepSeek(深度求索)等初創(chuàng)公司通過(guò)采取一些策略來(lái)降低價(jià)格,例如專(zhuān)注于較小的數(shù)據(jù)集來(lái)訓(xùn)練人工智能模型,以及聘請(qǐng)低價(jià)但熟練的計(jì)算機(jī)工程師。
阿里巴巴、百度和字節(jié)跳動(dòng)等大型科技集團(tuán)也展開(kāi)了價(jià)格戰(zhàn),以降低“推理”成本(即調(diào)用大型語(yǔ)言模型生成響應(yīng)的價(jià)格),大模型價(jià)格下降90%以上,僅為美國(guó)同行的一小部分。
總部位于北京的01.ai由前谷歌中國(guó)區(qū)總裁李開(kāi)復(fù)領(lǐng)導(dǎo),該公司表示,通過(guò)構(gòu)建以較少數(shù)據(jù)量進(jìn)行訓(xùn)練、需要較少計(jì)算能力的模型并優(yōu)化硬件,該公司已經(jīng)降低了推理成本。
李開(kāi)復(fù)表示:“中國(guó)的優(yōu)勢(shì)在于制造出真正價(jià)格實(shí)惠的推理引擎,然后讓其應(yīng)用廣泛傳播!
近日,在加州大學(xué)伯克利分校SkyLab和LMSYS的研究人員發(fā)布的排名中,01.ai的Yi-Lightning模型與馬斯克名下公司x.AI的Grok-2在LLM(大模型)公司中并列第三,但落后于OpenAI和谷歌。
評(píng)估基于用戶(hù)對(duì)不同模型對(duì)查詢(xún)答案的評(píng)分。字節(jié)跳動(dòng)、阿里巴巴和DeepSeek等其他中國(guó)公司也在大模型排名榜上名列前茅。
01.ai的Yi-Lightning的推理成本為每百萬(wàn)token 14美分,而OpenAI的較小模型GPT o1-mini的推理成本為26美分。與此同時(shí),OpenAI規(guī)模更大的GPT 4o的推理成本為每百萬(wàn)token 4.40美元。用于生成響應(yīng)的token數(shù)量取決于查詢(xún)的復(fù)雜性。
李開(kāi)復(fù)還表示,Yi-Lightning的“預(yù)訓(xùn)練”成本為300萬(wàn)美元,初始模型訓(xùn)練之后可以針對(duì)不同用例進(jìn)行微調(diào)或定制。這只是OpenAI等公司對(duì)其大型模型所報(bào)成本的一小部分。他補(bǔ)充說(shuō),其目標(biāo)不是擁有“最佳模型”,而是一個(gè)具有競(jìng)爭(zhēng)力的模型,開(kāi)發(fā)人員使用它來(lái)構(gòu)建應(yīng)用程序的成本“要低5到10倍”。
01.ai、DeepSeek、MiniMax、Stepfun等許多中國(guó)人工智能團(tuán)體都采用了所謂的“混合專(zhuān)家模型(MoE)”方法,這一策略首先由美國(guó)研究人員推廣。
該方法不是在從互聯(lián)網(wǎng)和其他來(lái)源抓取數(shù)據(jù)的龐大數(shù)據(jù)庫(kù)上一次性訓(xùn)練一個(gè)“密集模型”,而是結(jié)合了許多針對(duì)行業(yè)特定數(shù)據(jù)進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。
研究人員認(rèn)為,混合專(zhuān)家模型方法是實(shí)現(xiàn)與密集模型相同智能水平但計(jì)算能力較低的關(guān)鍵方法。但這種方法更容易失敗,因?yàn)楣こ處煴仨殔f(xié)調(diào)多個(gè)“專(zhuān)家”的訓(xùn)練過(guò)程,而不是在一個(gè)模型中。
由于難以獲得穩(wěn)定充足的高端人工智能芯片供應(yīng),中國(guó)人工智能企業(yè)在過(guò)去一年中一直在競(jìng)相開(kāi)發(fā)最高質(zhì)量的數(shù)據(jù)集,以訓(xùn)練這些“專(zhuān)家”,從而使自己在競(jìng)爭(zhēng)中脫穎而出。
李開(kāi)復(fù)說(shuō):“中國(guó)的優(yōu)勢(shì)不在于在預(yù)算不受限制的情況下,進(jìn)行前所未有的突破性研究。中國(guó)的優(yōu)勢(shì)在于建設(shè)得好、快、可靠且便宜!