AI大戰(zhàn)因Claude 3而升溫,自稱擁有接近人類的能力

責(zé)任編輯:cres

作者:Benj Edwards

2024-03-05 10:57:18

來源:企業(yè)網(wǎng)D1Net

原創(chuàng)

周一,Anthropic發(fā)布了Claude 3,這是一個(gè)AI語言模型,與支持ChatGPT的模型相似。Anthropic聲稱,這些模型在一系列認(rèn)知任務(wù)中設(shè)定了新的行業(yè)基準(zhǔn),在某些情況下甚至擁有接近人類的能力,它現(xiàn)在可以通過Anthropic的網(wǎng)站購買,最強(qiáng)大的模型只提供訂閱模式,開發(fā)者也可以通過API獲取。

Anthropic最新發(fā)布的Claude 3 的三種模式代表著日益增長的復(fù)雜性和參數(shù)計(jì)數(shù):Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。Sonnet現(xiàn)在可以通過電子郵件登錄免費(fèi)為Claude.ai聊天機(jī)器人提供動(dòng)力,但如上所述,Opus只有在你每月支付20美元購買“Claude Pro”的情況下才能通過Anthropic的網(wǎng)絡(luò)聊天界面訪問,這是一項(xiàng)通過Anthropic網(wǎng)站提供的訂閱服務(wù)。這三種模式都有一個(gè)200000個(gè)令牌的上下文窗口,上下文窗口是人工智能語言模型可以一次處理的標(biāo)記數(shù)量——單詞的片段。
 
Claude在2023年3月發(fā)布,Claude 2在同年7月的發(fā)布。每一次,Anthropic在性能上都略低于OpenAI最好的模型,但在上下文窗口長度方面卻超過了它們。憑借Claude 3,Anthropic可能終于在性能方面趕上了OpenAI發(fā)布的模型,盡管專家們還沒有達(dá)成共識(shí)。
 
據(jù)報(bào)道,Claude 3在各種認(rèn)知任務(wù)中表現(xiàn)出了超凡的表現(xiàn),包括推理、專業(yè)知識(shí)、數(shù)學(xué)和語言流利性,盡管對(duì)于大型語言模型是否“知道”或“理性”缺乏共識(shí),但人工智能研究界通常使用這些術(shù)語。該公司聲稱,Opus模型是這三個(gè)模型中最有能力的,它展示了“在復(fù)雜任務(wù)上的近乎人類的理解和流利程度”。
 
這是一個(gè)相當(dāng)令人興奮的說法,值得更仔細(xì)地分析。在某些特定的基準(zhǔn)上,Opus可能是“近乎人類”的,但這并不意味著Opus是像人類一樣的一般智力,考慮到袖珍計(jì)算器在數(shù)學(xué)方面是超人的,因此,這是一個(gè)刻意吸引眼球的說法,但可以用資格證書來淡化。
 
根據(jù)Anthropic的數(shù)據(jù),Claude 3 Opus在10個(gè)人工智能基準(zhǔn)上擊敗了GPT-4,包括MMLU(本科水平知識(shí))、GSM8K(小學(xué)數(shù)學(xué))、HumanEval(編碼)和色彩豐富的HellaSwg(常識(shí))。有幾場比賽的勝率非常小,比如Opus的支持率為86.8%,而MMLU的五桿測試賽的支持率為86.4%,還有一些差距很大,比如人文評(píng)價(jià)的90.7%高于GPT-4的67.0%,但是,作為一名客戶,這對(duì)你到底意味著什么,很難說。
 
人工智能研究Simon Willison在接受采訪時(shí)談到了Claude 3,他說:“和往常一樣,LLM基準(zhǔn)測試應(yīng)該受到一點(diǎn)懷疑,一個(gè)模型在基準(zhǔn)測試中的表現(xiàn)如何,并不能告訴你該模型的使用‘感覺’如何,但這仍然是一個(gè)巨大的問題——沒有其他模型在一系列廣泛使用的基準(zhǔn)測試中擊敗GPT-4”。
 
價(jià)格和性能的廣泛范圍
 
與它的前身相比,Claude 3模型在分析、預(yù)測、內(nèi)容創(chuàng)建、代碼生成和多語言對(duì)話等方面都比Claude 2有了改進(jìn)。據(jù)報(bào)道,這些模型還具有增強(qiáng)的視覺功能,支持模型處理照片、圖表和圖表等視覺格式,類似于GPT-4和谷歌的Gemini。
 
Anthropic強(qiáng)調(diào),與前幾代模型相比,這三種模型的速度和成本效益都有所提高。Opus (最大模型)為15美元/百萬個(gè)輸入令牌,75美元/百萬個(gè)輸出令牌,Sonnet (中間模型)為3美元/百萬個(gè)輸入令牌,15美元/百萬個(gè)輸出令牌,Haiku (最小最快模型)為0.25美元/百萬個(gè)輸入令牌,1.25美元/百萬個(gè)輸出令牌。相比之下,OpenAI的GPT-4 Turbo Via API為每百萬個(gè)輸入令牌10美元,每百萬個(gè)輸出令牌30美元,GPT-3.5 Turbo是每百萬個(gè)輸入令牌0.5美元,每百萬個(gè)輸出令牌1.5美元。
 
當(dāng)我們問Willison對(duì)Claude 3的表現(xiàn)有何感想時(shí),他說他還沒有感受到這一點(diǎn),但每種模型的API定價(jià)立即引起了他的注意。Willison說:“未發(fā)布的最便宜的那款看起來極具競爭力,質(zhì)量最好的也是超級(jí)貴的”。
 
據(jù)報(bào)道,Claude 3模型可以為特定客戶處理多達(dá)100萬枚代幣(類似于Gemini Pro 1.5),Anthropic聲稱Opus模型在一次基準(zhǔn)測試中實(shí)現(xiàn)了近乎完美的召回,在如此龐大的上下文大小下,準(zhǔn)確率超過99%,此外,該公司表示,Claude 3模型不太可能拒絕無害的提示,并在減少錯(cuò)誤答案的同時(shí)表現(xiàn)出更高的準(zhǔn)確性。
 
根據(jù)與模型一起發(fā)布的模型卡,Anthropic在訓(xùn)練過程中通過使用合成數(shù)據(jù)獲得了Claude 3的部分能力。合成數(shù)據(jù)是指使用另一種人工智能語言模型在內(nèi)部生成的數(shù)據(jù),該技術(shù)可以作為一種方式來擴(kuò)大訓(xùn)練數(shù)據(jù)的深度,以表示抓取的數(shù)據(jù)集中可能缺少的場景。Willison說:“合成數(shù)據(jù)是一件大事”。
 
Anthropic計(jì)劃在接下來的幾個(gè)月里發(fā)布Claude 3模型家族的頻繁更新,以及工具使用、交互式編碼和“高級(jí)代理功能”等新功能,該公司表示,它將繼續(xù)致力于確保安全措施與人工智能性能的進(jìn)步保持同步,并確保Claude 3模型“目前對(duì)災(zāi)難性風(fēng)險(xiǎn)的潛在影響可以忽略不計(jì)”。
 
Opus和Sonnet模型現(xiàn)在可以通過Anthropic的API購買,Haiku也將緊隨其后。Sonnet也可以通過亞馬遜Bedrock訪問,也可以在谷歌云的Vertex AI模型Garden中以私有模式預(yù)覽。
 
簡單介紹一下LLM基準(zhǔn)
 
我們與Claude Pro簽約,通過一些非正式的測試來親自試用Opus。Opus在性能上感覺與ChatGPT-4相似,它不能寫出原創(chuàng)的笑話(似乎都是從網(wǎng)絡(luò)上抄襲來的),它很擅長總結(jié)信息和用各種風(fēng)格撰寫文本,它在文字問題的邏輯分析方面表現(xiàn)得很好,而且虛構(gòu)確實(shí)看起來相對(duì)較低(但我們?cè)谠儐柛嗷逎脑掝}時(shí)看到了一些疏忽)。
 
所有這些都不是最終的通過或失敗,在一個(gè)計(jì)算機(jī)產(chǎn)品通常會(huì)輸出硬數(shù)字和可量化基準(zhǔn)的世界里,這可能會(huì)令人沮喪。正如Willison告訴我們的,“作為現(xiàn)代人工智能的一個(gè)關(guān)鍵概念,‘共鳴’又是一個(gè)例子”。
 
人工智能基準(zhǔn)是棘手的,因?yàn)槿魏稳斯ぶ悄苤值挠行远际腔谒褂玫奶崾竞偷讓尤斯ぶ悄苣P偷臈l件而高度可變的。人工智能模型可以在“測試”(所謂的測試)上表現(xiàn)良好,但無法將這些能力推廣到新的情況。
 
此外,人工智能助手的有效性是高度主觀的,這是因?yàn)?,?dāng)你交給它的任務(wù)可能是地球上任何智力領(lǐng)域的任何任務(wù)時(shí),讓人工智能模型成功地完成你想做的事情是很難量化的(比如,在基準(zhǔn)指標(biāo)中)。有些模型對(duì)某些任務(wù)效果很好,而對(duì)其他任務(wù)效果不佳,這可能會(huì)因任務(wù)和提示方式的不同而有所不同。
 
這適用于谷歌、OpenAI和Meta等供應(yīng)商的每一個(gè)大型語言模型——不僅僅是Claude 3。隨著時(shí)間的推移,人們發(fā)現(xiàn)每個(gè)模型都有自己的特點(diǎn),每個(gè)模型的優(yōu)缺點(diǎn)都可以使用某些提示技術(shù)來接受或解決。目前,主要的人工智能助手似乎正在適應(yīng)一套非常相似的功能。
 
因此,關(guān)鍵是,當(dāng)Anthropic說Claude 3可以超過GPT-4 Turbo,目前GPT-4 Turbo在一般能力和低幻覺方面仍被廣泛視為市場領(lǐng)先者時(shí),人們需要對(duì)此持保留態(tài)度——或者說是某種程度的共鳴。如果你正在考慮不同的模型,關(guān)鍵是親自測試每個(gè)模型,看看它是否適合你的應(yīng)用程序,因?yàn)楹芸赡軟]有其他人可以復(fù)制你將在其中使用它的確切環(huán)境。
 
企業(yè)網(wǎng)D1net(r5u5c.cn):
 
國內(nèi)主流的to B IT門戶,同時(shí)在運(yùn)營國內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_(tái)-信眾智(www.cioall.com)。同時(shí)運(yùn)營19個(gè)IT行業(yè)公眾號(hào)(微信搜索D1net即可關(guān)注)。
 
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需在文章開頭注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)