免费一级欧美在线观看视频,俺去啦最新地址,亚洲AV无码ⅤS国产AV古装

AI大戰(zhàn)因Claude 3而升溫，自稱擁有接近人類的能力

責(zé)任編輯：cres

作者：Benj Edwards

2024-03-05 10:57:18

來源：企業(yè)網(wǎng)D1Net

原創(chuàng)

周一，Anthropic發(fā)布了Claude 3，這是一個(gè)AI語言模型，與支持ChatGPT的模型相似。Anthropic聲稱，這些模型在一系列認(rèn)知任務(wù)中設(shè)定了新的行業(yè)基準(zhǔn)，在某些情況下甚至擁有接近人類的能力，它現(xiàn)在可以通過Anthropic的網(wǎng)站購買，最強(qiáng)大的模型只提供訂閱模式，開發(fā)者也可以通過API獲取。

Anthropic最新發(fā)布的Claude 3 的三種模式代表著日益增長的復(fù)雜性和參數(shù)計(jì)數(shù)：Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。Sonnet現(xiàn)在可以通過電子郵件登錄免費(fèi)為Claude.ai聊天機(jī)器人提供動(dòng)力，但如上所述，Opus只有在你每月支付20美元購買“Claude Pro”的情況下才能通過Anthropic的網(wǎng)絡(luò)聊天界面訪問，這是一項(xiàng)通過Anthropic網(wǎng)站提供的訂閱服務(wù)。這三種模式都有一個(gè)200000個(gè)令牌的上下文窗口，上下文窗口是人工智能語言模型可以一次處理的標(biāo)記數(shù)量——單詞的片段。

Claude在2023年3月發(fā)布，Claude 2在同年7月的發(fā)布。每一次，Anthropic在性能上都略低于OpenAI最好的模型，但在上下文窗口長度方面卻超過了它們。憑借Claude 3，Anthropic可能終于在性能方面趕上了OpenAI發(fā)布的模型，盡管專家們還沒有達(dá)成共識(shí)。

據(jù)報(bào)道，Claude 3在各種認(rèn)知任務(wù)中表現(xiàn)出了超凡的表現(xiàn)，包括推理、專業(yè)知識(shí)、數(shù)學(xué)和語言流利性，盡管對(duì)于大型語言模型是否“知道”或“理性”缺乏共識(shí)，但人工智能研究界通常使用這些術(shù)語。該公司聲稱，Opus模型是這三個(gè)模型中最有能力的，它展示了“在復(fù)雜任務(wù)上的近乎人類的理解和流利程度”。

這是一個(gè)相當(dāng)令人興奮的說法，值得更仔細(xì)地分析。在某些特定的基準(zhǔn)上，Opus可能是“近乎人類”的，但這并不意味著Opus是像人類一樣的一般智力，考慮到袖珍計(jì)算器在數(shù)學(xué)方面是超人的，因此，這是一個(gè)刻意吸引眼球的說法，但可以用資格證書來淡化。

根據(jù)Anthropic的數(shù)據(jù)，Claude 3 Opus在10個(gè)人工智能基準(zhǔn)上擊敗了GPT-4，包括MMLU(本科水平知識(shí))、GSM8K(小學(xué)數(shù)學(xué))、HumanEval(編碼)和色彩豐富的HellaSwg(常識(shí))。有幾場比賽的勝率非常小，比如Opus的支持率為86.8%，而MMLU的五桿測試賽的支持率為86.4%，還有一些差距很大，比如人文評(píng)價(jià)的90.7%高于GPT-4的67.0%，但是，作為一名客戶，這對(duì)你到底意味著什么，很難說。

人工智能研究Simon Willison在接受采訪時(shí)談到了Claude 3，他說：“和往常一樣，LLM基準(zhǔn)測試應(yīng)該受到一點(diǎn)懷疑，一個(gè)模型在基準(zhǔn)測試中的表現(xiàn)如何，并不能告訴你該模型的使用‘感覺’如何，但這仍然是一個(gè)巨大的問題——沒有其他模型在一系列廣泛使用的基準(zhǔn)測試中擊敗GPT-4”。

價(jià)格和性能的廣泛范圍

與它的前身相比，Claude 3模型在分析、預(yù)測、內(nèi)容創(chuàng)建、代碼生成和多語言對(duì)話等方面都比Claude 2有了改進(jìn)。據(jù)報(bào)道，這些模型還具有增強(qiáng)的視覺功能，支持模型處理照片、圖表和圖表等視覺格式，類似于GPT-4和谷歌的Gemini。

Anthropic強(qiáng)調(diào)，與前幾代模型相比，這三種模型的速度和成本效益都有所提高。Opus (最大模型)為15美元/百萬個(gè)輸入令牌，75美元/百萬個(gè)輸出令牌，Sonnet (中間模型)為3美元/百萬個(gè)輸入令牌，15美元/百萬個(gè)輸出令牌，Haiku (最小最快模型)為0.25美元/百萬個(gè)輸入令牌，1.25美元/百萬個(gè)輸出令牌。相比之下，OpenAI的GPT-4 Turbo Via API為每百萬個(gè)輸入令牌10美元，每百萬個(gè)輸出令牌30美元，GPT-3.5 Turbo是每百萬個(gè)輸入令牌0.5美元，每百萬個(gè)輸出令牌1.5美元。

當(dāng)我們問Willison對(duì)Claude 3的表現(xiàn)有何感想時(shí)，他說他還沒有感受到這一點(diǎn)，但每種模型的API定價(jià)立即引起了他的注意。Willison說：“未發(fā)布的最便宜的那款看起來極具競爭力，質(zhì)量最好的也是超級(jí)貴的”。

據(jù)報(bào)道，Claude 3模型可以為特定客戶處理多達(dá)100萬枚代幣(類似于Gemini Pro 1.5)，Anthropic聲稱Opus模型在一次基準(zhǔn)測試中實(shí)現(xiàn)了近乎完美的召回，在如此龐大的上下文大小下，準(zhǔn)確率超過99%，此外，該公司表示，Claude 3模型不太可能拒絕無害的提示，并在減少錯(cuò)誤答案的同時(shí)表現(xiàn)出更高的準(zhǔn)確性。

根據(jù)與模型一起發(fā)布的模型卡，Anthropic在訓(xùn)練過程中通過使用合成數(shù)據(jù)獲得了Claude 3的部分能力。合成數(shù)據(jù)是指使用另一種人工智能語言模型在內(nèi)部生成的數(shù)據(jù)，該技術(shù)可以作為一種方式來擴(kuò)大訓(xùn)練數(shù)據(jù)的深度，以表示抓取的數(shù)據(jù)集中可能缺少的場景。Willison說：“合成數(shù)據(jù)是一件大事”。

Anthropic計(jì)劃在接下來的幾個(gè)月里發(fā)布Claude 3模型家族的頻繁更新，以及工具使用、交互式編碼和“高級(jí)代理功能”等新功能，該公司表示，它將繼續(xù)致力于確保安全措施與人工智能性能的進(jìn)步保持同步，并確保Claude 3模型“目前對(duì)災(zāi)難性風(fēng)險(xiǎn)的潛在影響可以忽略不計(jì)”。

Opus和Sonnet模型現(xiàn)在可以通過Anthropic的API購買，Haiku也將緊隨其后。Sonnet也可以通過亞馬遜Bedrock訪問，也可以在谷歌云的Vertex AI模型Garden中以私有模式預(yù)覽。

簡單介紹一下LLM基準(zhǔn)

我們與Claude Pro簽約，通過一些非正式的測試來親自試用Opus。Opus在性能上感覺與ChatGPT-4相似，它不能寫出原創(chuàng)的笑話(似乎都是從網(wǎng)絡(luò)上抄襲來的)，它很擅長總結(jié)信息和用各種風(fēng)格撰寫文本，它在文字問題的邏輯分析方面表現(xiàn)得很好，而且虛構(gòu)確實(shí)看起來相對(duì)較低(但我們?cè)谠儐柛嗷逎脑掝}時(shí)看到了一些疏忽)。

所有這些都不是最終的通過或失敗，在一個(gè)計(jì)算機(jī)產(chǎn)品通常會(huì)輸出硬數(shù)字和可量化基準(zhǔn)的世界里，這可能會(huì)令人沮喪。正如Willison告訴我們的，“作為現(xiàn)代人工智能的一個(gè)關(guān)鍵概念，‘共鳴’又是一個(gè)例子”。

人工智能基準(zhǔn)是棘手的，因?yàn)槿魏稳斯ぶ悄苤值挠行远际腔谒褂玫奶崾竞偷讓尤斯ぶ悄苣Ｐ偷臈l件而高度可變的。人工智能模型可以在“測試”(所謂的測試)上表現(xiàn)良好，但無法將這些能力推廣到新的情況。

此外，人工智能助手的有效性是高度主觀的，這是因?yàn)?，?dāng)你交給它的任務(wù)可能是地球上任何智力領(lǐng)域的任何任務(wù)時(shí)，讓人工智能模型成功地完成你想做的事情是很難量化的(比如，在基準(zhǔn)指標(biāo)中)。有些模型對(duì)某些任務(wù)效果很好，而對(duì)其他任務(wù)效果不佳，這可能會(huì)因任務(wù)和提示方式的不同而有所不同。

這適用于谷歌、OpenAI和Meta等供應(yīng)商的每一個(gè)大型語言模型——不僅僅是Claude 3。隨著時(shí)間的推移，人們發(fā)現(xiàn)每個(gè)模型都有自己的特點(diǎn)，每個(gè)模型的優(yōu)缺點(diǎn)都可以使用某些提示技術(shù)來接受或解決。目前，主要的人工智能助手似乎正在適應(yīng)一套非常相似的功能。

因此，關(guān)鍵是，當(dāng)Anthropic說Claude 3可以超過GPT-4 Turbo，目前GPT-4 Turbo在一般能力和低幻覺方面仍被廣泛視為市場領(lǐng)先者時(shí)，人們需要對(duì)此持保留態(tài)度——或者說是某種程度的共鳴。如果你正在考慮不同的模型，關(guān)鍵是親自測試每個(gè)模型，看看它是否適合你的應(yīng)用程序，因?yàn)楹芸赡軟]有其他人可以復(fù)制你將在其中使用它的確切環(huán)境。

企業(yè)網(wǎng)D1net(r5u5c.cn)：

國內(nèi)主流的to B IT門戶，同時(shí)在運(yùn)營國內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_(tái)-信眾智(www.cioall.com)。同時(shí)運(yùn)營19個(gè)IT行業(yè)公眾號(hào)(微信搜索D1net即可關(guān)注)。

版權(quán)聲明：本文為企業(yè)網(wǎng)D1Net編譯，轉(zhuǎn)載需在文章開頭注明出處為：企業(yè)網(wǎng)D1Net，如果不注明出處，企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。

AI Anthropic