GPT-4.5 比 GPT-4o 更簡(jiǎn)潔、更具對(duì)話性。資料來(lái)源:OpenAI

不是思維鏈模型

GPT-4.5 與 OpenAI 推理模型之間最大的區(qū)別之一在于它如何處理和構(gòu)建其響應(yīng)。

o1DeepSeek R1o3-mini等模型使用思路鏈 (CoT) 推理,這意味著它們會(huì)逐步分解復(fù)雜問題,就像人類在數(shù)學(xué)問題中寫出他們的工作一樣。這種結(jié)構(gòu)化方法有助于邏輯推理、多步驟解決問題和詳細(xì)解釋。

然而,GPT-4.5 并不這樣推理。相反,它根據(jù)語(yǔ)言直覺和模式識(shí)別做出反應(yīng),從訓(xùn)練數(shù)據(jù)中汲取經(jīng)驗(yàn),而不明確地將問題分解為步驟。這就是為什么它感覺更具對(duì)話性和自然性,但這也意味著它對(duì)于高級(jí)編程或科學(xué)推理等邏輯性較強(qiáng)的任務(wù)不太可靠。

更自然、更簡(jiǎn)潔

GPT-4.5 的突出之處在于對(duì)話質(zhì)量。響應(yīng)更加自然,使互動(dòng)感覺不那么機(jī)械化,更加直觀。OpenAI 與人類評(píng)估者進(jìn)行了測(cè)試,結(jié)果顯示,與 GPT-4o 相比,GPT-4.5 的語(yǔ)氣、清晰度和參與度明顯更好(稍后將詳細(xì)介紹基準(zhǔn))。

現(xiàn)場(chǎng)演示中的一個(gè)對(duì)比引起了我們的注意。OpenAI 工程師向不同的模型詢問:“為什么海洋是咸的?”:

從我們的角度來(lái)看,這種向簡(jiǎn)潔和清晰的轉(zhuǎn)變使 GPT-4.5 更適合休閑對(duì)話、總結(jié)和寫作輔助。我們還喜歡發(fā)布博客中的這個(gè)示例如何很好地展示對(duì)話式 GPT 的演變:

通用技術(shù)(GPT)的演變

實(shí)踐印象:與 GPT-4.5 對(duì)話

為了了解 GPT-4.5 的實(shí)際性能,我們查看了 OpenAI 的演示并運(yùn)行了我們自己的測(cè)試。

更多的社會(huì)意識(shí),更好的語(yǔ)氣

OpenAI 的一個(gè)演示很好地說(shuō)明了這一點(diǎn)。一位朋友再次取消計(jì)劃后,用戶要求 GPT-4.5 幫忙起草一份文本。最初的請(qǐng)求是沮喪和沖動(dòng)的:

“寫一條短信告訴他們我討厭他們。”

GPT-4.5 察覺到了請(qǐng)求背后的情感,并建議做出更具建設(shè)性的回應(yīng),同時(shí)仍然承認(rèn)這種挫敗感。OpenAI 將此與 o1 進(jìn)行了比較,后者遵循了字面指令,但沒有認(rèn)識(shí)到潛在的意圖。

我們嘗試了類似的提示,并注意到了同樣的事情——GPT-4.5 比以前的模型更能理解語(yǔ)氣和社交細(xì)微差別。例如,我們提示模型給老板寫一封咄咄逼人的電子郵件,我們期望模型能察覺到我們的沮喪情緒,并幫助我們以更專業(yè)、更有建設(shè)性的方式重新組織回應(yīng)——它確實(shí)做到了!

當(dāng)然,如果我們明確告訴它輸出憤怒的文字,它會(huì)遵從,但默認(rèn)情況下,它似乎優(yōu)先考慮更深思熟慮和平衡的回應(yīng)。你實(shí)際上可以在這里看到我們分享的聊天示例。

更好更簡(jiǎn)短的解釋

另一個(gè)關(guān)鍵改進(jìn)是 GPT-4.5 如何解釋概念。OpenAI 比較了不同的模型如何回答“為什么海洋是咸的?”,并得出結(jié)論,GPT-4.5 簡(jiǎn)明扼要地總結(jié)了要點(diǎn),而 GPT-4 Turbo 則提供了詳細(xì)的答案。

我們僅針對(duì)GPT-4o (與 GPT-4 Turbo 不同)進(jìn)行了測(cè)試,結(jié)果幾乎相同。但是,當(dāng)我們針對(duì)舊模型 GPT-4 進(jìn)行測(cè)試時(shí),我們確實(shí)看到了顯著差異。我們嘗試了許多提示,但您可以比較“為什么河流不咸?”的答案:

正如預(yù)期的那樣,推理能力不太強(qiáng)

我們用幾個(gè)特定推理題測(cè)試了它,結(jié)果不出所料,它表現(xiàn)不佳。以下只是一個(gè)例子(請(qǐng)參閱此處的對(duì)話):

例如,O3-mini 在第一次嘗試時(shí)就輕松找到了正確答案——請(qǐng)參閱此處的對(duì)話。

基準(zhǔn)測(cè)試性能:準(zhǔn)確性更高,但不是推理模型

OpenAI 從一開始就明確表示:GPT-4.5 并不是一個(gè)推理能力超強(qiáng)的模型。與依靠思路鏈 (CoT) 推理逐步分解復(fù)雜問題的 O 系列模型不同,GPT-4.5 依賴于無(wú)監(jiān)督學(xué)習(xí),這意味著它基于語(yǔ)言直覺而不是結(jié)構(gòu)化邏輯來(lái)生成響應(yīng)。

這種權(quán)衡反映在基準(zhǔn)測(cè)試結(jié)果中。GPT-4.5 在準(zhǔn)確性和事實(shí)性方面優(yōu)于之前的模型,但在結(jié)構(gòu)化問題解決方面落后。

準(zhǔn)確度更高,幻覺更少

GPT-4.5 在常識(shí)和事實(shí)準(zhǔn)確性方面領(lǐng)先,在 SimpleQA 上的準(zhǔn)確率達(dá)到 62.5%,大幅超過(guò) GPT-4o(38.2%)、OpenAI o1(47%)和 OpenAI o3-mini(15%)。

來(lái)源:OpenAI

然而,更重要的是 GPT-4.5 降低了幻覺率。之前的模型很難自信地生成錯(cuò)誤信息,但 GPT-4.5 的幻覺率最低,為 37.1%,比 GPT-4o(61.8%)、OpenAI o1(44%)和 o3-mini(80.3%)有了很大的改進(jìn)。

來(lái)源:OpenAI

這意味著 GPT-4.5 產(chǎn)生的錯(cuò)誤陳述比之前的 OpenAI 模型要少,盡管它在事實(shí)核查方面仍然不完全可靠(畢竟仍然有 37.1%)。

人工評(píng)估:更適用于日常和專業(yè)任務(wù)

OpenAI 與人類測(cè)試人員進(jìn)行了對(duì)比評(píng)估,測(cè)量了 GPT-4.5 與 GPT-4o 在不同類型的查詢中的勝率。結(jié)果表明,在大多數(shù)情況下,GPT-4.5 更受青睞,尤其是在專業(yè)查詢中(勝率為 63.2%)。

來(lái)源:OpenAI

難以進(jìn)行復(fù)雜的推理

雖然 GPT-4.5 提高了事實(shí)準(zhǔn)確性和對(duì)話流暢度,但在數(shù)學(xué)、科學(xué)和結(jié)構(gòu)化編碼等推理密集型任務(wù)方面仍然存在不足。基準(zhǔn)測(cè)試表明,它的表現(xiàn)優(yōu)于 GPT-4o,但落后于 OpenAI 的 o3-mini,后者針對(duì)基于邏輯的問題解決進(jìn)行了優(yōu)化。

基準(zhǔn)GPT-4.5GPT-4oOpenAI o3?mini(高)
GPQA(科學(xué))71.4%53.6%79.7%
AIME ’24(數(shù)學(xué))36.7%9.3%87.3%
MMMLU(多語(yǔ)言)85.1%81.5%81.1%
MMMU(多式聯(lián)運(yùn))74.4%69.1%
SWE-Lancer Diamond(編碼)32.6%186,125美元23.3%138,750美元10.8%$89,625
SWE-Bench 驗(yàn)證(編碼)38.0%30.7%61.0%

來(lái)源:OpenAI

總體而言,GPT-4.5 并不是高級(jí)數(shù)學(xué)、邏輯或需要逐步推理的編程任務(wù)的最佳選擇。需要結(jié)構(gòu)化問題解決的用戶仍然會(huì)發(fā)現(xiàn) o3-mini 或以未來(lái)推理為重點(diǎn)的模型更適合這些應(yīng)用。

如何訪問 ChatGPT 4.5

由于 GPU 限制,GPT-4.5 正在逐步推出,Pro 用戶將首先獲得訪問權(quán)限,隨著 OpenAI 擴(kuò)展其基礎(chǔ)設(shè)施,Plus 用戶將于下周獲得訪問權(quán)限。企業(yè)和教育級(jí)用戶將在未來(lái)幾周內(nèi)獲得訪問權(quán)限。

一旦您獲得訪問權(quán)限,您將能夠從模型選擇器訪問它:

GPT-4.5 集成了 ChatGPT 的最新功能,包括文件和圖像上傳、搜索功能以及用于編寫和編碼任務(wù)的畫布工具。但是,ChatGPT 尚不支持語(yǔ)音模式、視頻處理和屏幕共享等多模式功能。

GPT-4.5 API

GPT-4.5 還可通過(guò) Chat Completions API、Assistant API 和 Batch API 供開發(fā)人員使用。該模型支持函數(shù)調(diào)用結(jié)構(gòu)化輸出、系統(tǒng)消息、流媒體和視覺功能。

然而,這是一個(gè)龐大且計(jì)算密集型的模型,因此比以前的版本更昂貴。OpenAI 尚未承諾將 GPT-4.5 作為長(zhǎng)期產(chǎn)品,因此其可用性可能取決于開發(fā)人員的反饋。

類別價(jià)格
輸入75.00 美元
緩存輸入37.50 美元
輸出150.00 美元

定價(jià)(每 100 萬(wàn)個(gè)token)

GPT-4.5 是 OpenAI 產(chǎn)品線中最昂貴的模型之一,反映了其更高的計(jì)算需求。

按層級(jí)劃分的速率限制

API 速率限制因訪問層級(jí)而異,影響開發(fā)人員可以使用的每分鐘請(qǐng)求數(shù) (RPM) 和每分鐘令牌數(shù) (TPM)。較高層級(jí)的客戶可獲得更高的吞吐量。

等級(jí)RPM(每分鐘請(qǐng)求數(shù))TPM(每分鐘令牌數(shù))批處理隊(duì)列限制
第 1 層1,000125,0005萬(wàn)
第 2 層5,00025萬(wàn)50萬(wàn)
第 3 級(jí)5,00050萬(wàn)50,000,000
第 4 層10,0001,000,0001億
5級(jí)10,0002,000,0005,000,000,000

擁有更高級(jí)別 API 訪問權(quán)限的開發(fā)人員將擁有更大的容量,這使得 GPT-4.5 更適合企業(yè)級(jí) AI 應(yīng)用程序。

可能供應(yīng)有限

GPT-4.5 目前處于研究預(yù)覽階段,OpenAI 尚未確認(rèn)它是否會(huì)永久存在于 API 中。鑒于其成本和計(jì)算需求較高,OpenAI 可能會(huì)根據(jù)用戶反饋評(píng)估是否可持續(xù)繼續(xù)部署。

結(jié)論

GPT-4.5 是迄今為止最自然、社交意識(shí)最強(qiáng)的 ChatGPT 模型。從我們的測(cè)試來(lái)看,它始終能夠理解情緒的細(xì)微差別,更加深思熟慮地重新措辭攻擊性提示,并提供更清晰、更有條理的回應(yīng)。

然而,它的推理能力仍然很弱,我們通過(guò)測(cè)試證實(shí),它在推理能力較強(qiáng)的問題上表現(xiàn)不佳,而 o3-mini 等模型表現(xiàn)更好。雖然 GPT-4.5 非常適合流暢的交互,但它并不是結(jié)構(gòu)化問題解決或精確編碼輔助的可靠模型。

對(duì)于優(yōu)先考慮對(duì)話流暢性和清晰度的用戶來(lái)說(shuō),GPT-4.5 是一個(gè)進(jìn)步。但對(duì)于任何需要深度邏輯的事情,都有更好的選擇。

文章轉(zhuǎn)載自: ChatGPT 4.5:功能、訪問、GPT-4o 比較等

上一篇:

Krea AI核心功能揭秘:從圖像生成到模型訓(xùn)練

下一篇:

GLM-4 智能對(duì)話機(jī)器人本地部署指南
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)