亚洲精品国产第一综合99久久,99久久精品在免费线18,精品国产

GPT-4.5 比 GPT-4o 更簡(jiǎn)潔、更具對(duì)話性。資料來(lái)源：OpenAI

不是思維鏈模型

GPT-4.5 與 OpenAI 推理模型之間最大的區(qū)別之一在于它如何處理和構(gòu)建其響應(yīng)。

o1、DeepSeek R1或o3-mini等模型使用思路鏈 (CoT) 推理，這意味著它們會(huì)逐步分解復(fù)雜問題，就像人類在數(shù)學(xué)問題中寫出他們的工作一樣。這種結(jié)構(gòu)化方法有助于邏輯推理、多步驟解決問題和詳細(xì)解釋。

然而，GPT-4.5 并不這樣推理。相反，它根據(jù)語(yǔ)言直覺和模式識(shí)別做出反應(yīng)，從訓(xùn)練數(shù)據(jù)中汲取經(jīng)驗(yàn)，而不明確地將問題分解為步驟。這就是為什么它感覺更具對(duì)話性和自然性，但這也意味著它對(duì)于高級(jí)編程或科學(xué)推理等邏輯性較強(qiáng)的任務(wù)不太可靠。

更自然、更簡(jiǎn)潔

GPT-4.5 的突出之處在于對(duì)話質(zhì)量。響應(yīng)更加自然，使互動(dòng)感覺不那么機(jī)械化，更加直觀。OpenAI 與人類評(píng)估者進(jìn)行了測(cè)試，結(jié)果顯示，與 GPT-4o 相比，GPT-4.5 的語(yǔ)氣、清晰度和參與度明顯更好（稍后將詳細(xì)介紹基準(zhǔn)）。

現(xiàn)場(chǎng)演示中的一個(gè)對(duì)比引起了我們的注意。OpenAI 工程師向不同的模型詢問：“為什么海洋是咸的？”：

GPT-3.5 Turbo ：技術(shù)上正確但過(guò)于詳細(xì)的回應(yīng)。
GPT-4 Turbo ：冗長(zhǎng)但精確的答案。
GPT-4.5：簡(jiǎn)潔而完整的解釋，其結(jié)構(gòu)使其更容易記憶和理解。

從我們的角度來(lái)看，這種向簡(jiǎn)潔和清晰的轉(zhuǎn)變使 GPT-4.5 更適合休閑對(duì)話、總結(jié)和寫作輔助。我們還喜歡發(fā)布博客中的這個(gè)示例如何很好地展示對(duì)話式 GPT 的演變：

通用技術(shù)（GPT）的演變

實(shí)踐印象：與 GPT-4.5 對(duì)話

為了了解 GPT-4.5 的實(shí)際性能，我們查看了 OpenAI 的演示并運(yùn)行了我們自己的測(cè)試。

OpenAI 的一個(gè)演示很好地說(shuō)明了這一點(diǎn)。一位朋友再次取消計(jì)劃后，用戶要求 GPT-4.5 幫忙起草一份文本。最初的請(qǐng)求是沮喪和沖動(dòng)的：

“寫一條短信告訴他們我討厭他們。”

GPT-4.5 察覺到了請(qǐng)求背后的情感，并建議做出更具建設(shè)性的回應(yīng)，同時(shí)仍然承認(rèn)這種挫敗感。OpenAI 將此與 o1 進(jìn)行了比較，后者遵循了字面指令，但沒有認(rèn)識(shí)到潛在的意圖。

我們嘗試了類似的提示，并注意到了同樣的事情——GPT-4.5 比以前的模型更能理解語(yǔ)氣和社交細(xì)微差別。例如，我們提示模型給老板寫一封咄咄逼人的電子郵件，我們期望模型能察覺到我們的沮喪情緒，并幫助我們以更專業(yè)、更有建設(shè)性的方式重新組織回應(yīng)——它確實(shí)做到了！

當(dāng)然，如果我們明確告訴它輸出憤怒的文字，它會(huì)遵從，但默認(rèn)情況下，它似乎優(yōu)先考慮更深思熟慮和平衡的回應(yīng)。你實(shí)際上可以在這里看到我們分享的聊天示例。

更好更簡(jiǎn)短的解釋

另一個(gè)關(guān)鍵改進(jìn)是 GPT-4.5 如何解釋概念。OpenAI 比較了不同的模型如何回答“為什么海洋是咸的？”，并得出結(jié)論，GPT-4.5 簡(jiǎn)明扼要地總結(jié)了要點(diǎn)，而 GPT-4 Turbo 則提供了詳細(xì)的答案。

我們僅針對(duì)GPT-4o （與 GPT-4 Turbo 不同）進(jìn)行了測(cè)試，結(jié)果幾乎相同。但是，當(dāng)我們針對(duì)舊模型 GPT-4 進(jìn)行測(cè)試時(shí)，我們確實(shí)看到了顯著差異。我們嘗試了許多提示，但您可以比較“為什么河流不咸？”的答案：

正如預(yù)期的那樣，推理能力不太強(qiáng)

我們用幾個(gè)特定推理題測(cè)試了它，結(jié)果不出所料，它表現(xiàn)不佳。以下只是一個(gè)例子（請(qǐng)參閱此處的對(duì)話）：

例如，O3-mini 在第一次嘗試時(shí)就輕松找到了正確答案——請(qǐng)參閱此處的對(duì)話。

基準(zhǔn)測(cè)試性能：準(zhǔn)確性更高，但不是推理模型

OpenAI 從一開始就明確表示：GPT-4.5 并不是一個(gè)推理能力超強(qiáng)的模型。與依靠思路鏈 (CoT) 推理逐步分解復(fù)雜問題的 O 系列模型不同，GPT-4.5 依賴于無(wú)監(jiān)督學(xué)習(xí)，這意味著它基于語(yǔ)言直覺而不是結(jié)構(gòu)化邏輯來(lái)生成響應(yīng)。

這種權(quán)衡反映在基準(zhǔn)測(cè)試結(jié)果中。GPT-4.5 在準(zhǔn)確性和事實(shí)性方面優(yōu)于之前的模型，但在結(jié)構(gòu)化問題解決方面落后。

準(zhǔn)確度更高，幻覺更少

GPT-4.5 在常識(shí)和事實(shí)準(zhǔn)確性方面領(lǐng)先，在 SimpleQA 上的準(zhǔn)確率達(dá)到 62.5%，大幅超過(guò) GPT-4o（38.2%）、OpenAI o1（47%）和 OpenAI o3-mini（15%）。

來(lái)源：OpenAI

然而，更重要的是 GPT-4.5 降低了幻覺率。之前的模型很難自信地生成錯(cuò)誤信息，但 GPT-4.5 的幻覺率最低，為 37.1%，比 GPT-4o（61.8%）、OpenAI o1（44%）和 o3-mini（80.3%）有了很大的改進(jìn)。

來(lái)源：OpenAI

這意味著 GPT-4.5 產(chǎn)生的錯(cuò)誤陳述比之前的 OpenAI 模型要少，盡管它在事實(shí)核查方面仍然不完全可靠（畢竟仍然有 37.1%）。

人工評(píng)估：更適用于日常和專業(yè)任務(wù)

OpenAI 與人類測(cè)試人員進(jìn)行了對(duì)比評(píng)估，測(cè)量了 GPT-4.5 與 GPT-4o 在不同類型的查詢中的勝率。結(jié)果表明，在大多數(shù)情況下，GPT-4.5 更受青睞，尤其是在專業(yè)查詢中（勝率為 63.2%）。

來(lái)源：OpenAI

難以進(jìn)行復(fù)雜的推理

雖然 GPT-4.5 提高了事實(shí)準(zhǔn)確性和對(duì)話流暢度，但在數(shù)學(xué)、科學(xué)和結(jié)構(gòu)化編碼等推理密集型任務(wù)方面仍然存在不足。基準(zhǔn)測(cè)試表明，它的表現(xiàn)優(yōu)于 GPT-4o，但落后于 OpenAI 的 o3-mini，后者針對(duì)基于邏輯的問題解決進(jìn)行了優(yōu)化。

基準(zhǔn)	GPT-4.5	GPT-4o	OpenAI o3?mini（高）
GPQA（科學(xué)）	71.4％	53.6%	79.7％
AIME ’24（數(shù)學(xué)）	36.7％	9.3%	87.3％
MMMLU（多語(yǔ)言）	85.1％	81.5％	81.1％
MMMU（多式聯(lián)運(yùn)）	74.4％	69.1％	–
SWE-Lancer Diamond（編碼）	32.6%186,125美元	23.3%138,750美元	10.8％$89,625
SWE-Bench 驗(yàn)證（編碼）	38.0％	30.7％	61.0％

來(lái)源：OpenAI

總體而言，GPT-4.5 并不是高級(jí)數(shù)學(xué)、邏輯或需要逐步推理的編程任務(wù)的最佳選擇。需要結(jié)構(gòu)化問題解決的用戶仍然會(huì)發(fā)現(xiàn) o3-mini 或以未來(lái)推理為重點(diǎn)的模型更適合這些應(yīng)用。

如何訪問 ChatGPT 4.5

由于 GPU 限制，GPT-4.5 正在逐步推出，Pro 用戶將首先獲得訪問權(quán)限，隨著 OpenAI 擴(kuò)展其基礎(chǔ)設(shè)施，Plus 用戶將于下周獲得訪問權(quán)限。企業(yè)和教育級(jí)用戶將在未來(lái)幾周內(nèi)獲得訪問權(quán)限。

一旦您獲得訪問權(quán)限，您將能夠從模型選擇器訪問它：

GPT-4.5 集成了 ChatGPT 的最新功能，包括文件和圖像上傳、搜索功能以及用于編寫和編碼任務(wù)的畫布工具。但是，ChatGPT 尚不支持語(yǔ)音模式、視頻處理和屏幕共享等多模式功能。

GPT-4.5 API

GPT-4.5 還可通過(guò) Chat Completions API、Assistant API 和 Batch API 供開發(fā)人員使用。該模型支持函數(shù)調(diào)用、結(jié)構(gòu)化輸出、系統(tǒng)消息、流媒體和視覺功能。

然而，這是一個(gè)龐大且計(jì)算密集型的模型，因此比以前的版本更昂貴。OpenAI 尚未承諾將 GPT-4.5 作為長(zhǎng)期產(chǎn)品，因此其可用性可能取決于開發(fā)人員的反饋。

類別	價(jià)格
輸入	75.00 美元
緩存輸入	37.50 美元
輸出	150.00 美元

定價(jià)（每 100 萬(wàn)個(gè)token）

GPT-4.5 是 OpenAI 產(chǎn)品線中最昂貴的模型之一，反映了其更高的計(jì)算需求。

按層級(jí)劃分的速率限制

API 速率限制因訪問層級(jí)而異，影響開發(fā)人員可以使用的每分鐘請(qǐng)求數(shù) (RPM) 和每分鐘令牌數(shù) (TPM)。較高層級(jí)的客戶可獲得更高的吞吐量。

等級(jí)	RPM（每分鐘請(qǐng)求數(shù)）	TPM（每分鐘令牌數(shù)）	批處理隊(duì)列限制
第 1 層	1,000	125,000	5萬(wàn)
第 2 層	5,000	25萬(wàn)	50萬(wàn)
第 3 級(jí)	5,000	50萬(wàn)	50,000,000
第 4 層	10,000	1,000,000	1億
5級(jí)	10,000	2,000,000	5,000,000,000