
一文講透 AI Agent 與 AI Workflow 的區(qū)別和深度解析:從自動(dòng)化到智能化的演進(jìn)
最近Deepseek成為了AI圈中最火爆的話(huà)題,一方面通過(guò)稀疏激活的MoE架構(gòu)、MLA注意力機(jī)制優(yōu)化及混合專(zhuān)家分配策略等創(chuàng)新手段,實(shí)現(xiàn)了高效的訓(xùn)練和推理能力,同時(shí)大幅降低了API調(diào)用成本,達(dá)到了行業(yè)領(lǐng)先水平。另一方面,Deepseek更是以7天實(shí)現(xiàn)用戶(hù)數(shù)破億的速度,一舉超越了OpenAI的ChatGPT(ChatGPT為2個(gè)月)。網(wǎng)上關(guān)于本地部署Deepseek-R1的教程,更是如同雨后春筍般出現(xiàn)在各個(gè)網(wǎng)絡(luò)平臺(tái)上。然而,這些本地部署教程往往會(huì)告訴你Deepseek-R1有多強(qiáng)大,但不會(huì)告訴你本地部署的“蒸餾版”Deepseek-R1相比“滿(mǎn)血版”究竟有多差。值得注意的是,目前公開(kāi)發(fā)布的小尺寸的DeepSeek-R1模型,均是通過(guò)Qwen或Llama從R1中蒸餾過(guò)來(lái),尺寸有所縮小,以適應(yīng)不同性能設(shè)備調(diào)用DeepSeek-R1模型。換句話(huà)說(shuō),無(wú)論是7B還是32B的DeepSeek-R1,本質(zhì)上更像是“R1味兒”的Qwen模型,差不多是“牛肉風(fēng)味肉卷”和“牛肉卷”的差距。雖然擁有前者部分特性,但更多是后者照貓畫(huà)虎實(shí)現(xiàn)類(lèi)似的推理功能。毋庸置疑的是,隨著模型尺寸的縮小,其性能也會(huì)變得更差,與“滿(mǎn)血版”R1的差距也會(huì)更大。而今天,大模型之家就帶你來(lái)看看,不同尺寸的DeepSeek-R1與“滿(mǎn)血版”差距究竟有多大?
在語(yǔ)言能力測(cè)試環(huán)節(jié),大模型之家讓7B、32B、671B的DeepSeek-R1,分別用“新年快樂(lè)萬(wàn)事如意”寫(xiě)一首藏頭詩(shī)。在這個(gè)似乎已經(jīng)被各大模型“玩爛了”的場(chǎng)景下,在很多人看來(lái)是LLM最小兒科的場(chǎng)景。然而正如那句“如果不出意外的話(huà),就要出意外了”。在這一環(huán)節(jié)中,7B版本的R1竟然率先出現(xiàn)了bug!
可以看到,左邊的7B版本R1的輸出結(jié)果既沒(méi)能“藏頭”,也不像一首“詩(shī)”,甚至還在文中開(kāi)始說(shuō)起了英語(yǔ)。顯然,在最基礎(chǔ)的文字生成能力上,7B并沒(méi)有達(dá)到“及格線(xiàn)”。相比之下,32B的R1可以正常輸出文本內(nèi)容,成功完成了“藏頭詩(shī)”的創(chuàng)作。雖然從押韻方面存在些許瑕疵,但勝在七言律詩(shī)對(duì)仗工整,內(nèi)容上也沒(méi)有邏輯錯(cuò)誤。
當(dāng)然,效果最好的還要數(shù)“滿(mǎn)血版”的R1,不僅對(duì)仗工整,韻腳得體,同時(shí)還給出了詩(shī)詞的賞析內(nèi)容。明確了“新年快樂(lè)萬(wàn)事如意”的“藏頭詩(shī)”背后,寄寓了對(duì)新歲萬(wàn)事順?biāo)斓拿篮米T浮?/p>
為了探究是否是因?yàn)樾〕叽鐚?dǎo)致語(yǔ)言能力下降,大模型之家還采用了尺寸相近的9B的GLM4用同樣的提示詞進(jìn)行測(cè)試。結(jié)果發(fā)現(xiàn)在語(yǔ)言表達(dá)能力方面,GLM4并不輸給DeepSeek-R1,可見(jiàn),當(dāng)R1規(guī)模小到一定程度時(shí),其基本的文本能力方面也會(huì)受到嚴(yán)重影響。
在測(cè)試完語(yǔ)言能力之后,我們?cè)趯1與網(wǎng)絡(luò)搜索相結(jié)合,測(cè)試一下不同尺寸下,對(duì)于網(wǎng)絡(luò)內(nèi)容的匯總能力。大模型之家以一首杜甫的《登高》來(lái)測(cè)試一下R1大模型在聯(lián)網(wǎng)狀態(tài)下的表現(xiàn)。
乍一看7B模型輸出的表現(xiàn)足夠優(yōu)秀(左),但是實(shí)際測(cè)試中,大模型之家發(fā)現(xiàn)7B模型的輸出結(jié)果并不穩(wěn)定。偶爾會(huì)出現(xiàn)右邊對(duì)于詩(shī)詞理解出現(xiàn)偏差的場(chǎng)景,由此也能夠看出,在同等的網(wǎng)絡(luò)搜索情況下,R1模型因?yàn)槌叽缈s小,在語(yǔ)言理解與生成能力方面受到了較大的影響。
相比之下,32B的R1輸出就相對(duì)穩(wěn)定,雖然在輸出結(jié)果上會(huì)存在顯示“整首詩(shī)”和“一句詩(shī)”的左右橫跳,但對(duì)于詩(shī)詞內(nèi)容理解的準(zhǔn)確性有了較大提高。
而“滿(mǎn)血版”R1依舊是表現(xiàn)最為優(yōu)秀,不僅能夠完整展示詩(shī)句內(nèi)容,同時(shí)還會(huì)在答案中增加一些點(diǎn)評(píng)與背景陳述,增加回答的知識(shí)性與專(zhuān)業(yè)性。另一組測(cè)試,大模型之家選用了目前游戲中某角色的配隊(duì),來(lái)測(cè)試7B與32B的語(yǔ)言理解能力。
在這一組測(cè)試中,7B模型出現(xiàn)了游戲中不存在的角色,而32B則能夠準(zhǔn)確把握角色名稱(chēng),同時(shí),在配隊(duì)的推薦理由方面,32B模型給出的內(nèi)容也更加科學(xué)合理。
而在測(cè)試的第二個(gè)環(huán)節(jié),我們用一道經(jīng)典的“雞兔同籠”問(wèn)題來(lái)考考不同尺寸的R1模型。提示詞為:一個(gè)籠子,里頭有雞和兔子,一共有25個(gè)頭和76只腳,請(qǐng)問(wèn)籠子里邊雞和兔子各有多少只?
也許是“雞兔同籠”的問(wèn)題對(duì)于R1而言過(guò)于簡(jiǎn)單,那么換一道更難的“一個(gè)三棱柱的上底和下底為兩個(gè)等腰直角三角形,每個(gè)等腰三角形的直角邊長(zhǎng)為16。直棱柱的高度等于等腰直角三角形的斜邊長(zhǎng)度。求直棱柱的表面積。”
比較令人驚訝的是,無(wú)論是7B還是32B的模型,都可以輸出正確的答案。可見(jiàn),在數(shù)學(xué)運(yùn)算能力方面,蒸餾盡可能保留了R1模型的數(shù)學(xué)能力。
最后,讓我們?cè)賮?lái)對(duì)比一下7B與32B的代碼能力。這個(gè)環(huán)節(jié),大模型之家要求R1編寫(xiě)一個(gè)“可以在瀏覽器上打開(kāi)的貪吃蛇游戲”。
代碼太長(zhǎng),讓我們直接來(lái)看生成好的結(jié)果:
測(cè)告訴你_DeepSeek_R1_7B_32B_671B差/image_11.jpg)
Deepseek-R1 7B的生成的游戲程序存在bug,只是一張靜態(tài)的圖片,蛇無(wú)法移動(dòng)。
測(cè)告訴你_DeepSeek_R1_7B_32B_671B差/image_12.jpg)
而Deepseek-R1 32B的生成的游戲程序可以正常運(yùn)行,可以通過(guò)鍵盤(pán)方向鍵控制蛇的正常移動(dòng),同時(shí)面板可以正常計(jì)分。
測(cè)告訴你_DeepSeek_R1_7B_32B_671B差/image_13.jpg)
## 05本地部署門(mén)檻高,普通用戶(hù)慎嘗試
從一系列的測(cè)試看來(lái),DeepSeek-R1的7B、32B,都與“滿(mǎn)血版”671B存在比較明顯的差距,因此本地部署更多是用來(lái)搭建私有數(shù)據(jù)庫(kù),或讓有能力的開(kāi)發(fā)者進(jìn)行微調(diào)與部署使用。對(duì)于一般用戶(hù)而言,無(wú)論從技術(shù)還是設(shè)備門(mén)檻都比較高。官方測(cè)試結(jié)論也顯示,32B的DeepSeek-R1大約能夠?qū)崿F(xiàn)90%的671B的性能,且在AIME 2024、GPQA Daimond、MATH-500等部分場(chǎng)景之下效果略?xún)?yōu)于OpenAI的o1-mini。
測(cè)告訴你_DeepSeek_R1_7B_32B_671B差/image_14.jpg)
而在實(shí)際體驗(yàn)中,也能夠看到與官方測(cè)試結(jié)論基本吻合,32B以上模型勉強(qiáng)尚有本地化部署的可用性,而再小尺寸的模型在基礎(chǔ)能力方面有些過(guò)于薄弱,甚至輸出結(jié)果不敵同尺寸其他模型。尤其是網(wǎng)絡(luò)上大量的本地部署教程所推薦的1.5B、7B、8B尺寸模型,還是忘了它們吧……除了配置需求低、速度快,用起來(lái)并不理想。
測(cè)告訴你_DeepSeek_R1_7B_32B_671B差/image_15.jpg)
左為7B模型生成信息、右為32B模型生成信息前者生成速度是后者3.5倍
所以,從結(jié)論上來(lái)說(shuō),如果你真想本地部署一個(gè)DeepSeek-R1模型,那么大模型之家建議從32B起步開(kāi)始搭建,才有相對(duì)完整的大模型體驗(yàn)。那么,部署32B模型的代價(jià)是什么呢?
測(cè)告訴你_DeepSeek_R1_7B_32B_671B差/image_16.jpg)
圖片來(lái)源:51CTO運(yùn)行32B的R1模型,官方建議是64GB內(nèi)存和32-48GB顯存,再配合對(duì)應(yīng)的CPU,一臺(tái)電腦主機(jī)的價(jià)格大約在20000元以上。如果以最低配置運(yùn)行,(20GB內(nèi)存+24GB顯存),價(jià)格也要超過(guò)萬(wàn)元。(除非你買(mǎi)API)
測(cè)告訴你_DeepSeek_R1_7B_32B_671B差/image_17.jpg)
筆者所使用的設(shè)備是M2 Max的MacBook Pro(12核CPU+30核GPU+32GB統(tǒng)一內(nèi)存),在運(yùn)行32B模型時(shí),每秒僅能輸出8-9 tokens,生成速度很慢,同時(shí)整機(jī)功耗持續(xù)維持在60-80W,這也意味著,如果用電池供電持續(xù)使用大模型,僅有1個(gè)小時(shí)的使用時(shí)間。不僅如此,本地化部署R1大模型后,還需要附加的方式為模型增加聯(lián)網(wǎng)功能或本地化數(shù)據(jù)庫(kù),否則模型內(nèi)的數(shù)據(jù)會(huì)與日新月異的互聯(lián)網(wǎng)脫節(jié),體驗(yàn)上多數(shù)情況遠(yuǎn)不及目前已經(jīng)全面接入聯(lián)網(wǎng)功能的免費(fèi)大模型產(chǎn)品。所以,對(duì)于大多數(shù)普通用戶(hù)而言,你費(fèi)勁心力搭建的本地大模型,可能真的未必有市面上主流的免費(fèi)大模型產(chǎn)品來(lái)得簡(jiǎn)單、方便、效果好,更多只是讓你過(guò)一把部署本地大模型的癮。
測(cè)告訴你_DeepSeek_R1_7B_32B_671B差/image_18.jpg)
DeepSeek系列模型的成功不僅改變了中美之間的技術(shù)競(jìng)爭(zhēng)格局,更對(duì)全球范圍內(nèi)的科技創(chuàng)新生態(tài)產(chǎn)生了深遠(yuǎn)影響。據(jù)統(tǒng)計(jì),已經(jīng)有超過(guò)50個(gè)國(guó)家與DeepSeek達(dá)成了不同程度的合作協(xié)議,在技術(shù)應(yīng)用和場(chǎng)景開(kāi)發(fā)方面展開(kāi)深度合作。從DeepSeek引發(fā)的全球關(guān)注可以看出,人工智能已經(jīng)成為重塑?chē)?guó)際格局的重要力量。面對(duì)這場(chǎng)前所未有的科技變革,如何將技術(shù)創(chuàng)新優(yōu)勢(shì)轉(zhuǎn)化為持續(xù)的競(jìng)爭(zhēng)能力,同時(shí)構(gòu)建開(kāi)放包容的合作網(wǎng)絡(luò),將是未來(lái)面臨的關(guān)鍵挑戰(zhàn)。對(duì)于中國(guó)而言,這不僅是一場(chǎng)技術(shù)實(shí)力的較量,更是一場(chǎng)科技創(chuàng)新話(huà)語(yǔ)權(quán)的爭(zhēng)奪。
## 近期活動(dòng)?
測(cè)告訴你_DeepSeek_R1_7B_32B_671B差/image_19.jpg)
測(cè)告訴你_DeepSeek_R1_7B_32B_671B差/image_20.jpg)
測(cè)告訴你_DeepSeek_R1_7B_32B_671B差/image_21.jpg)
測(cè)告訴你_DeepSeek_R1_7B_32B_671B差/image_22.jpg)
原文轉(zhuǎn)載自:https://mp.weixin.qq.com/s/AHHKXUSHrhfKNArX7c8ikg
一文講透 AI Agent 與 AI Workflow 的區(qū)別和深度解析:從自動(dòng)化到智能化的演進(jìn)
6個(gè)大模型的核心技術(shù)介紹
太強(qiáng)了!各個(gè)行業(yè)的AI大模型!金融、教育、醫(yī)療、法律
在Sealos 平臺(tái)的幫助下一個(gè)人維護(hù)著 6000 個(gè)數(shù)據(jù)庫(kù)
通義萬(wàn)相,開(kāi)源!
使用Cursor 和 Devbox 一鍵搞定開(kāi)發(fā)環(huán)境
DeepSeekMath:挑戰(zhàn)大語(yǔ)言模型的數(shù)學(xué)推理極限
新型脈沖神經(jīng)網(wǎng)絡(luò)+大模型研究進(jìn)展!
時(shí)間序列表示學(xué)習(xí),全面介紹!
對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力
一鍵對(duì)比試用API 限時(shí)免費(fèi)