
LLM的預(yù)訓(xùn)練任務(wù)有哪些
ChatGPT以廣泛的應(yīng)用場景和快速響應(yīng)著稱,其生成內(nèi)容的準(zhǔn)確性和邏輯性令人印象深刻。Claude則更加突出在復(fù)雜問題處理和查詢優(yōu)化方面的表現(xiàn),而Gemini則依賴Google的強(qiáng)大數(shù)據(jù)支持,在特定任務(wù)如搜索相關(guān)內(nèi)容方面有獨(dú)特優(yōu)勢。
在數(shù)據(jù)分析、代碼生成和業(yè)務(wù)邏輯處理等領(lǐng)域,選擇適合的AI助手至關(guān)重要。通過比較它們在SQL技能上的表現(xiàn),我們可以更好地了解哪個模型最適合特定任務(wù)。
SQL是數(shù)據(jù)分析師和科學(xué)家必備的技能,其簡潔的語法使其成為評估大語言模型(LLMs)能力的理想工具。本次測試主要從查詢準(zhǔn)確率、效率、格式化和可解釋性四個方面,對ChatGPT、Claude和Gemini進(jìn)行對比分析。
測試分為三個類別:
為了保證測試數(shù)據(jù)的公平性,我們?yōu)槿預(yù)I生成了相同的合成數(shù)據(jù)集,并上傳至各自平臺,觀察其加載和處理能力。
這個問題需要對同一表進(jìn)行兩次連接并對多個過濾器進(jìn)行解釋。
SELECT Trips.Id AS TripId
FROM Users
JOIN Trips ON Users.Id = Trips.UserId
WHERE Users.Status = 'Active' AND Trips.Distance > 50;
這個問題需要使用窗口函數(shù)獲取每個部門的前三高薪員工。
SELECT DepartmentId, EmployeeId, Salary
FROM (
SELECT *, ROW_NUMBER() OVER(PARTITION BY DepartmentId ORDER BY Salary DESC) AS Rank
FROM Employees
) AS Ranked
WHERE Rank <= 3;
該問題需要合并兩次聚合的結(jié)果。
WITH MaxRatings AS (
SELECT MovieId, MAX(Rating) AS MaxRating
FROM Reviews
GROUP BY MovieId
)
SELECT Movies.Title, MaxRatings.MaxRating
FROM Movies
JOIN MaxRatings ON Movies.Id = MaxRatings.MovieId;
我們生成了四個合成數(shù)據(jù)集,并嘗試上傳到AI平臺。ChatGPT成功加載了所有數(shù)據(jù)集,Claude處理了部分縮減的數(shù)據(jù),而Gemini未能正確加載數(shù)據(jù)。
我們要求AI編寫SQL查詢,計算美國用戶的每月訂單總金額。
SELECT DATE_TRUNC('month', OrderDate) AS Month, SUM(OrderAmount) AS TotalSales
FROM Orders
WHERE Country IN ('United States', 'US')
GROUP BY Month;
最后一輪測試對三款A(yù)I提出了較高的要求,需優(yōu)化復(fù)雜SQL查詢以提高性能。Claude在代碼優(yōu)化和效率提升上表現(xiàn)出色,ChatGPT次之,而Gemini的優(yōu)化能力相對有限。
在問題解決能力上,Claude以出色的效率和準(zhǔn)確性領(lǐng)先,ChatGPT緊隨其后,而Gemini因部分錯誤失分。
ChatGPT使用faker包生成了真實(shí)感極強(qiáng)的數(shù)據(jù)集,而Claude和Gemini分別在生成數(shù)據(jù)的真實(shí)性和數(shù)量上有所欠缺。
ChatGPT支持更大文件的上傳,Claude對文件大小和行數(shù)有所限制,Gemini無法直接上傳數(shù)據(jù)。
通過以上對比,我們可以發(fā)現(xiàn),ChatGPT、Claude和Gemini各有優(yōu)劣。在選擇AI助手時,需根據(jù)具體任務(wù)需求進(jìn)行權(quán)衡。