隨著基礎模型領域的持續快速發展,兩個主要的哲學摩擦已經浮出水面:大型模型和小型模型之間的摩擦,以及開源和基于 API 的商業發布之間的摩擦。在這篇博文中,我們將探討這些摩擦、它們的影響以及它們對基礎模型的開發和采用的未來影響。
人工智能基礎模型是機器學習模型,是廣泛人工智能(AI)應用的通用基礎。這些模型通常以深度學習架構為基礎,在海量數據上進行預訓練,并可通過相對較少的特定任務數據針對特定任務進行微調。基礎模型的主要優勢在于它們能夠從數據中學習復雜的模式和表征,從而在各種任務和領域中表現出色。目前實施的這些模型分為兩種類型:大規模和小規模。
基礎模型通常使用大量訓練數據構建,通常包括文本、圖像、音頻和視頻等各種信息源。這些模型的大規模特性有助于它們學習復雜的模式和表征,從而在各種任務中取得更好的性能。
相對于大規模模型,小規模基礎模型是作為人工智能應用基礎的機器學習模型,但其設計在計算資源和內存占用方面更加緊湊和高效。這些模型仍然利用預訓練和微調技術,但在設計上更易于使用和部署,特別是在資源有限的設備上,如手機和邊緣設備。
人工智能基礎模型的一些關鍵特征包括:
基礎模型領域的創新正以前所未有的速度加速發展,催生了具有卓越認知能力的新型模型。隨著這些模型市場的發展,出現了兩大摩擦,推動了行業內的理念分歧:
大規模模式與小型模式之間的摩擦
一直以來,大型基礎模型在認知能力方面都優于小型模型。但最近,LLaMA 等模型以及 RLHF 變體的出現表明,較小的模型也能達到與較大模型相當的性能水平。這一發展提出了幾個問題:
人工智能大規模基礎模型的例子包括 OpenAI 的 GPT-3 和 4、Google 的 BERT 和 Facebook 的 RoBERTa。這些模型在自然語言處理、計算機視覺和語音識別等各種任務中表現出了令人印象深刻的性能。然而,盡管人工智能基礎模型的能力令人印象深刻,但它們也引起了人們對道德問題的關注,如公平性、偏見和濫用的可能性。因此,目前的研發工作主要集中在應對這些挑戰,同時繼續提高人工智能基礎模型的能力。
人工智能小型基礎模型的例子包括谷歌的 DistilBERT、MobileBERT 和 TinyBERT;EfficientNet;SqueezeNet;Databrick 的 LLaMA;Meta 的 FastText 和 Mobile Detectron2。這些模型是人工智能應用的基礎,但其設計在計算資源和內存占用方面更加緊湊和高效。這些模型仍然利用預訓練和微調技術,但設計得更易于使用和部署,特別是在資源有限的設備上,如手機和邊緣設備。
開放源代碼與基于應用程序接口的商業發布之間的摩擦
基礎模型的開源和基于 API 的發布之間的爭論讓人想起 iOS 和 Android 之間的爭論。GPT-4、LaMDA 和 Claude 等商業 API 模型與 Dolly 2 和 Stable Diffusion 等開源模型形成了鮮明對比。這場爭論的理由并不局限于商業模式,還包括以下關注點:
規模與分布模型之間的相互作用
有趣的是,規模與分銷模式之間的摩擦產生了兩個截然不同的陣營。傾向于大型模式的供應商也往往依賴于基于商業應用程序接口的分銷,而開源模式通常規模相對較小。這兩大陣營的主要參與者包括
基礎模型的未來
隨著新技術和分發模式的出現,本博文中探討的哲學摩擦很可能會隨著時間的推移而演變。我們可能很快就會看到大型模型或小型模型的開源發布,這些模型只能通過應用程序接口(API)提供。重要的是要記住,生成式人工智能不同于任何其他市場,這些摩擦將繼續以獨特且可能出人意料的方式影響基礎模型的開發、發布和采用。
大型模型和小型模型之間的摩擦,以及開源和基于商業應用程序接口的分發,正在影響著行業內基礎模型的開發和采用。了解這些摩擦的影響、它們之間的相互作用以及它們對未來模型的潛在影響,對于利益相關者駕馭快速發展的生成式人工智能技術至關重要。隨著市場的成熟,研究人員、開發人員和組織機構必須密切關注這些哲學摩擦,并相應地調整戰略。
原文鏈接:Open source vs. commercial API-based: the philosophical frictions of AI foundation models