
墨西哥支付方式:是什么?
想像下一代的互聯網,用戶在瀏覽器網址框輸入的不再是網址,而是自然語言 prompt,需要的內容就會實時生成渲染出來;下一代的操作系統每次打開,都會根據用戶近期行為和時間環境得到最適合的內容。這里可能孕育著 AI 時代 Google 的機會,成為賽博世界的新入口。
以上是我們看好 AI coding 領域投資機會的根本原因,接下來介紹對 AI coding landscape 中興起幾類產品的分類坐標系:
? Y 軸定義標準:產品多大程度地需要 human in the loop,上方產品更能端到端完成任務,下方更專注于 empower developer;
? X 軸定義標準:產品的目標用戶的開發能力有多強。左側產品偏向于服務專業開發者,右側偏向于服務沒有編程基礎的用戶。
3)Copilot for pro & Agent for citizen 是現在模型能力與產品需求相匹配的領域。
? 左下象限,Copilot for pro dev:
最近口碑優秀的產品 Cursor、Codeium Windsurf 等基本都在這個象限。他們能在 early adopter 開發者圈子獲得了優秀的口碑,對用戶需求的深入理解和 Claude Sonnet 3.5 出色的意圖理解能力在這里缺一不可。
他們要保持的增長的關鍵問題是,優秀的產品體驗能得到 indie developer 的欣賞,但這對于 enterprise GTM 只是必要條件,而不是充分條件。從產品到企業信任,還有 privacy/compliance 等很多復雜需求。同時最近覺醒開始加速迭代的 Github Copilot 對他們的市場空間也會壓縮。
? 右上象限,Agent for citizen dev:
給普通人的 coding agent 產品形態還沒有固定:幾個 coding 領域的前端deployment 和 web IDE 獨角獸推出了自己的產品,Vercel V0, bolt.new 能智能地生成前端 web app,Replit agent 可以跟用戶多輪交互生成基礎的軟件;而早期的創業公司則有更創新的產品形態,websim 在模擬實時生成的 chrome,wordware 用類似 notion 的交互使用戶在其產品中創作軟件。
但這個象限的機會可能才剛剛開始,因為目前的產品還拘泥于之前的思路。可以類比施樂實驗室創新 GUI 之前的命令行時代,對大眾用戶的使用門檻很高,停留在 early adopter 圈子。
? 左上象限,Agent for pro dev:
要實現這一愿景,現在的模型能力還要繼續提升。歐美有>5家融資規模上億美金的公司在這個領域攻堅,因為 code token 的消耗量級很大,要解決的工程問題也很多。其中最關鍵的問題是企業 codebase context 的問題:
一方面,如何從巨大的 codebase 中做精準的 retrieval 是個難題,在科技大廠中也常常有老工程師離職之后之前的代碼項目難以理解的問題,AI 理論上能有更長的 context window 但目前理解并搜索的精確度還不夠;另一方面,enterprise codebase 中包括了大量公司內部的業務邏輯,需要專有數據微調、甚至 on-prem deployment。MS Stanley/Coca Cola 這樣的大型企業 developer 數量是不比 Google、Meta 少的,而他們對 compliance 和 privacy 的要求高于技術本身。
? 右下上限,copilot for citizen dev:
這一個領域已經有比較成熟的解決方案,因此后文的公司 mapping 中不會出現這一象限。之前幾代 low-code/RPA 有不少成功的產品,也有 UIPath 等上市公司和 Retool 等獨角獸公司。但他們都停留在 copilot 階段,其抽象方式只能輔助一部分用戶固定的工作流。
反而 excel 成為了最好的 no-code 產品,幫助大部分知識工作者實現了很多科學計算和統計任務。這是一個有趣的歷史啟示,這一代 AI Coding 產品面對的 “Excel” 是 ChatGPT 這個 5 億 MAU 的產品,如何繞過他們的 user base 和最強模型是創業團隊們要思考和保持迭代的問題。
根據以上 thesis,我們對整個 AI 編程圖景下的創業公司進行了 mapping:
? Copilot for pro:根據開發工作流可以分為 Coding、Testing、Code review 和 Code search。其中核心價值還是集中在入口級的 coding 部分。
??Agent for pro:這個領域有兩類公司,Coding agent 和 coding model 公司。他們之間最大的差異是是否從頭開發模型。前者是基于頂尖 LLM 之上去建立工作流和 agent,而 coding model 類公司則自己從頭開始訓練 coding-specific 模型。其中并不看好后一類,因為在 LLM 公司的主航道上。
? Agent for citizen:這個領域的公司目前還沒有明顯的收斂,我們可以分為三類。第一類是 task engine,為用戶完成任務實現 Prototype 的 Task engine 類公司;第二類是前端網頁生成;第三類是 low-code 類使用“樂高”式組件搭建應用的產品。最終大家的目標可能都是 task engine,只是現在大家選擇了不同的路線 bet on。
? Coding 代表公司:Anysphere(Cursor), Codeium, Augment
Product
專注在編程體驗的產品可以分為兩類:IDE 和 VSCode extension。兩者有各自的優勢:自己做 IDE 能有完整的產品自由度和用戶數據積累,做 VSCode Extension 則更加敏捷、用戶遷移成本比較低。
Cursor 團隊在這里的選擇很聰明,通過 fork VSCode 獲得了兩個選擇各自的優勢。Codeium 也在通過 Windsurf 也都在往 IDE 的方向切入,因為 IDE 還是更好的入口級產品,能自己積累數據、有更多 feature 修改的空間,這對于產品構建自己的壁壘至關重要。
Cursor 在用戶體驗上花了很多精力,做到“快”和 next action prediction。這樣用戶的開發過程就是不斷按 Tab,進入很快得到反饋的正循環中(快=fun,進入心流)。上個月他們收購 Supermaven,就是把產品體驗中的“快”做到極致;這意味著短期內的重點還在人與 AI 的同步協作,o1 這樣的異步交互暫時還不在產品主線上。
而 Codeium 團隊從 VSCode extension 開始到 IDE,體現出了和 cursor 團隊思路的區別。Cursor 更強調編程體驗和對用戶下一步意圖的識別,Codeium 的新產品 Windsurf 更強調高自動化。他們的 Chat 功能比 Cursor 做得更加完善,很多用戶不用 hands-on code 也能完成基礎的開發。
同時,他們的產品還體現出了更強的對企業級需求更強的理解,支持 on-prem 專有模型和各種compliance協議。這里就要提到他們在 GTM 策略上的巨大差異。
根據 Sacra 最新報告 Cursor 產品 ARR 已經達到 $65M,也就是大約30萬付費用戶。由于 Cursor 的產品沒有對企業級codebase的重視,他們的核心用戶還是硅谷 indie hacker。那他們未來的關鍵 bet 是 indie hacker 是否能在所有開發者比例中變高:如果 AI 產品的開發范式下獨立開發者數量達到500萬,也就等于今天所有開發者的 10%,cursor 的市場空間才能達到十億美金。
而企業側 BD 和開發者市場的增長方式不一樣,Codeium 在企業 GTM 簽訂單上的能力很強。因為企業數據 compliance 需求不是最順暢的產品體驗,而是在安全、合規等企業在意的方向有。在 Latent Space 的一篇專訪中 Anshul 提出了 enterprise infra native 的概念,強調了要做財富500強用戶,需要突破硅谷開發者圈子的mindset:
? 安全:需要支持多種部署選項,比如 self-host 或混合部署;容器化部署(Docker、Kubernetes)是關鍵,需確保客戶環境的數據隔離。
? 合規:企業對 LLM 使用的訓練數據有高度敏感性,需證明未使用受版權保護或未經許可的數據;數據清理和數據來源追蹤,確保合規性。
??個性化:數據質量直接決定個性化效果,需要對數據的時效性和相關性進行評估。,幫助企業通過 fine-tuning/RAG 寫出更高質量的代碼。數據預處理和基于角色的訪問控制(RBAC)是關鍵,避免因信息整合導致數據泄露。
? ROI 分析:生成式 AI 的 ROI 難以量化,通過提供分團隊的使用數據,幫助客戶優化使用效果、證明價值。
? 規模:企業環境復雜且規模龐大(如數萬代碼庫、數萬開發者),需解決大規模索引和延遲管理的問題。系統設計需在高用戶量、高數據量的情況下保持高效穩定。
企業側的機會可能是更明確的低垂果實,只是他們面對的競爭是 Github Copilot 極強的分發渠道。面對競爭時,用 research 去解決 Github 可能做不好的地方是至關重要的。
Research
這些 coding 公司不能只看成應用層產品公司,而是 research 和產品一體的公司。Cursor 官網稱自己為 applied resarch lab,Codeium 官網博客中寫了大量對微調/RAG 技術方案的思考,Augment 也在 Retrieval、RL 等方向上做了大量探索。
Augment 和 Codeium 更在乎的是企業級技術方案,尤其是 Github Copilot 目前解決不好的問題。例如 Augment 在解決的事在數萬個企業codebase 中怎么精準地做好 retrieval 和交互理解。和企業文檔 RAG 遇到的難題類似,codebase retrieval 需要重新訓練專用的 embedding model,對話、補全、跨文件生成需要的embedding 都不一樣。Codeium 還思考很多在企業 on-prem/VPC 上部署專用 coding 模型的問題,來達到安全性和智能程度的平衡。
而對于 Cursor,強 reasoning 能力下的異步協同是研究的核心方向,對應到內部項目 shadow workspace。shadow workspace 是 Cursor 為后臺 coding agent 設計的開發空間,這個空間需要能看到 agent 修改引發的 lint 提示信息,并且和 IDE 背后的LSP協議進行充分交互,但不去修改用戶原本的文件。AI 和用戶會一起根據 shadow workspace 下的 Lint 反饋來決定是否進行下一步的迭代。這個過程和 o1 inference time compute 類似。
? Testing 代表公司:QA Wolf, Momentic, Gru AI
Coding testing 是所有開發者必經的工作流,來保證代碼的準確性。其中有兩個常見常見:其一是 unit test,在錯綜復雜的系統中,代碼被更新之后需要 unit test 來驗證其可用性,減少其引發意外崩潰的概率;其二是前端或應用開發中,需要對 UI 每一個功能進行交互測試。
測試任務和 codegen 的適配度也很高,因為:其寫的過程是高重復性高,且有規律可循的;而且這是人類工程師不太愿意工作的任務,大部分團隊的 unit test 的覆蓋率比較低,能側面說明這一點。
同時 Cursor 團隊在訪談中提到過 debug 對 LLM 底座頗有難度,LLM 的訓練方式不是去發現錯誤,要讓 LLM 理解一個看起來不大錯誤的后續重大影響是比較難的。因此這里能有獨立創業公司的機會。
這個領域的代表公司中:QA Wolf 是 LLM 出現之前就有的公司,以 Rule-based 的方法就能實現很多 test case;Momentic 是最近 YC 和 AI Grant 中涌現的項目,更偏向人和 AI 協作對視覺產品 UI 進行測試;Gru AI 則是為 Unit Test 場景設計專用的 agent 來端到端企業中的測試需求。
? Code Review & Refactor 代表公司:CodeRabbit
Code Review & Refactor 是開發者工作中比較重要的質量保障工作,無論是企業還是獨立開發者都需要花時間 review 組織內外部的 PR request。根據 Techcrunch,50% 的 enterprise developer 每周要花5個小時進行 code review相關工作。
這里的代表公司 CodeRabbit 不到一年的時間內就實現了 $100M+ ARR,是GitHub 和 GitLab 上安裝次數最多的 AI app,已經review PR 300萬條以上,說明 LLM-native 產品在這個領域已經能提供不錯的服務。
同時還有更大型的 CI/CD 任務可以被歸類為 code refactoring,對代碼項目進行優化和重構,來解決組織中之前遺留的技術債,甚至可能對技術架構需要進行重構和遷移,那就是 Code Migration。這樣的需求也是非常繁重、人類工程師不太愿意完成的。因此,這成了我們接下來介紹的 Coding agent 公司最早得到 PMF 的場景。
Agent for pro
? Coding agent 代表公司:Cognition (Devin), Factory
Coding agent 公司的平均融資規模是最大的,因為這些公司的目標是實現 end-to-end 替代人類開發者,實現這個過程的工程量大、消耗 code tokens 數量大。這個領域的現狀可能有兩個要解決的問題:
1) 技術上模型底層推理能力不夠。在企業大 codebase 中去完整的處理問題需要很強的推理能力,去理解用戶和codebase 兩端的 context,然后將任務拆解為多個解決步驟。這樣的 long-context + long-horizon reasoning 能力才能真正解決企業側復雜的工程問題。
2) 產品上,UI/UX 層需要與人類協作方式的創新。既然模型的能力還沒達到完全可用,如何去 involve human in the loop 到協作中就是一個比較難的問題:模型遇到難的問題時是選擇 inference-time compute 做搜索還是交給用戶去介入給更多的指導和context?如果這個問題解決得不好,呈現出的效果可能是,AI 自己工作了 12 個小時之后發現束手無策,交給用戶也很難在AI 的基礎上進行修正。
由于以上問題,我們推測現在實際能有 PMF 的場景會是 code migration,code refactoring 和 PR commit 等任務。這些任務對于開發者來說往往是 toil 也就是不愿意做的事情,開發者專注在這些任務上以后可以把精力集中在別的更有創造力的領域。因此目前 coding agent 現階段做得更多是從 1 到 100 的事情,還沒有到從 0到 1 的任務上。我們看好 coding agent 在未來 2 年內會逐漸承擔更多的責任,不過那需要底層模型的能力和上層 agent 框架的共同進步。
定價問題也很值得思考:傳統 dev tool 的定價一般是按使用者數量 seat-based 付費,對于coding agent 而言 consumption-based 付費可能是更合理的定價,優秀的、完成大量任務的 coding agent 價格可能值得和 junior developer 在同一個數量級。
? Coding Model 代表公司:Poolside、Magic
Coding 領域對模型能力的要求是不完全一致的,比如 code tokenizer 對代碼中的變量、符號、函數名都要做專門的切分,以及主流 LLM 的訓練是以文本生成為主要目標函數,代碼能力看起來是其智能的副產品。因此 Coding model 領域開始出現一些獨立公司:
? Magic 強調特別長的 context window,能把企業中復雜的 codebase 完整讀進來解決問題,盡量避免 retrieval;
? Poolside 強調 RL from machine feedback,能把 Git history 中復雜的工程鏈條完整解決。
不過這一領域的公司在 OpenAI、Anthropic 的主航道上,考慮到 Coding 能力是模型推理能力最好的proxy,這兩家公司的模型一定會在 LLM + RL 的范式下在 coding 能力上持續進步。
Autopilot for citizen
? Task engine 代表產品:Replit、Websim、Wordware
Task engine 對應的是 search engine,用戶得到的不再是基于搜索關鍵詞的網頁,而是基于用戶需求生成的軟件。我們定義為 task engine 是希望弱化軟件和 code 這些詞帶來的高門檻意味,coding 能力帶來的 killer app 應該是大眾用戶都有意愿和能力去使用的。
Anthropic Artifact 和 OpenAI Canvas 在一定層面上也是希望能實現這個目標,但其產品形態并不是很易用,加上用戶對主產品的預期還是 chatbot。因此現在的 task engine 還在命令行時代,需要一個 GUI 級別的產品創新來讓更多用戶能理解使用。
目前這類產品的形態其實還有很大分歧:
??Replit agent:?cloud IDE for coding agent。產品使用 chat 多輪對話交互,每一次執行 action 都是漸進式的,遇到問題會向用戶提問來補足context、厘清需求,對話過程類似開發者和產品經理對需求的過程。這種產品設計思路用 alignment 解決了模型多步執行時的可靠性問題,但也要求用戶對自己的需求想得比較清楚。
??Wordware:?Notion for LLM app。產品完成度高,使用體驗比較像創作內容,通過 Twitter 嘲諷 bot 找到了很好的viral 增長第一槍。用 Twitter 作為增長起點的方式讓人想起了去年的 Perplexity。成為增長最快的 ProductHunt 產品之后,流量開始快速下降,高度依賴頭部流量產品是 Wordware 現在的挑戰。?
? Websim: 用類似 Google Chrome 的簡陋 UI,打造了一個用戶能同時創作和消費 web app 的產品。這個產品的想象空間很大,用戶可以在上面基于用戶的 template 繼續生成和修改,有點像 Canva 的模板化思路。而且用戶在 Websim 上打造的網站每一個超鏈接可以繼續點擊并深入生成新的網站。不過他們的產品設計細節還欠打磨,有點類似 C.ai 有一個很好的框架但在產品上不夠極致。
? 前端生成代表公司:Vercel (V0)、Stackblitz (Bolt.new)
這一領域的公司之前就在前端框架和部署領域有比較深的積累。例如 Vercel 是 Next.js 框架的發明者,主要業務是前端網站的部署,ARR 也已經達到 1 億美金以上,我們之前有過詳細的研究。他們的 Vercel V0 產品一直在進步,無論是審美風格還是對話修改上的體驗都比剛發布時優秀很多。另一個很火的產品是 bolt.new,也能通過一句話把產品需求變成不錯的 web app 產品。其進步速度更快,同樣的prompt 每一兩周都能看到其生成質量的進步。
這類產品的效果已經接近可用了,不過實際持續使用的時候會遇到一些問題。web app 生成出來的 demo 十分優秀,但由于其技術棧比較雜,生成的產品真正開始有規模之后很難維護和管理。因此前端生成的未來 use case 很可能是 desposable application,這個網頁的生成就是為了服務某個臨時、長尾的需求,并不用為更大的群體、更長的時間去維護。
前端是開發中相對好上手的領域,因此之前每一代 Low-code/No-code 都會講前端民主化的故事,誕生了 WordPress、Wix、Spacesquare 甚至 Shopify 這樣的公司。整個市場很大,但需求比較零碎,市場頭部集中度不高。AI 前端生成現在看起來很有前景,但他們是否能抓住大量增量需求,甚至代替過去的存量需求呢?這直接決定了其市場規模的上限。
1)Coding 能力的民主化?不,是軟件工程的民主化。
技術會帶來一個領域的民主化,這是很多領域都發生過的故事,例如 Canva 成為了設計師民主化的一站式模版和設計平臺。而開發領域是否會有這樣的民主化故事呢?
我們認為 Coding 能力不會發生民主化,但軟件工程會。這意味著軟件的制造成本會隨著 AI coding 帶來大幅下降,但用戶不一定需要理解 code 編程是如何操作并執行的,只需要明白 high level 的運行邏輯即刻。也就是說,用戶們不需要是開發者,但需要是自己需求的產品經理
2)UI/UX:同步與異步,GUI 時刻的到來。
未來的開發體驗可能由同步和異步組成:同步的部分,開發者一邊寫代碼,AI 一邊在后臺同步做 code testing/review/optimization;異步的部分,o1范式下的 inference-time compute 能把 coding 任務拆解為多個子任務,推理出最合適的解決方案并自己驗證。
而未來更廣義的 AI coding 也是如此,很多軟件都是實時根據 context 來實時生成,而真正復雜的任務則不需要交互,AI 能異步的完成并通過郵件等方式向用戶同步。
現在的產品交互使用門檻還偏高,類似 GUI 到來前的命令行時刻。等待新交互到來時,AI 應用的空間會被打開,coding 領域可能是最先驗證和感知到的。
本文章轉載微信公眾號@海外獨角獸