Character.AI 正在全力推進通用人工智能(AGI)的構建,旨在通過優化大語言模型(LLM)的推理過程,提升日常生活的各個方面。這篇文章將深入探討 Character.AI 在推理效率、成本效益和用戶安全性方面的優化措施。
Character.AI 在推理過程中面臨的主要挑戰之一是注意力鍵值(KV)緩存的大小。為了應對這一挑戰,Character.AI 采用了多種創新技術。
多查詢注意力是一種通過減少 KV 緩存大小來提升效率的技術。相比傳統的分組查詢注意力,多查詢注意力減少了 8 倍的緩存需求。這意味著在不影響模型質量的前提下,能夠更高效地處理大批量的請求。
通過交替使用局部注意力和全局注意力層,Character.AI 將注意力范圍縮小到 1024,從而降低了計算復雜度。這種方法不僅優化了內存使用,還在評估指標上表現出色。
在相鄰的注意力層之間共享 KV 緩存進一步減少了內存需求。通過共享 KV 緩存,Character.AI 能夠在長上下文使用情況下保持高效的模型性能。
為了降低推理成本,Character.AI 開發了一個高效的系統,用于在對話回合之間緩存注意力 KV。
該系統通過將 KV 值緩存到主機內存,并在后續查詢中檢索它們,實現了 95% 的緩存命中率。這一創新大幅降低了推理成本。
在服務器層面,Character.AI 通過粘性會話將同一對話的查詢路由到同一臺服務器。這種方法確保了高效的緩存利用率,并降低了服務器負載。
Character.AI 在模型權重、激活和注意力 KV 緩存上使用 int8 量化技術,以提高訓練效率。
與常用的“訓練后量化”不同,Character.AI 在 int8 精度下原生訓練模型。這種技術消除了訓練與服務不匹配的風險,并顯著提高了訓練效率。
為支持矩陣乘法和注意力計算,Character.AI 實現了定制的 int8 內核。這些內核優化了計算資源的使用,進一步提高了推理效率。
Character.AI 致力于創建一個高效、可擴展的 AI 系統,以滿足快速增長的全球用戶需求。
自 2022 年底以來,Character.AI 將推理成本降低了 33 倍。這一成就使得大規模提供 LLM 服務變得更加容易。
Character.AI 計劃繼續推動 AI 的可能極限,以促進全球創新和用戶體驗的提升。公司承諾在創新與效率之間取得平衡,為用戶提供更佳的服務體驗。
為了提高用戶安全性,Character.AI 推出了針對青少年的家長控制功能。
Character.AI 為青少年用戶開發了獨立的大語言模型(LLM),限制了浪漫和敏感內容的訪問。這些措施確保了青少年在平臺上的安全互動。
新推出的家長控制功能允許家長監控孩子在平臺上的活動。這些功能是與青少年在線安全專家合作開發的,旨在平衡創造力和安全性。
面對訴訟中提到的自殘和自殺話題,Character.AI 開發了引導用戶聯系求助熱線的功能。這一舉措體現了公司對用戶心理健康的重視。
答:Character.AI 通過多查詢注意力、混合注意力范圍和跨層 KV 共享等技術,顯著優化了推理效率。
答:家長控制功能允許家長監控孩子在 Character.AI 上的活動,確保青少年的安全。
答:Character.AI 的安全策略包括限制青少年模型的敏感內容訪問,并提供心理健康資源。
答:Int8 量化技術是一種在低精度下訓練模型的方法,能夠提高訓練效率并降低計算資源消耗。
答:Character.AI 通過輪次間緩存系統和粘性會話實現了高效的 KV 緩存,降低了推理成本。
通過以上討論,我們可以看到 Character.AI 在推理效率和用戶安全性方面的持續創新。這些優化措施不僅提高了服務質量,還為未來的發展奠定了堅實的基礎。