2021 和 2022 H1 互聯網流量占比前 6 大公司

2022 H1 視頻流量占互聯網流量超 65%

目前視頻搜索市場存量很大,主要被 Netflix、YouTube、Disney+、TikTok 等視頻巨頭占領,前十大視頻應用流量占比超過 52%。根據 Nielsen 的數據,2021 年美國成年人觀看視頻的時間估算達到 5 小時 21 秒,接近于每天總清醒時間的四分之一。人們每天都會消費和創建大量的視頻內容,巨大的視頻流量意味著對視頻精準搜索、分類的需求日益顯著。但與文本數據不同,視頻中的信息仍然難以通過簡單的 Ctrl+F 來查找。視頻搜索市場能提供的不僅僅是搜索功能;它還包括了內容管理、廣告投送和內容推薦,這些增值服務都能通過提高用戶參與度從而促進內容消費、增加平臺和內容制作者的收入來源。好的視頻搜索方式能夠帶來巨大的用戶粘性和商業價值,因此大量的視頻資產就像未被采掘的金礦。

前十大視頻公司

近兩年的視頻理解模型的發展已經證明了視頻領域的模型可以真正完成理解任務,其中,Twelve Labs 自研的視頻理解模型可以實現對視頻的多模態搜索(即可以通過文字/圖像對視頻中的聲、畫、音、圖等各種信息進行精準的搜索),在目前小規模的使用中客戶已經感受到了極高的價值。如果視頻多模態搜索能夠被大范圍應用,那么有可能是對視頻應用的一次變革。

另外從增量市場上看,Twelve Labs 推出的視頻理解(智能問答、摘要)、視頻分類功能目前位于 0-1 的市場。是 LLM 的出現催生了視頻問答這類 high-level 的視頻理解能力,最快跑出來的好模型、好產品有機會快速搶占市場份額。視頻智能問答、摘要可以在生產力場景提高人們工作效率,例如在工作中智能總結視頻以及音頻、在營銷中智能生成營銷的標題與標簽等。視頻智能分類可以在視頻內容管理、視頻智能剪輯的場景中加以利用。

Twelve Labs 是目前視頻多模態搜索領域最好的產品:搜索結果準確、速度快、泛用性好、產品運營能力強

Twelve Labs 最大的亮點是視頻搜索效果非常準確,能夠理解抽象概念,在同類中處于絕對領先的位置,客戶普遍評價其搜索質量很好,搜索速度快。Twelve Labs 的客戶在選擇供應商時經常會比較不同的模型和方案,盡管有其它的視頻搜索模型在準確度測試中能夠接近 Twelve Labs,但它們基本無法做到像 Twelve Labs 這樣能夠理解抽象的概念(例如蒙太奇概念),它們在實際應用中的理解力遠不如 Twelve Labs。有一些傳統的方案視頻理解能力更強,但是傳統方案往往需要人工做大量的監督和標注,欠缺質量和效率的平衡。Twelve Labs 的搜索處理時間是視頻原長度的 1/4,對于過往依靠傳統搜索方法的客戶來說,”這個速度幾乎可以被認為忽略不計”。

Twelve Labs 產品強大的視頻理解力背后是其訓練方式的不同。與大部分同類方案的從圖像開始、逐幀訓練不同,Twelve Labs 的模型從視頻開始訓練,通過輸入整秒的視頻片段和使用分片技術,讓模型更好地理解時間跨度內的概念。Twelve Labs 訓練的單位是涉及到抽象概念的場景邊界,確定場景邊界后再移除冗余幀,以提高模型在捕捉空間和時間上下文方面的能力和效率。

除了理解力之外,Twelve Labs 在泛化方面也表現更強。如果客戶需要訓練 Twelve Labs 識別新的圖像(例如特定的 logo),Twelve Labs 只需要做少量的訓練即可。對比同類型的商用產品(例如 Google vision API),它們則需要客戶創建模型做大量的訓練。

客戶普遍認為 Twelve Labs 的團隊樂于溝通、積極吸收反饋、產品迭代速度快。AI 時代的公司不像互聯網公司那樣,依靠 “產品—用戶—數據” 就能實現圈地閉環。但 Twelve Labs 作為視頻理解領域第一批跑出來的公司,可以用 “先發優勢—用戶反饋—更好的產品” 構建自己的競爭優勢。例如,公司最初是以視頻嵌入模型 Marengo 為核心提供視頻搜索功能,但在客戶使用的過程中,公司發現用戶希望產品可以提供自動為視頻生成文本、視頻 QA 等輔助功能,于是公司開始開發視頻語言模型 Pegasus,二者實現互補,為用戶提供完善的產品。

2.Risk

Twelve Labs 的視頻搜索產品能否突破技術瓶頸率先實現大規模應用?

Twelve Labs 目前的客戶群體主要是擁有中小型視頻庫的企業,這些企業往往需要細顆粒度地處理視頻,Twelve Labs 的高質量視頻搜索產品極大改善了傳統方案所需的時間和成本。這類客戶能夠向下游客戶收取相對高的溢價,因此對于 Twelve Labs 的價格敏感度較低。但據客戶反饋,如何實現大規模視頻搜索可能是 Twelve Labs 正在或即將面臨的商業化瓶頸和技術瓶頸。

1)從商業化的角度看,如果客戶的視頻量再往上加幾個量級,按照目前 Twelve Labs 的搜索方法成本很高,客戶只有用 Twelve Labs 的產品創造更大的商業價值才能夠負擔這樣的成本。而目前視頻搜索的概念相對比較新。一些視頻處理領域的企業反饋,它們的下游客戶很多還在使用傳統的方式管理視頻、處理視頻內容,因此視頻搜索這個概念還沒有在下游客戶中有規模化的成熟盈利模式。所以 Twelve Labs 以目前的成本可能較難獲得爆發式增長。我們猜測 Twelve Labs 至少是每秒存儲一次向量,這樣如果有超過 1 萬個視頻成本會非常高,可能需要每 10 秒或每 30 秒存儲一次才可以達到成本和質量的平衡。客戶反饋目前 Twelve Labs 可能正在開發這種靈活調整成本和質量的功能。如果他們能夠提供這種功能,則有機會拿下有更多視頻的客戶。

2)從技術的角度看,目前 Twelve Labs 能夠處理的視頻數量可能面臨物理意義上的限制。視頻向量存儲在數據庫中,必須在內存中維護數據,這種方法對于可以處理視頻的數量物理上的限制可能在 10,000 到 100,000 小時,這意味著無法處理超過這個數量的視頻。YouTube 目前無法實現語義搜索的原因是無法真正處理超過數以億萬量級的視頻量。現今主流方法都是將向量存儲在數據庫中。因此要解決這個問題需要在存儲數據方面進行新的思考。如果 Twelve Labs 能夠從基礎架構或數據存儲上解決可擴展性的問題,則有機會可以為像 YouTube 和 Vimeo 這樣的大型視頻庫解決搜索問題、獲得更大的市場。

視頻多模態模型正處于 LLM 公司和 Big Tech 研發的主航道,潛在競爭風險大

在下游客戶選擇供應商的過程中,與 Twelve Labs 最直接的比較對象主要是 Google、Amazon 和 Microsoft 相應的視頻理解模型。盡管客戶認為 Twelve Labs 的產品競爭力目前勝于這些 Big Tech 的成熟商用模型,但視頻以及多模態理解目前是在這些 Big Tech 以及 LLM 公司的主航道上,它們還有許多正處于 stealth 階段、正在研發、或者是正在進行商業化的模型(例如 Google 的 Gemini Pro (1.5)、VideoCoCA 等?)。這些處于研發、商業化嘗試階段的模型暫時沒有產品功能、客戶群體、應用成熟度能與 Twelve Labs 匹敵的,但它們是 Twelve Labs 未來最大的潛在競爭者。

3.Twelve Labs 的產品

Twelve Labs 的產品最核心的功能是視頻搜索(Search),用戶可以僅通過文字/圖片輸入就搜索出視頻中的任何相關內容。此外,Twelve Labs 還開發了圍繞視頻的場景開發了不同功能:視頻分類(Classify)功能可以快速對視頻進行標簽、分類;視頻智能問答(Generate)功能可以對視頻內容進行總結、摘要、問答。

Twelve Labs C 端 playground 上的 

Search、Classify、Generate

Search

Search 是 Twelve Labs 最核心的產品,用戶可以通過輸入文字、圖片來尋找視頻中的任意內容——可以是畫面、聲音,甚至是畫面中的人物、動作、文字、圖片等。

Search 的使用方法非常簡單,企業客戶可以直接通過 API 將其與自有視頻庫集成;C 端用戶則是在網頁端上傳視頻或直接輸入 YouTube 視頻鏈接。從搜索效果上看,Twelve Labs 的客戶們均認為目前市面上還沒有完全可以與 Twelve Labs 的視頻搜索比擬的產品。產品可以在視頻長度 1/4 的時間內處理視頻,然后實現搜索(例如 1 h 的視頻需要 15 min 的等待時間)。由于搜索效果良好,因此企業客戶在等待時間上忍耐度較高。

Search 產品的客戶群體主要包括(1)視頻網站的用戶,例如 YouTube 的用戶;(2)專業的視頻檔案庫,例如美國宇航局的檔案網站;(3)擁有視頻素材庫的企業。應用場景包括:視頻網站和企業視頻的內容搜索、內容審核、證據搜索、制作和編輯視頻、情景廣告等。

Classify

Classify 功能可將視頻自動進行分類,用戶可以自定義分類標簽,也可以采用產品中的預定義標簽。

傳統的視頻分類的痛點在于需要大量的人力、時間,并且依賴于固定的類別分類法(例如 YouTube 默認提供的是 15 個類別),分類效果單一,限制了用戶靈活的需求。而 Twelve Labs 的多模態理解能力則可以幫助靈活拓展分類標簽、快速對視頻分類。

視頻分類功能的最直接的應用場景是社媒個性化推薦,此外還有監控分類、視頻內容管理、廣告商尋找達人、體育視頻分析、自動視頻剪輯,語境廣告(根據視頻內容進行精準廣告投放)等。

Generate(視頻智能問答)

Generate 功能是為視頻生成總結和摘要,用戶也可以通過 prompt 對視頻的任意內容進行提問。產品可以通過 API 支持本地云、私有云以及內部部署。其應用場景包括在工作中智能總結視頻以及音頻、在營銷中智能生成營銷的標題與標簽、在實時監控中協助警方工作等。

4.視頻理解技術的關鍵問題

視頻的研究最開始是圖像研究的拓展,傳統上是通過一些數字圖像信號處理方法來實現 low-level 的視頻感知(如識別顏色、紋理)。2013 年以來深度學習和計算機視覺的興起讓人們開始使用 AI 來執行視頻感知任務,但初期仍然局限于有限的基礎任務,例如目標檢測和圖像分割等。

當前研究的主流是較高層次的視頻理解(如識別物體、動作或事件)。視頻理解的目的是讓計算機像人一樣“看懂”視頻內容。下圖給出了視頻理解研究的范疇,包括視覺-語言理解和視頻生成兩大領域。

視頻理解的研究范疇

(來源:Foundation Models for Video Understanding: A Survey)

從 2000 年到 2022 年,視頻生成領域的 publication 在視頻理解的研究中增長數量最多。而視頻-語言理解范疇的視頻檢索、視頻問答(QA)、視頻描述的研究在 2020 年前后才逐漸涌現,目前仍處于 0-1 的商業化階段。本文聚焦于討論視覺-語言理解。

視頻理解研究在 2000 -2022 年的發展

( 來源:Foundation Models forVideo Understanding: A Survey)

視覺-語言理解任務可以分為視頻檢索、視頻描述、視頻問答三個低、中、高層級的任務(如下圖)。其主要挑戰在于:1/ 視覺-語言模型架構如何效捕捉復雜的跨模態交互。視頻結合了視覺和聽覺信息,這涉及空間交互和時間交互兩個方面。空間交互探討物體之間的關系,而時間交互捕捉視頻幀之間的順序依賴關系。另外不同的視覺表情、肢體語言、口頭語言以及視頻的整體語境都會影響整體含義,因此需要多模態基礎模型和各種數據源的整合,以捕捉視頻的豐富性和多維性。2/ 模型訓練方法如何讓模型架構適應多任務、多領域。與語言模型在各行各業有許多成熟的細分應用場景不同,視頻模型內容天然地涵蓋多樣化的內容,所以獲得一個能夠用于多任務、多領域的模型比特定任務的模型更有現實意義。3/ 如何有效地存儲、標注、計算視頻數據。視頻處理與文本或圖像處理相比關注度較少的一個原因在于其的高計算負擔。視頻的大小遠大于文本或圖像,計算能力問題在 Transformer 架構中尤為明顯,因為 Transformer 采取的 self-attention mechanism 使得 token 長度的計算復雜度呈平方增長。

視覺-語言理解任務的低、中、高層級

( 來源:Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data Perspectives)

其中,視覺-語言模型架構是最關鍵的問題。視覺-語言模型架構的發展大致可分為三個階段。1/ Pre-Transformer 階段的研究集中在如何有效融合視頻和語言特征,代表性架構有單模態編碼器(如 CNN、RNN);語言編碼器 (如word2vec);以及跨模態編碼器。2/ Transformer-based 階段引入了 self-attention mechanism,使得模型可以高效并行處理長序列和捕捉長期依賴關系。這一階段同樣也有單模態、多模態編碼器。典型的單模態編碼器有如 Vision Transformer 用于視頻編碼、BERT 用于語言編碼。但是單模態模型僅專注于單一類型數據,我們判斷視頻的性質使得視頻理解的發展必然需要多模態模型。3/ LLM 的出現進一步了增強視覺-語言模型架構,此階段的架構包括 LLM 作為控制器的方法和 LLM 作為輸出生成器的方法。后者是主流方法,由于 LLM 在訓練過程中從未見過視頻,因此需要一個對齊的步驟將視頻的視覺語義和 LLM 的語義對齊。

5.Twelve Labs 的

視頻模型

Twelve Labs 的 vision 是建立 video-native 的多模態視頻基礎模型。現階段 Twelve Labs 的核心自研模型有兩個,一個是視頻基礎模型 Marengo-2.6,用于執行視頻搜索和分類任務。但從可以執行的任務來看這還算不上是一個通用的視頻基礎模型。該模型最大的特點是將視頻轉換為多模態視頻原生嵌入,這種嵌入空間對于跨模態搜索和分類非常有用,也是 Twelve Labs 的優勢所在。另一個是視頻-語言模型 Pegasus1,用于執行視頻智能問答任務,是視覺理解和文本理解之間的橋梁。據用戶反饋,Twelve Labs 產品的優勢特點在于對視頻內容的理解力、可以實現多模態搜索、以及可以通過 API 實現端到端的簡單集成。另外從基準測試效果上看,Twelve Labs 的準確性領先;從應用上看它還可以通過微調應用到特定領域。

除了核心模型外,Twelve Labs 平臺架構中還有 Engine options 是用于處理不同類型的信息,Processing Engine 用于支持下游的 3 個核心功能:搜索、生成,和分類。

視頻基礎模型 Marengo-2.6:

Marengo-2.6 將視頻轉換為多模態視頻原生嵌入,從而可以 scale up 執行任務,無需存儲整個視頻。Marengo-2.6 已經在大量視頻數據上進行了訓練,訓練重點是在綜合多模態數據集上進行自我監督學習。目前的訓練數據集包含 6000 萬個視頻、5 億張圖片,和 50萬段音頻。模型可以識別視頻中的實體、動作、模式、運動、物體、場景等多種元素。因此,Marengo-2.6 支持任意到任意的檢索任務(包括文本到視頻、文本到圖像、文本到音頻、音頻到視頻和圖像到視頻)。但目前僅提供文本/圖像輸入執行搜索任務,文本輸入執行分類任務,公司表示未來很快會發布更廣泛的基準模型。此外,模型還通過引入 Reranker 模型,增強時間定位功能,獲得精確的搜索結果。

Marengo 架構

視頻語言模型 Pegasus1:

目前開放的 Pegasus1 open-beta version 擁有大約 170 億個參數( Pegasus1 alpha version 擁有大約 800 億個參數), Pegasus1 通過將文本和視頻數據整合到一個共同的嵌入空間,在視覺理解和文本理解之間架起了一座橋梁,支持從視頻到文本生成的多種功能。Pegasus1 目前被用于處理視頻內容上下文中生成或理解自然語言的任務,例如總結視頻和回答問題。該模型集成了三個主要組件來處理和解釋視頻數據:

? 視頻編碼器模型 Video encoder model:該組件基于 Marengo 嵌入模型,將視頻和音頻作為輸入,通過分析幀及其時間關系,輸出封裝了視覺、音頻和語音信息的多模態視頻嵌入。

? 視頻語言對齊模型 Video-language alignment model: 該組件將視頻編碼器模型 video enconder model 生成的視頻嵌入信息與文本領域對齊,確保大語言模型解釋視頻嵌入信息的方式與解釋文本標記的方式相似。該模型輸入視頻嵌入,輸出與視頻語言對齊的嵌入。

??大語言模型-解碼器 Large language model – decoder:?該組件根據用戶提供的 prompt 解釋對齊的嵌入信息,并將信息解碼為連貫、人類可讀的文本。該模型輸入視頻語言對齊嵌入,用戶提示;輸出文本。

Pegasus 架構

6.商業模型及經營情況

公司在成立一年多(2021 年 3 月)后,開始擁有付費客戶。2023 年 6 月,公司推出了 Search API。目前已超過 2 萬名開發者在使用該產品,每月 API 調用次數就已突破百萬。2023 年,公司接觸了 10 多個不同行業的數百家客戶。客戶主要有三類,一是娛樂媒體公司,它們要處理大量細顆粒度的視頻;二是廣告相關的公司,視頻的上下文理解可以幫助他們更好地插入廣告;第三是公共安全公司,它們需要智能監控服務。

因此,Twelve Labs 目前主要的客戶是擁有、或需要處理中小型視頻庫的企業級客戶。其商業模式是為開發者和企業用戶提供 API,按時長收費。C 端用戶亦可以在公司官網上使用產品,但不是目前主要收入來源。

產品收費模式

客戶案例

? dSky.ai

dSky.ai 主要在好萊塢和媒體制作行業幫助制造電影、電視。它使用 Twelve Labs 技術幫助客戶管理和快速搜索大量的視頻檔案。dSky.ai 評價 “Twelve Labs的價值是將視頻搜索從無限長的時間縮短到無限小” 。dSky.ai 選擇 Twelve Labs 的原因在于價格競爭力、技術優勢(Twelve Labs的技術能夠從少量訓練數據中進行泛化)以及初創公司合作的靈活性。dSky.ai 每年花費約 100 萬美元,Twelve Labs的費用占到了dSky.ai向客戶收費的20%到40%。

? Source Digital

Source Digital 是一家內容增強公司,通過為視頻標注人物和產品,分辨視頻的最佳廣告位。使用 Twelve Labs 每月花費約 1 萬美元,使用后視頻購物廣告用戶點擊次數增加了 3 倍。公司評價 “Twelve Labs 在視頻搜索有 97% 的準確率,而同類的Google video AI 只有40-50%” ,但是公司認為 “Twelve Labs 的收費太貴,不是所有下游客戶都需要使用。”

? MindProber

MindProber 記錄用戶觀看電視過程中的生理數據,為廣告商提供最佳廣告插放位置。公司利用 Twelve Labs 技術檢測視頻中的 logo 并標記用戶生理數據。公司評價 “相比于Google Vision API,Twelve Labs 的泛用性更強,性價比更高,可以開箱即用。” 公司認為其傳統替代方案(如LogoGrab)的精度更好但是需要非常多人工干預,精度和速度無法平衡。

? Virtulley

Virtulley 為企業組織遠程活動,使用 Twelve Labs 提供的視頻搜索和分析服務記錄參與者反應,通過參與者的反饋提高活動質量,并剪輯精彩片段。每月花費在 7000~8000 美元之間。公司認為 “Twelve Labs收費較高,但其視頻搜索和分析功能吸引力很大。”

媒體領域的經營合作情況

媒體制作公司是 Twelve Labs 目前占比較大的客戶群體。在媒體制作中,快速找到理想的視頻內容至關重要。傳統上,媒體資產依賴手動打標簽管理或元數據搜索,存在準確性和可擴展性問題。

示例 : 傳統上,使用元數據搜索

( 來源:MediaCentral 產品 )

因此?Twelve Labs 的技術在媒體和娛樂領域有廣泛應用,例如優化視頻資產歸檔、管理和制作流程。語義搜索功能可以根據用戶的搜索提供推薦,讓視頻編輯者接觸到他們可能沒有考慮過的潛在相關內容,在加快工作流程的同時激發新的創意。另外還能應用在通過個性化推薦提高用戶參與度、識別最佳廣告機會等。

MediaCentral 中的推薦引擎示例 

( 來源:MediaCentral 產品 )

Twelve Labs 正在積極拓展與媒體資產管理(MAM)提供商產品的集成,以提高用戶的視頻處理體驗。例如:與 Blackbird (AIM:BIRD) 的云原生視頻編輯平臺合作,將產品作為插件集成到其平臺中,提升視頻編輯效率;與媒體資產管理和工作流程自動化解決方案公司 EMAM 合作,將產品集成到其平臺中。與大數據傳輸服務公司 MASV合作,簡化視頻處理,提升生產和編輯效率。與 CineSys 的視頻播放平臺合作,簡化后期視頻制作流程。與社交媒體數據分析 Phyllo合作,實現視頻內容的高效搜索和詳細分析,從而優化營銷策略。

Twelve Labs 與數字化轉型公司 Arvato 合作,讓體育行業的客戶可以用自然語言搜索準確視頻內容

7.團隊成員

創始團隊

2021 年 3 月,CEO 和四位聯合創始人一起創辦了公司。目前團隊大約 80 多人。

CEO Jae Lee 出生在首爾,在 10 來歲的時候隨著在田納西大學攻讀統計學博士的叔叔來到了美國,從小接觸了許多統計學的方法,11 歲就開始學習 Matlab,后來獨自留在在美國繼續自己對統計學和計算機科學的研究興趣以及學業。Jae 和 Aiden Lee、Sungjun Kim 是一起在韓國軍隊(韓國國防部的 R.O.K Cyber Operations Command 部門)作戰的戰友,他們在軍隊中一起做了很多視頻的底層研究,熱衷于打造智能系統,做了許多多模態視頻理解的研究。他們曾想在學術界發展,但是他們想做的研究的產品需要大規模的數據,于是一拍即合一起創業。Jae 和另一位聯合創始人 Soyoung Lee 是十幾年的老朋友,Soyoung 喜歡和開發者交流、喜歡技術。

我們認為 Twelve Labs 的核心團隊是視頻理解賽道上的一個比較好的團隊。1/ 前面我們已經分析,視頻理解模型的大規模商業化需要在基礎研究上有大的突破。盡管從團隊的學術背景上看 Twelve Labs 不是該領域的最強團隊,但從已取得的模型效果上看是處于領先位置,未來的關鍵在于能否在基礎研究上持續取得突破。2/ 作為前沿領域的 AI 公司,Twelve Labs 需要在工程上能夠快速迭代、快速測試不同的想法,并且在獲得實驗結果后快速部署,才能持續保持競爭優勢。Twelve Labs 的團隊在工程能力上較強,團隊項目經驗豐富。2021 年,公司在 Microsoft 主辦的 ICCV VALUE 挑戰賽中一舉成名,以優異的成本、性能在騰訊、百度等對手中名列前茅。此次比賽是 Twelve Labs 高速成長的推進器,為公司吸引來了來自 Index Ventures 的第一筆種子輪投資,隨后飛速成長、建立聲譽。3/ 產品力和運營能力也是新型領域公司商業化的關鍵。客戶普遍反饋 Twelve Labs 的團隊溝通積極、能夠及時響應反饋和調整產品。例如,視頻生成文本的功能(視頻語言模型 Pegasus1)正是在客戶的強烈要求下推出的,為客戶實現與視頻搜索相輔相成的功能。

8.市場與競爭

目前的視頻搜市場

VerifiedMarket 估計 2023 年視頻搜索的市場規模大約在 283 億美金,這部分的市場主要來自于 “傳統” 玩家,它們利用自然語言處理、計算機視覺、機器學習和數據分析等技術的組合提供搜索算法,這些算法能夠根據用戶查詢或偏好來理解、索引和檢索視頻內容,主要服務于安全和監控、智能家居、視頻管理等行業。玩家有如 Agent Vi、Genetec、Verkada、Vivint、Bosch (Bosch Sicherheitssysteme)、BriefCam、Identiv等。下面列舉了幾家公司的情況:

? Agent Vi:一家企業視頻分析軟件公司,主要用于安全領域的監控和保證,其視頻搜索功能包括高級視頻分析和搜索功能。該公司被 Livly 以 6,750 萬美元的價格收購。

? Genetec:一家安全系統領域的公司,提供視頻監控、訪問控制和自動車牌識別等解決方案。年收入約為 5 億美元。

? Verkada:一家基于云的 B2B 物理安全平臺公司,其中視頻安全攝像頭是核心產品之一,提供視頻搜索和分析功能。2016 年成立以來融資超過 4.4 億美元。

? Vivint:Vivint 提供智能家居自動化和視頻監控解決方案,其視頻搜索功能集成于智能家居系統中。市值約 25 億美元,年收入約 16.8 億美元。

這些 “傳統” 玩家提供終端的視頻解決方案,提供特定領域的視頻產品,但視頻搜索、視頻分析是其產品的一項核心功能。所以這部分市場并不是 Twelve Labs 直接對標的市場,而更有可能是 Twelve Labs 的下游市場。市場上在做視頻搜索領域基礎模型的人相對較少,但這方面有大量的 use case,例如上述的監控領域,還有醫療保健、教育、娛樂、工業方面的 use case。

Twelve Labs 的直接競爭者

在客戶選擇供應商的過程中,最直接的比較對象來自三大 Big Tech,例如有 Microsoft Azure video services(已關停)、Microsoft Azure AI Video Indexer、Amazon Rekognition、Google Video Intellignce、Google Vision API。據用戶反饋:Microsoft Azure video services 定價最低但是產品力欠缺;Google Video Intellignce 的準確率不如 Twelve Labs(Twelve Labs 在視頻搜索有97%的準確率,Google video AI 只有40-50%);相比與 Google Vision API,Twelve Labs 更加開箱即用,并且泛用性更強,需要的訓練數據遠小于Google Vision API。除了 Big Tech 外,一些傳統的視頻搜索方案也是競爭對象,例如 LogoGrab 的精度更好但是需要非常多人工干預,精度和速度無法平衡。

從 startup 的角度來說,暫時并未 mapping 到產品功能和客戶群體相似度高的 startup,最相近的是 Gloss AI,其次是細分場景的 comp,具體如下:

此外,對客戶而言,Twelve Labs 的替代方案主要是自行構建視頻搜索系統,這需要大量的工程投入和時間。具體過程包括使用視頻轉錄服務將視頻轉換為嵌入數據,然后使用 Pinecone、Vectra 或 Perplexity AI 等工具(或開源工具如 FAISS 和 Annoy)進行數據存儲和搜索。雖然這種方法是可行的,但確實需要耗費大量的工程資源和時間。

Twelve Labs 的潛在競爭者

Twelve Labs 最大的風險來自于 Big Tech 正在研發、而未進入成熟商業階段的模型。Big Tech 在多模態模型的研究范圍很廣,從 Twelve Labs 的三個主要業務:Search、Generate(視頻智能問答)、Classify 來看,Big Tech 各有相應的可比/功能相似的模型。由于模型眾多,我們從客戶訪談以及公司主要對比的 benchmark 中選取了重要對比模型,例如(1)搜索方面有 Google 的 Gemini Pro (1.5)、VideoCoCA、 Vid2Seq、VATT;北大和騰訊合作的 LanguageBind 等。(2)視頻問答方面有  Google 的 Gemini Pro (1.5);Allen AI 研究所的 MERLOT Reserve;以及 Video-ChatGPT、VideoChat2 等。(3)視頻標記、內容推薦、搜索推薦領域則有 YouTube、Spotify 多年深耕其中、應用成熟。

雖然功能相似的模型很多,Twelve Labs 和 Big Tech 的區別主要在于:1/ 從較高的層次來看,Big Tech 主要聚焦的是多模態的研究,只是其中必然或多或少涉及到視頻檢索或生成,但他們并不是直接針對視頻搜索、生成的市場,所以視頻搜索、生成只是其研究中的一個小部分,或者只是一個小測試。從目前客戶的反饋上看我們認為這些處于研發階段的模型沒有產品功能、客戶群體、應用成熟度能與 Twelve Labs 同步的。2/ Twelve Labs 在不同的訪談中都有提到,公司長遠的愿景的讓 AI 像人類一樣理解世界,而公司采取的第一步是 “視頻優先” 的策略。所以我們可以認為,Big Tech 和 Twelve Labs 長遠的 vision 是相似的,不過 Big Tech 的研究 “全面覆蓋” 的,而?Twelve?labs 的策略是 “以點破面” 的。當然這也與其商業位置有關,Big Tech 也許并不著急商業化,而作為初創的Twelve Labs需要先做出產品生存立足,再往大的vision 發展。3/ 在視頻搜索中,建立索引和搜索的成本/時間占比大約 8:2,因此建立索引的技術路徑是不同多模態模型的主要區別,相應的策略和技術有很多種路徑。4/ 從公司公布的模型測試上來看,Twelve Labs 模型在三個核心產品對應的任務上,其性能優于主要的可比模型。

Search、Generate、Classify 產品的可比模型

9.融資歷史

公司于 2020 年成立。至今融資超過 8700 萬美元,最新輪次是 A 輪,由 NEA 和 Nvidia 領投(公司是 NV 投的第一個韓國的初創公司)。公司股東還包括 Intel Capital,Samsung NEXT Ventures,Index Ventures,Radical Ventures,Korea Investment Partners 等,此外公司還吸引多位學術界、業界的知名人士投資,例如李飛飛,Alexandr Wang(Scale AI 創始人)等。

團隊與投資人

融資歷史

文章轉自微信公眾號@海外獨角獸

上一篇:

Kore.ai:LLM能否為AI客服帶來新一輪洗牌與機遇

下一篇:

LLM 進化分岔口:多模態、成本、代碼推理
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費