a级黄色毛片三,99久久精品国产一区二区三区,久久婷婷色综合老司机

2021 和 2022 H1 互聯(lián)網(wǎng)流量占比前 6 大公司

2022 H1 視頻流量占互聯(lián)網(wǎng)流量超 65%

目前視頻搜索市場(chǎng)存量很大，主要被 Netflix、YouTube、Disney+、TikTok 等視頻巨頭占領(lǐng)，前十大視頻應(yīng)用流量占比超過(guò) 52%。根據(jù) Nielsen 的數(shù)據(jù)，2021 年美國(guó)成年人觀看視頻的時(shí)間估算達(dá)到 5 小時(shí) 21 秒，接近于每天總清醒時(shí)間的四分之一。人們每天都會(huì)消費(fèi)和創(chuàng)建大量的視頻內(nèi)容，巨大的視頻流量意味著對(duì)視頻精準(zhǔn)搜索、分類(lèi)的需求日益顯著。但與文本數(shù)據(jù)不同，視頻中的信息仍然難以通過(guò)簡(jiǎn)單的 Ctrl+F 來(lái)查找。視頻搜索市場(chǎng)能提供的不僅僅是搜索功能；它還包括了內(nèi)容管理、廣告投送和內(nèi)容推薦，這些增值服務(wù)都能通過(guò)提高用戶參與度從而促進(jìn)內(nèi)容消費(fèi)、增加平臺(tái)和內(nèi)容制作者的收入來(lái)源。好的視頻搜索方式能夠帶來(lái)巨大的用戶粘性和商業(yè)價(jià)值，因此大量的視頻資產(chǎn)就像未被采掘的金礦。

前十大視頻公司

近兩年的視頻理解模型的發(fā)展已經(jīng)證明了視頻領(lǐng)域的模型可以真正完成理解任務(wù)，其中，Twelve Labs 自研的視頻理解模型可以實(shí)現(xiàn)對(duì)視頻的多模態(tài)搜索（即可以通過(guò)文字/圖像對(duì)視頻中的聲、畫(huà)、音、圖等各種信息進(jìn)行精準(zhǔn)的搜索），在目前小規(guī)模的使用中客戶已經(jīng)感受到了極高的價(jià)值。如果視頻多模態(tài)搜索能夠被大范圍應(yīng)用，那么有可能是對(duì)視頻應(yīng)用的一次變革。

另外從增量市場(chǎng)上看，Twelve Labs 推出的視頻理解（智能問(wèn)答、摘要）、視頻分類(lèi)功能目前位于 0-1 的市場(chǎng)。是 LLM 的出現(xiàn)催生了視頻問(wèn)答這類(lèi) high-level 的視頻理解能力，最快跑出來(lái)的好模型、好產(chǎn)品有機(jī)會(huì)快速搶占市場(chǎng)份額。視頻智能問(wèn)答、摘要可以在生產(chǎn)力場(chǎng)景提高人們工作效率，例如在工作中智能總結(jié)視頻以及音頻、在營(yíng)銷(xiāo)中智能生成營(yíng)銷(xiāo)的標(biāo)題與標(biāo)簽等。視頻智能分類(lèi)可以在視頻內(nèi)容管理、視頻智能剪輯的場(chǎng)景中加以利用。

? Twelve Labs 是目前視頻多模態(tài)搜索領(lǐng)域最好的產(chǎn)品：搜索結(jié)果準(zhǔn)確、速度快、泛用性好、產(chǎn)品運(yùn)營(yíng)能力強(qiáng)

Twelve Labs 最大的亮點(diǎn)是視頻搜索效果非常準(zhǔn)確，能夠理解抽象概念，在同類(lèi)中處于絕對(duì)領(lǐng)先的位置，客戶普遍評(píng)價(jià)其搜索質(zhì)量很好，搜索速度快。Twelve Labs 的客戶在選擇供應(yīng)商時(shí)經(jīng)常會(huì)比較不同的模型和方案，盡管有其它的視頻搜索模型在準(zhǔn)確度測(cè)試中能夠接近 Twelve Labs，但它們基本無(wú)法做到像 Twelve Labs 這樣能夠理解抽象的概念（例如蒙太奇概念），它們?cè)趯?shí)際應(yīng)用中的理解力遠(yuǎn)不如 Twelve Labs。有一些傳統(tǒng)的方案視頻理解能力更強(qiáng)，但是傳統(tǒng)方案往往需要人工做大量的監(jiān)督和標(biāo)注，欠缺質(zhì)量和效率的平衡。Twelve Labs 的搜索處理時(shí)間是視頻原長(zhǎng)度的 1/4，對(duì)于過(guò)往依靠傳統(tǒng)搜索方法的客戶來(lái)說(shuō)，”這個(gè)速度幾乎可以被認(rèn)為忽略不計(jì)”。

Twelve Labs 產(chǎn)品強(qiáng)大的視頻理解力背后是其訓(xùn)練方式的不同。與大部分同類(lèi)方案的從圖像開(kāi)始、逐幀訓(xùn)練不同，Twelve Labs 的模型從視頻開(kāi)始訓(xùn)練，通過(guò)輸入整秒的視頻片段和使用分片技術(shù)，讓模型更好地理解時(shí)間跨度內(nèi)的概念。Twelve Labs 訓(xùn)練的單位是涉及到抽象概念的場(chǎng)景邊界，確定場(chǎng)景邊界后再移除冗余幀，以提高模型在捕捉空間和時(shí)間上下文方面的能力和效率。

除了理解力之外，Twelve Labs 在泛化方面也表現(xiàn)更強(qiáng)。如果客戶需要訓(xùn)練 Twelve Labs 識(shí)別新的圖像（例如特定的 logo），Twelve Labs 只需要做少量的訓(xùn)練即可。對(duì)比同類(lèi)型的商用產(chǎn)品（例如 Google vision API），它們則需要客戶創(chuàng)建模型做大量的訓(xùn)練。

客戶普遍認(rèn)為 Twelve Labs 的團(tuán)隊(duì)樂(lè)于溝通、積極吸收反饋、產(chǎn)品迭代速度快。AI 時(shí)代的公司不像互聯(lián)網(wǎng)公司那樣，依靠 “產(chǎn)品—用戶—數(shù)據(jù)” 就能實(shí)現(xiàn)圈地閉環(huán)。但 Twelve Labs 作為視頻理解領(lǐng)域第一批跑出來(lái)的公司，可以用 “先發(fā)優(yōu)勢(shì)—用戶反饋—更好的產(chǎn)品” 構(gòu)建自己的競(jìng)爭(zhēng)優(yōu)勢(shì)。例如，公司最初是以視頻嵌入模型 Marengo 為核心提供視頻搜索功能，但在客戶使用的過(guò)程中，公司發(fā)現(xiàn)用戶希望產(chǎn)品可以提供自動(dòng)為視頻生成文本、視頻 QA 等輔助功能，于是公司開(kāi)始開(kāi)發(fā)視頻語(yǔ)言模型 Pegasus，二者實(shí)現(xiàn)互補(bǔ)，為用戶提供完善的產(chǎn)品。

2.Risk

Twelve Labs 的視頻搜索產(chǎn)品能否突破技術(shù)瓶頸率先實(shí)現(xiàn)大規(guī)模應(yīng)用？

Twelve Labs 目前的客戶群體主要是擁有中小型視頻庫(kù)的企業(yè)，這些企業(yè)往往需要細(xì)顆粒度地處理視頻，Twelve Labs 的高質(zhì)量視頻搜索產(chǎn)品極大改善了傳統(tǒng)方案所需的時(shí)間和成本。這類(lèi)客戶能夠向下游客戶收取相對(duì)高的溢價(jià)，因此對(duì)于 Twelve Labs 的價(jià)格敏感度較低。但據(jù)客戶反饋，如何實(shí)現(xiàn)大規(guī)模視頻搜索可能是 Twelve Labs 正在或即將面臨的商業(yè)化瓶頸和技術(shù)瓶頸。

1）從商業(yè)化的角度看，如果客戶的視頻量再往上加幾個(gè)量級(jí)，按照目前 Twelve Labs 的搜索方法成本很高，客戶只有用 Twelve Labs 的產(chǎn)品創(chuàng)造更大的商業(yè)價(jià)值才能夠負(fù)擔(dān)這樣的成本。而目前視頻搜索的概念相對(duì)比較新。一些視頻處理領(lǐng)域的企業(yè)反饋，它們的下游客戶很多還在使用傳統(tǒng)的方式管理視頻、處理視頻內(nèi)容，因此視頻搜索這個(gè)概念還沒(méi)有在下游客戶中有規(guī)模化的成熟盈利模式。所以 Twelve Labs 以目前的成本可能較難獲得爆發(fā)式增長(zhǎng)。我們猜測(cè) Twelve Labs 至少是每秒存儲(chǔ)一次向量，這樣如果有超過(guò) 1 萬(wàn)個(gè)視頻成本會(huì)非常高，可能需要每 10 秒或每 30 秒存儲(chǔ)一次才可以達(dá)到成本和質(zhì)量的平衡。客戶反饋目前 Twelve Labs 可能正在開(kāi)發(fā)這種靈活調(diào)整成本和質(zhì)量的功能。如果他們能夠提供這種功能，則有機(jī)會(huì)拿下有更多視頻的客戶。

2）從技術(shù)的角度看，目前 Twelve Labs 能夠處理的視頻數(shù)量可能面臨物理意義上的限制。視頻向量存儲(chǔ)在數(shù)據(jù)庫(kù)中，必須在內(nèi)存中維護(hù)數(shù)據(jù)，這種方法對(duì)于可以處理視頻的數(shù)量物理上的限制可能在 10,000 到 100,000 小時(shí)，這意味著無(wú)法處理超過(guò)這個(gè)數(shù)量的視頻。YouTube 目前無(wú)法實(shí)現(xiàn)語(yǔ)義搜索的原因是無(wú)法真正處理超過(guò)數(shù)以億萬(wàn)量級(jí)的視頻量。現(xiàn)今主流方法都是將向量存儲(chǔ)在數(shù)據(jù)庫(kù)中。因此要解決這個(gè)問(wèn)題需要在存儲(chǔ)數(shù)據(jù)方面進(jìn)行新的思考。如果 Twelve Labs 能夠從基礎(chǔ)架構(gòu)或數(shù)據(jù)存儲(chǔ)上解決可擴(kuò)展性的問(wèn)題，則有機(jī)會(huì)可以為像 YouTube 和 Vimeo 這樣的大型視頻庫(kù)解決搜索問(wèn)題、獲得更大的市場(chǎng)。

視頻多模態(tài)模型正處于 LLM 公司和 Big Tech 研發(fā)的主航道，潛在競(jìng)爭(zhēng)風(fēng)險(xiǎn)大

在下游客戶選擇供應(yīng)商的過(guò)程中，與 Twelve Labs 最直接的比較對(duì)象主要是 Google、Amazon 和 Microsoft 相應(yīng)的視頻理解模型。盡管客戶認(rèn)為 Twelve Labs 的產(chǎn)品競(jìng)爭(zhēng)力目前勝于這些 Big Tech 的成熟商用模型，但視頻以及多模態(tài)理解目前是在這些 Big Tech 以及 LLM 公司的主航道上，它們還有許多正處于 stealth 階段、正在研發(fā)、或者是正在進(jìn)行商業(yè)化的模型（例如 Google 的 Gemini Pro (1.5)、VideoCoCA 等?）。這些處于研發(fā)、商業(yè)化嘗試階段的模型暫時(shí)沒(méi)有產(chǎn)品功能、客戶群體、應(yīng)用成熟度能與 Twelve Labs 匹敵的，但它們是 Twelve Labs 未來(lái)最大的潛在競(jìng)爭(zhēng)者。

3.Twelve Labs 的產(chǎn)品

Twelve Labs 的產(chǎn)品最核心的功能是視頻搜索（Search），用戶可以僅通過(guò)文字/圖片輸入就搜索出視頻中的任何相關(guān)內(nèi)容。此外，Twelve Labs 還開(kāi)發(fā)了圍繞視頻的場(chǎng)景開(kāi)發(fā)了不同功能：視頻分類(lèi)（Classify）功能可以快速對(duì)視頻進(jìn)行標(biāo)簽、分類(lèi)；視頻智能問(wèn)答（Generate）功能可以對(duì)視頻內(nèi)容進(jìn)行總結(jié)、摘要、問(wèn)答。

Twelve Labs C 端 playground 上的

Search、Classify、Generate

Search

Search 是 Twelve Labs 最核心的產(chǎn)品，用戶可以通過(guò)輸入文字、圖片來(lái)尋找視頻中的任意內(nèi)容——可以是畫(huà)面、聲音，甚至是畫(huà)面中的人物、動(dòng)作、文字、圖片等。

Search 的使用方法非常簡(jiǎn)單，企業(yè)客戶可以直接通過(guò) API 將其與自有視頻庫(kù)集成；C 端用戶則是在網(wǎng)頁(yè)端上傳視頻或直接輸入 YouTube 視頻鏈接。從搜索效果上看，Twelve Labs 的客戶們均認(rèn)為目前市面上還沒(méi)有完全可以與 Twelve Labs 的視頻搜索比擬的產(chǎn)品。產(chǎn)品可以在視頻長(zhǎng)度 1/4 的時(shí)間內(nèi)處理視頻，然后實(shí)現(xiàn)搜索（例如 1 h 的視頻需要 15 min 的等待時(shí)間）。由于搜索效果良好，因此企業(yè)客戶在等待時(shí)間上忍耐度較高。

Search 產(chǎn)品的客戶群體主要包括（1）視頻網(wǎng)站的用戶，例如 YouTube 的用戶；（2）專(zhuān)業(yè)的視頻檔案庫(kù)，例如美國(guó)宇航局的檔案網(wǎng)站；（3）擁有視頻素材庫(kù)的企業(yè)。應(yīng)用場(chǎng)景包括：視頻網(wǎng)站和企業(yè)視頻的內(nèi)容搜索、內(nèi)容審核、證據(jù)搜索、制作和編輯視頻、情景廣告等。

Classify

Classify 功能可將視頻自動(dòng)進(jìn)行分類(lèi)，用戶可以自定義分類(lèi)標(biāo)簽，也可以采用產(chǎn)品中的預(yù)定義標(biāo)簽。

傳統(tǒng)的視頻分類(lèi)的痛點(diǎn)在于需要大量的人力、時(shí)間，并且依賴(lài)于固定的類(lèi)別分類(lèi)法（例如 YouTube 默認(rèn)提供的是 15 個(gè)類(lèi)別），分類(lèi)效果單一，限制了用戶靈活的需求。而 Twelve Labs 的多模態(tài)理解能力則可以幫助靈活拓展分類(lèi)標(biāo)簽、快速對(duì)視頻分類(lèi)。

視頻分類(lèi)功能的最直接的應(yīng)用場(chǎng)景是社媒個(gè)性化推薦，此外還有監(jiān)控分類(lèi)、視頻內(nèi)容管理、廣告商尋找達(dá)人、體育視頻分析、自動(dòng)視頻剪輯，語(yǔ)境廣告（根據(jù)視頻內(nèi)容進(jìn)行精準(zhǔn)廣告投放）等。

Generate（視頻智能問(wèn)答）

Generate 功能是為視頻生成總結(jié)和摘要，用戶也可以通過(guò) prompt 對(duì)視頻的任意內(nèi)容進(jìn)行提問(wèn)。產(chǎn)品可以通過(guò) API 支持本地云、私有云以及內(nèi)部部署。其應(yīng)用場(chǎng)景包括在工作中智能總結(jié)視頻以及音頻、在營(yíng)銷(xiāo)中智能生成營(yíng)銷(xiāo)的標(biāo)題與標(biāo)簽、在實(shí)時(shí)監(jiān)控中協(xié)助警方工作等。

4.視頻理解技術(shù)的關(guān)鍵問(wèn)題

視頻的研究最開(kāi)始是圖像研究的拓展，傳統(tǒng)上是通過(guò)一些數(shù)字圖像信號(hào)處理方法來(lái)實(shí)現(xiàn) low-level 的視頻感知（如識(shí)別顏色、紋理）。2013 年以來(lái)深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)的興起讓人們開(kāi)始使用 AI 來(lái)執(zhí)行視頻感知任務(wù)，但初期仍然局限于有限的基礎(chǔ)任務(wù)，例如目標(biāo)檢測(cè)和圖像分割等。

當(dāng)前研究的主流是較高層次的視頻理解（如識(shí)別物體、動(dòng)作或事件）。視頻理解的目的是讓計(jì)算機(jī)像人一樣“看懂”視頻內(nèi)容。下圖給出了視頻理解研究的范疇，包括視覺(jué)-語(yǔ)言理解和視頻生成兩大領(lǐng)域。

視頻理解的研究范疇

（來(lái)源：Foundation Models for Video Understanding: A Survey）

從 2000 年到 2022 年，視頻生成領(lǐng)域的 publication 在視頻理解的研究中增長(zhǎng)數(shù)量最多。而視頻-語(yǔ)言理解范疇的視頻檢索、視頻問(wèn)答（QA）、視頻描述的研究在 2020 年前后才逐漸涌現(xiàn)，目前仍處于 0-1 的商業(yè)化階段。本文聚焦于討論視覺(jué)-語(yǔ)言理解。

視頻理解研究在 2000 -2022 年的發(fā)展

( 來(lái)源：Foundation Models forVideo Understanding: A Survey)

視覺(jué)-語(yǔ)言理解任務(wù)可以分為視頻檢索、視頻描述、視頻問(wèn)答三個(gè)低、中、高層級(jí)的任務(wù)（如下圖）。其主要挑戰(zhàn)在于：1/ 視覺(jué)-語(yǔ)言模型架構(gòu)如何效捕捉復(fù)雜的跨模態(tài)交互。視頻結(jié)合了視覺(jué)和聽(tīng)覺(jué)信息，這涉及空間交互和時(shí)間交互兩個(gè)方面。空間交互探討物體之間的關(guān)系，而時(shí)間交互捕捉視頻幀之間的順序依賴(lài)關(guān)系。另外不同的視覺(jué)表情、肢體語(yǔ)言、口頭語(yǔ)言以及視頻的整體語(yǔ)境都會(huì)影響整體含義，因此需要多模態(tài)基礎(chǔ)模型和各種數(shù)據(jù)源的整合，以捕捉視頻的豐富性和多維性。2/ 模型訓(xùn)練方法如何讓模型架構(gòu)適應(yīng)多任務(wù)、多領(lǐng)域。與語(yǔ)言模型在各行各業(yè)有許多成熟的細(xì)分應(yīng)用場(chǎng)景不同，視頻模型內(nèi)容天然地涵蓋多樣化的內(nèi)容，所以獲得一個(gè)能夠用于多任務(wù)、多領(lǐng)域的模型比特定任務(wù)的模型更有現(xiàn)實(shí)意義。3/ 如何有效地存儲(chǔ)、標(biāo)注、計(jì)算視頻數(shù)據(jù)。視頻處理與文本或圖像處理相比關(guān)注度較少的一個(gè)原因在于其的高計(jì)算負(fù)擔(dān)。視頻的大小遠(yuǎn)大于文本或圖像，計(jì)算能力問(wèn)題在 Transformer 架構(gòu)中尤為明顯，因?yàn)?Transformer 采取的 self-attention mechanism 使得 token 長(zhǎng)度的計(jì)算復(fù)雜度呈平方增長(zhǎng)。

視覺(jué)-語(yǔ)言理解任務(wù)的低、中、高層級(jí)

（來(lái)源：Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data Perspectives）

其中，視覺(jué)-語(yǔ)言模型架構(gòu)是最關(guān)鍵的問(wèn)題。視覺(jué)-語(yǔ)言模型架構(gòu)的發(fā)展大致可分為三個(gè)階段。1/ Pre-Transformer 階段的研究集中在如何有效融合視頻和語(yǔ)言特征，代表性架構(gòu)有單模態(tài)編碼器（如 CNN、RNN）；語(yǔ)言編碼器（如word2vec）；以及跨模態(tài)編碼器。2/ Transformer-based 階段引入了 self-attention mechanism，使得模型可以高效并行處理長(zhǎng)序列和捕捉長(zhǎng)期依賴(lài)關(guān)系。這一階段同樣也有單模態(tài)、多模態(tài)編碼器。典型的單模態(tài)編碼器有如 Vision Transformer 用于視頻編碼、BERT 用于語(yǔ)言編碼。但是單模態(tài)模型僅專(zhuān)注于單一類(lèi)型數(shù)據(jù)，我們判斷視頻的性質(zhì)使得視頻理解的發(fā)展必然需要多模態(tài)模型。3/ LLM 的出現(xiàn)進(jìn)一步了增強(qiáng)視覺(jué)-語(yǔ)言模型架構(gòu)，此階段的架構(gòu)包括 LLM 作為控制器的方法和 LLM 作為輸出生成器的方法。后者是主流方法，由于 LLM 在訓(xùn)練過(guò)程中從未見(jiàn)過(guò)視頻，因此需要一個(gè)對(duì)齊的步驟將視頻的視覺(jué)語(yǔ)義和 LLM 的語(yǔ)義對(duì)齊。

5.Twelve Labs 的

視頻模型

Twelve Labs 的 vision 是建立 video-native 的多模態(tài)視頻基礎(chǔ)模型。現(xiàn)階段 Twelve Labs 的核心自研模型有兩個(gè)，一個(gè)是視頻基礎(chǔ)模型 Marengo-2.6，用于執(zhí)行視頻搜索和分類(lèi)任務(wù)。但從可以執(zhí)行的任務(wù)來(lái)看這還算不上是一個(gè)通用的視頻基礎(chǔ)模型。該模型最大的特點(diǎn)是將視頻轉(zhuǎn)換為多模態(tài)視頻原生嵌入，這種嵌入空間對(duì)于跨模態(tài)搜索和分類(lèi)非常有用，也是 Twelve Labs 的優(yōu)勢(shì)所在。另一個(gè)是視頻-語(yǔ)言模型 Pegasus1，用于執(zhí)行視頻智能問(wèn)答任務(wù)，是視覺(jué)理解和文本理解之間的橋梁。據(jù)用戶反饋，Twelve Labs 產(chǎn)品的優(yōu)勢(shì)特點(diǎn)在于對(duì)視頻內(nèi)容的理解力、可以實(shí)現(xiàn)多模態(tài)搜索、以及可以通過(guò) API 實(shí)現(xiàn)端到端的簡(jiǎn)單集成。另外從基準(zhǔn)測(cè)試效果上看，Twelve Labs 的準(zhǔn)確性領(lǐng)先；從應(yīng)用上看它還可以通過(guò)微調(diào)應(yīng)用到特定領(lǐng)域。

除了核心模型外，Twelve Labs 平臺(tái)架構(gòu)中還有 Engine options 是用于處理不同類(lèi)型的信息，Processing Engine 用于支持下游的 3 個(gè)核心功能：搜索、生成，和分類(lèi)。

視頻基礎(chǔ)模型 Marengo-2.6：

Marengo-2.6 將視頻轉(zhuǎn)換為多模態(tài)視頻原生嵌入，從而可以 scale up 執(zhí)行任務(wù)，無(wú)需存儲(chǔ)整個(gè)視頻。Marengo-2.6 已經(jīng)在大量視頻數(shù)據(jù)上進(jìn)行了訓(xùn)練，訓(xùn)練重點(diǎn)是在綜合多模態(tài)數(shù)據(jù)集上進(jìn)行自我監(jiān)督學(xué)習(xí)。目前的訓(xùn)練數(shù)據(jù)集包含 6000 萬(wàn)個(gè)視頻、5 億張圖片，和 50萬(wàn)段音頻。模型可以識(shí)別視頻中的實(shí)體、動(dòng)作、模式、運(yùn)動(dòng)、物體、場(chǎng)景等多種元素。因此，Marengo-2.6 支持任意到任意的檢索任務(wù)（包括文本到視頻、文本到圖像、文本到音頻、音頻到視頻和圖像到視頻）。但目前僅提供文本/圖像輸入執(zhí)行搜索任務(wù)，文本輸入執(zhí)行分類(lèi)任務(wù)，公司表示未來(lái)很快會(huì)發(fā)布更廣泛的基準(zhǔn)模型。此外，模型還通過(guò)引入 Reranker 模型，增強(qiáng)時(shí)間定位功能，獲得精確的搜索結(jié)果。

Marengo 架構(gòu)

視頻語(yǔ)言模型 Pegasus1：

目前開(kāi)放的 Pegasus1 open-beta version 擁有大約 170 億個(gè)參數(shù)（ Pegasus1 alpha version 擁有大約 800 億個(gè)參數(shù)）， Pegasus1 通過(guò)將文本和視頻數(shù)據(jù)整合到一個(gè)共同的嵌入空間，在視覺(jué)理解和文本理解之間架起了一座橋梁，支持從視頻到文本生成的多種功能。Pegasus1 目前被用于處理視頻內(nèi)容上下文中生成或理解自然語(yǔ)言的任務(wù)，例如總結(jié)視頻和回答問(wèn)題。該模型集成了三個(gè)主要組件來(lái)處理和解釋視頻數(shù)據(jù)：

? 視頻編碼器模型 Video encoder model：該組件基于 Marengo 嵌入模型，將視頻和音頻作為輸入，通過(guò)分析幀及其時(shí)間關(guān)系，輸出封裝了視覺(jué)、音頻和語(yǔ)音信息的多模態(tài)視頻嵌入。

? 視頻語(yǔ)言對(duì)齊模型 Video-language alignment model： 該組件將視頻編碼器模型 video enconder model 生成的視頻嵌入信息與文本領(lǐng)域對(duì)齊，確保大語(yǔ)言模型解釋視頻嵌入信息的方式與解釋文本標(biāo)記的方式相似。該模型輸入視頻嵌入，輸出與視頻語(yǔ)言對(duì)齊的嵌入。

??大語(yǔ)言模型-解碼器 Large language model – decoder：?該組件根據(jù)用戶提供的 prompt 解釋對(duì)齊的嵌入信息，并將信息解碼為連貫、人類(lèi)可讀的文本。該模型輸入視頻語(yǔ)言對(duì)齊嵌入，用戶提示；輸出文本。

Pegasus 架構(gòu)

6.商業(yè)模型及經(jīng)營(yíng)情況

公司在成立一年多（2021 年 3 月）后，開(kāi)始擁有付費(fèi)客戶。2023 年 6 月，公司推出了 Search API。目前已超過(guò) 2 萬(wàn)名開(kāi)發(fā)者在使用該產(chǎn)品，每月 API 調(diào)用次數(shù)就已突破百萬(wàn)。2023 年，公司接觸了 10 多個(gè)不同行業(yè)的數(shù)百家客戶。客戶主要有三類(lèi)，一是娛樂(lè)媒體公司，它們要處理大量細(xì)顆粒度的視頻；二是廣告相關(guān)的公司，視頻的上下文理解可以幫助他們更好地插入廣告；第三是公共安全公司，它們需要智能監(jiān)控服務(wù)。

因此，Twelve Labs 目前主要的客戶是擁有、或需要處理中小型視頻庫(kù)的企業(yè)級(jí)客戶。其商業(yè)模式是為開(kāi)發(fā)者和企業(yè)用戶提供 API，按時(shí)長(zhǎng)收費(fèi)。C 端用戶亦可以在公司官網(wǎng)上使用產(chǎn)品，但不是目前主要收入來(lái)源。

產(chǎn)品收費(fèi)模式

客戶案例

? dSky.ai

dSky.ai 主要在好萊塢和媒體制作行業(yè)幫助制造電影、電視。它使用 Twelve Labs 技術(shù)幫助客戶管理和快速搜索大量的視頻檔案。dSky.ai 評(píng)價(jià) “Twelve Labs的價(jià)值是將視頻搜索從無(wú)限長(zhǎng)的時(shí)間縮短到無(wú)限小” 。dSky.ai 選擇 Twelve Labs 的原因在于價(jià)格競(jìng)爭(zhēng)力、技術(shù)優(yōu)勢(shì)（Twelve Labs的技術(shù)能夠從少量訓(xùn)練數(shù)據(jù)中進(jìn)行泛化）以及初創(chuàng)公司合作的靈活性。dSky.ai 每年花費(fèi)約 100 萬(wàn)美元，Twelve Labs的費(fèi)用占到了dSky.ai向客戶收費(fèi)的20%到40%。

? Source Digital

Source Digital 是一家內(nèi)容增強(qiáng)公司，通過(guò)為視頻標(biāo)注人物和產(chǎn)品，分辨視頻的最佳廣告位。使用 Twelve Labs 每月花費(fèi)約 1 萬(wàn)美元，使用后視頻購(gòu)物廣告用戶點(diǎn)擊次數(shù)增加了 3 倍。公司評(píng)價(jià) “Twelve Labs 在視頻搜索有 97% 的準(zhǔn)確率，而同類(lèi)的Google video AI 只有40-50%” ，但是公司認(rèn)為 “Twelve Labs 的收費(fèi)太貴，不是所有下游客戶都需要使用。”

? MindProber

MindProber 記錄用戶觀看電視過(guò)程中的生理數(shù)據(jù)，為廣告商提供最佳廣告插放位置。公司利用 Twelve Labs 技術(shù)檢測(cè)視頻中的 logo 并標(biāo)記用戶生理數(shù)據(jù)。公司評(píng)價(jià) “相比于Google Vision API，Twelve Labs 的泛用性更強(qiáng)，性價(jià)比更高，可以開(kāi)箱即用。” 公司認(rèn)為其傳統(tǒng)替代方案（如LogoGrab）的精度更好但是需要非常多人工干預(yù)，精度和速度無(wú)法平衡。

? Virtulley

Virtulley 為企業(yè)組織遠(yuǎn)程活動(dòng)，使用 Twelve Labs 提供的視頻搜索和分析服務(wù)記錄參與者反應(yīng)，通過(guò)參與者的反饋提高活動(dòng)質(zhì)量，并剪輯精彩片段。每月花費(fèi)在 7000~8000 美元之間。公司認(rèn)為 “Twelve Labs收費(fèi)較高，但其視頻搜索和分析功能吸引力很大。”

媒體領(lǐng)域的經(jīng)營(yíng)合作情況

媒體制作公司是 Twelve Labs 目前占比較大的客戶群體。在媒體制作中，快速找到理想的視頻內(nèi)容至關(guān)重要。傳統(tǒng)上，媒體資產(chǎn)依賴(lài)手動(dòng)打標(biāo)簽管理或元數(shù)據(jù)搜索，存在準(zhǔn)確性和可擴(kuò)展性問(wèn)題。

示例 : 傳統(tǒng)上，使用元數(shù)據(jù)搜索

( 來(lái)源：MediaCentral 產(chǎn)品 )

因此?Twelve Labs 的技術(shù)在媒體和娛樂(lè)領(lǐng)域有廣泛應(yīng)用，例如優(yōu)化視頻資產(chǎn)歸檔、管理和制作流程。語(yǔ)義搜索功能可以根據(jù)用戶的搜索提供推薦，讓視頻編輯者接觸到他們可能沒(méi)有考慮過(guò)的潛在相關(guān)內(nèi)容，在加快工作流程的同時(shí)激發(fā)新的創(chuàng)意。另外還能應(yīng)用在通過(guò)個(gè)性化推薦提高用戶參與度、識(shí)別最佳廣告機(jī)會(huì)等。

MediaCentral 中的推薦引擎示例

( 來(lái)源：MediaCentral 產(chǎn)品 )

Twelve Labs 正在積極拓展與媒體資產(chǎn)管理（MAM）提供商產(chǎn)品的集成，以提高用戶的視頻處理體驗(yàn)。例如：與 Blackbird (AIM:BIRD) 的云原生視頻編輯平臺(tái)合作，將產(chǎn)品作為插件集成到其平臺(tái)中，提升視頻編輯效率；與媒體資產(chǎn)管理和工作流程自動(dòng)化解決方案公司 EMAM 合作，將產(chǎn)品集成到其平臺(tái)中。與大數(shù)據(jù)傳輸服務(wù)公司 MASV合作，簡(jiǎn)化視頻處理，提升生產(chǎn)和編輯效率。與 CineSys 的視頻播放平臺(tái)合作，簡(jiǎn)化后期視頻制作流程。與社交媒體數(shù)據(jù)分析 Phyllo合作，實(shí)現(xiàn)視頻內(nèi)容的高效搜索和詳細(xì)分析，從而優(yōu)化營(yíng)銷(xiāo)策略。

Twelve Labs 與數(shù)字化轉(zhuǎn)型公司 Arvato 合作，讓體育行業(yè)的客戶可以用自然語(yǔ)言搜索準(zhǔn)確視頻內(nèi)容

7.團(tuán)隊(duì)成員

創(chuàng)始團(tuán)隊(duì)

2021 年 3 月，CEO 和四位聯(lián)合創(chuàng)始人一起創(chuàng)辦了公司。目前團(tuán)隊(duì)大約 80 多人。

CEO Jae Lee 出生在首爾，在 10 來(lái)歲的時(shí)候隨著在田納西大學(xué)攻讀統(tǒng)計(jì)學(xué)博士的叔叔來(lái)到了美國(guó)，從小接觸了許多統(tǒng)計(jì)學(xué)的方法，11 歲就開(kāi)始學(xué)習(xí) Matlab，后來(lái)獨(dú)自留在在美國(guó)繼續(xù)自己對(duì)統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的研究興趣以及學(xué)業(yè)。Jae 和 Aiden Lee、Sungjun Kim 是一起在韓國(guó)軍隊(duì)（韓國(guó)國(guó)防部的 R.O.K Cyber Operations Command 部門(mén)）作戰(zhàn)的戰(zhàn)友，他們?cè)谲婈?duì)中一起做了很多視頻的底層研究，熱衷于打造智能系統(tǒng)，做了許多多模態(tài)視頻理解的研究。他們?cè)朐趯W(xué)術(shù)界發(fā)展，但是他們想做的研究的產(chǎn)品需要大規(guī)模的數(shù)據(jù)，于是一拍即合一起創(chuàng)業(yè)。Jae 和另一位聯(lián)合創(chuàng)始人 Soyoung Lee 是十幾年的老朋友，Soyoung 喜歡和開(kāi)發(fā)者交流、喜歡技術(shù)。

我們認(rèn)為 Twelve Labs 的核心團(tuán)隊(duì)是視頻理解賽道上的一個(gè)比較好的團(tuán)隊(duì)。1/ 前面我們已經(jīng)分析，視頻理解模型的大規(guī)模商業(yè)化需要在基礎(chǔ)研究上有大的突破。盡管從團(tuán)隊(duì)的學(xué)術(shù)背景上看 Twelve Labs 不是該領(lǐng)域的最強(qiáng)團(tuán)隊(duì)，但從已取得的模型效果上看是處于領(lǐng)先位置，未來(lái)的關(guān)鍵在于能否在基礎(chǔ)研究上持續(xù)取得突破。2/ 作為前沿領(lǐng)域的 AI 公司，Twelve Labs 需要在工程上能夠快速迭代、快速測(cè)試不同的想法，并且在獲得實(shí)驗(yàn)結(jié)果后快速部署，才能持續(xù)保持競(jìng)爭(zhēng)優(yōu)勢(shì)。Twelve Labs 的團(tuán)隊(duì)在工程能力上較強(qiáng)，團(tuán)隊(duì)項(xiàng)目經(jīng)驗(yàn)豐富。2021 年，公司在 Microsoft 主辦的 ICCV VALUE 挑戰(zhàn)賽中一舉成名，以優(yōu)異的成本、性能在騰訊、百度等對(duì)手中名列前茅。此次比賽是 Twelve Labs 高速成長(zhǎng)的推進(jìn)器，為公司吸引來(lái)了來(lái)自 Index Ventures 的第一筆種子輪投資，隨后飛速成長(zhǎng)、建立聲譽(yù)。3/ 產(chǎn)品力和運(yùn)營(yíng)能力也是新型領(lǐng)域公司商業(yè)化的關(guān)鍵。客戶普遍反饋 Twelve Labs 的團(tuán)隊(duì)溝通積極、能夠及時(shí)響應(yīng)反饋和調(diào)整產(chǎn)品。例如，視頻生成文本的功能（視頻語(yǔ)言模型 Pegasus1）正是在客戶的強(qiáng)烈要求下推出的，為客戶實(shí)現(xiàn)與視頻搜索相輔相成的功能。

8.市場(chǎng)與競(jìng)爭(zhēng)

目前的視頻搜索市場(chǎng)

VerifiedMarket 估計(jì) 2023 年視頻搜索的市場(chǎng)規(guī)模大約在 283 億美金，這部分的市場(chǎng)主要來(lái)自于 “傳統(tǒng)” 玩家，它們利用自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)和數(shù)據(jù)分析等技術(shù)的組合提供搜索算法，這些算法能夠根據(jù)用戶查詢或偏好來(lái)理解、索引和檢索視頻內(nèi)容，主要服務(wù)于安全和監(jiān)控、智能家居、視頻管理等行業(yè)。玩家有如 Agent Vi、Genetec、Verkada、Vivint、Bosch (Bosch Sicherheitssysteme)、BriefCam、Identiv等。下面列舉了幾家公司的情況：

? Agent Vi：一家企業(yè)視頻分析軟件公司，主要用于安全領(lǐng)域的監(jiān)控和保證，其視頻搜索功能包括高級(jí)視頻分析和搜索功能。該公司被 Livly 以 6,750 萬(wàn)美元的價(jià)格收購(gòu)。

? Genetec：一家安全系統(tǒng)領(lǐng)域的公司，提供視頻監(jiān)控、訪問(wèn)控制和自動(dòng)車(chē)牌識(shí)別等解決方案。年收入約為 5 億美元。

? Verkada：一家基于云的 B2B 物理安全平臺(tái)公司，其中視頻安全攝像頭是核心產(chǎn)品之一，提供視頻搜索和分析功能。2016 年成立以來(lái)融資超過(guò) 4.4 億美元。

? Vivint：Vivint 提供智能家居自動(dòng)化和視頻監(jiān)控解決方案，其視頻搜索功能集成于智能家居系統(tǒng)中。市值約 25 億美元，年收入約 16.8 億美元。

這些 “傳統(tǒng)” 玩家提供終端的視頻解決方案，提供特定領(lǐng)域的視頻產(chǎn)品，但視頻搜索、視頻分析是其產(chǎn)品的一項(xiàng)核心功能。所以這部分市場(chǎng)并不是 Twelve Labs 直接對(duì)標(biāo)的市場(chǎng)，而更有可能是 Twelve Labs 的下游市場(chǎng)。市場(chǎng)上在做視頻搜索領(lǐng)域基礎(chǔ)模型的人相對(duì)較少，但這方面有大量的 use case，例如上述的監(jiān)控領(lǐng)域，還有醫(yī)療保健、教育、娛樂(lè)、工業(yè)方面的 use case。

Twelve Labs 的直接競(jìng)爭(zhēng)者

在客戶選擇供應(yīng)商的過(guò)程中，最直接的比較對(duì)象來(lái)自三大 Big Tech，例如有 Microsoft Azure video services（已關(guān)停）、Microsoft Azure AI Video Indexer、Amazon Rekognition、Google Video Intellignce、Google Vision API。據(jù)用戶反饋：Microsoft Azure video services 定價(jià)最低但是產(chǎn)品力欠缺；Google Video Intellignce 的準(zhǔn)確率不如 Twelve Labs（Twelve Labs 在視頻搜索有97%的準(zhǔn)確率，Google video AI 只有40-50%）；相比與 Google Vision API，Twelve Labs 更加開(kāi)箱即用，并且泛用性更強(qiáng)，需要的訓(xùn)練數(shù)據(jù)遠(yuǎn)小于Google Vision API。除了 Big Tech 外，一些傳統(tǒng)的視頻搜索方案也是競(jìng)爭(zhēng)對(duì)象，例如 LogoGrab 的精度更好但是需要非常多人工干預(yù)，精度和速度無(wú)法平衡。

從 startup 的角度來(lái)說(shuō)，暫時(shí)并未 mapping 到產(chǎn)品功能和客戶群體相似度高的 startup，最相近的是 Gloss AI，其次是細(xì)分場(chǎng)景的 comp，具體如下：

此外，對(duì)客戶而言，Twelve Labs 的替代方案主要是自行構(gòu)建視頻搜索系統(tǒng)，這需要大量的工程投入和時(shí)間。具體過(guò)程包括使用視頻轉(zhuǎn)錄服務(wù)將視頻轉(zhuǎn)換為嵌入數(shù)據(jù)，然后使用 Pinecone、Vectra 或 Perplexity AI 等工具（或開(kāi)源工具如 FAISS 和 Annoy）進(jìn)行數(shù)據(jù)存儲(chǔ)和搜索。雖然這種方法是可行的，但確實(shí)需要耗費(fèi)大量的工程資源和時(shí)間。

Twelve Labs 的潛在競(jìng)爭(zhēng)者

Twelve Labs 最大的風(fēng)險(xiǎn)來(lái)自于 Big Tech 正在研發(fā)、而未進(jìn)入成熟商業(yè)階段的模型。Big Tech 在多模態(tài)模型的研究范圍很廣，從 Twelve Labs 的三個(gè)主要業(yè)務(wù)：Search、Generate（視頻智能問(wèn)答）、Classify 來(lái)看，Big Tech 各有相應(yīng)的可比/功能相似的模型。由于模型眾多，我們從客戶訪談以及公司主要對(duì)比的 benchmark 中選取了重要對(duì)比模型，例如（1）搜索方面有 Google 的 Gemini Pro (1.5)、VideoCoCA、 Vid2Seq、VATT；北大和騰訊合作的 LanguageBind 等。（2）視頻問(wèn)答方面有 Google 的 Gemini Pro (1.5)；Allen AI 研究所的 MERLOT Reserve；以及 Video-ChatGPT、VideoChat2 等。（3）視頻標(biāo)記、內(nèi)容推薦、搜索推薦領(lǐng)域則有 YouTube、Spotify 多年深耕其中、應(yīng)用成熟。

雖然功能相似的模型很多，Twelve Labs 和 Big Tech 的區(qū)別主要在于：1/ 從較高的層次來(lái)看，Big Tech 主要聚焦的是多模態(tài)的研究，只是其中必然或多或少涉及到視頻檢索或生成，但他們并不是直接針對(duì)視頻搜索、生成的市場(chǎng)，所以視頻搜索、生成只是其研究中的一個(gè)小部分，或者只是一個(gè)小測(cè)試。從目前客戶的反饋上看我們認(rèn)為這些處于研發(fā)階段的模型沒(méi)有產(chǎn)品功能、客戶群體、應(yīng)用成熟度能與 Twelve Labs 同步的。2/ Twelve Labs 在不同的訪談中都有提到，公司長(zhǎng)遠(yuǎn)的愿景的讓 AI 像人類(lèi)一樣理解世界，而公司采取的第一步是 “視頻優(yōu)先” 的策略。所以我們可以認(rèn)為，Big Tech 和 Twelve Labs 長(zhǎng)遠(yuǎn)的 vision 是相似的，不過(guò) Big Tech 的研究 “全面覆蓋” 的，而?Twelve?labs 的策略是 “以點(diǎn)破面” 的。當(dāng)然這也與其商業(yè)位置有關(guān)，Big Tech 也許并不著急商業(yè)化，而作為初創(chuàng)的Twelve Labs需要先做出產(chǎn)品生存立足，再往大的vision 發(fā)展。3/ 在視頻搜索中，建立索引和搜索的成本/時(shí)間占比大約 8：2，因此建立索引的技術(shù)路徑是不同多模態(tài)模型的主要區(qū)別，相應(yīng)的策略和技術(shù)有很多種路徑。4/ 從公司公布的模型測(cè)試上來(lái)看，Twelve Labs 模型在三個(gè)核心產(chǎn)品對(duì)應(yīng)的任務(wù)上，其性能優(yōu)于主要的可比模型。

Search、Generate、Classify 產(chǎn)品的可比模型

9.融資歷史

公司于 2020 年成立。至今融資超過(guò) 8700 萬(wàn)美元，最新輪次是 A 輪，由 NEA 和 Nvidia 領(lǐng)投（公司是 NV 投的第一個(gè)韓國(guó)的初創(chuàng)公司）。公司股東還包括 Intel Capital，Samsung NEXT Ventures，Index Ventures，Radical Ventures，Korea Investment Partners 等，此外公司還吸引多位學(xué)術(shù)界、業(yè)界的知名人士投資，例如李飛飛，Alexandr Wang（Scale AI 創(chuàng)始人）等。