


基于神經(jīng)網(wǎng)絡(luò)的方法
詞嵌入:
Word2Vec:通過(guò)預(yù)測(cè)詞的上下文來(lái)學(xué)習(xí)詞向量。
????GloVe:通過(guò)全局詞共現(xiàn)統(tǒng)計(jì)來(lái)學(xué)習(xí)詞向量。
????FastText:考慮詞的n-gram特征來(lái)學(xué)習(xí)詞向量。
句子嵌入:
RNN:包括LSTM和GRU,可以處理變長(zhǎng)句子并生成句子向量。
????Transformer:使用自注意力機(jī)制和位置編碼來(lái)處理句子,生成句子向量。
文檔嵌入:
? Doc2Vec:擴(kuò)展了Word2Vec,可以生成整個(gè)文檔的向量表示。
????BERT:基于Transformer的預(yù)訓(xùn)練模型,可以生成句子或短文檔的向量表示。

工作原理:將離散的文字信息(如單詞)轉(zhuǎn)換成連續(xù)的向量數(shù)據(jù)。這樣,語(yǔ)義相似的詞在向量空間中位置相近,并通過(guò)高維度捕捉語(yǔ)言的復(fù)雜性。
舉例來(lái)講,這里有三句話:
人類(lèi)能理解句子1和句子2含義相近,盡管它們只有“The”這個(gè)單詞相同。但計(jì)算機(jī)需要Embedding技術(shù)來(lái)理解這種關(guān)系。Embedding將單詞轉(zhuǎn)換為向量,使得語(yǔ)義相似的句子在向量空間中位置相近。這樣,即使句子1和句子2沒(méi)有很多共同詞匯,計(jì)算機(jī)也能理解它們的相關(guān)性。
如果是人類(lèi)來(lái)理解,句子 1 和句子 2 幾乎是同樣的含義,而句子 3 卻完全不同。但我們看到句子 1 和句子 2 只有“The”是相同的,沒(méi)有其他相同詞匯。計(jì)算機(jī)該如何理解前兩個(gè)句子的相關(guān)性?
Embedding將單詞轉(zhuǎn)換為向量,使得語(yǔ)義相似的句子在向量空間中位置相近。這樣,即使句子1和句子2沒(méi)有很多共同詞匯,計(jì)算機(jī)也能理解它們的相關(guān)性。

圖像向量化(Image?Embedding):將圖像數(shù)據(jù)轉(zhuǎn)換為向量的過(guò)程。
卷積神經(jīng)網(wǎng)絡(luò)和自編碼器都是用于圖像向量化的有效工具,前者通過(guò)訓(xùn)練提取圖像特征并轉(zhuǎn)換為向量,后者則學(xué)習(xí)圖像的壓縮編碼以生成低維向量表示。

工作原理:通過(guò)算法提取圖像的關(guān)鍵特征點(diǎn)及其描述符,將這些特征轉(zhuǎn)換為高維向量表示,使得在向量空間中相似的圖像具有相近的向量表示,從而便于進(jìn)行圖像檢索、分類(lèi)和識(shí)別等任務(wù)。

視頻向量化(Vedio Embedding):OpenAI的Sora將視覺(jué)數(shù)據(jù)轉(zhuǎn)換為圖像塊(Turning visual data into patches)。

工作原理:Sora 用visual patches 代表被壓縮后的視頻向量進(jìn)行訓(xùn)練,每個(gè)patches相當(dāng)于GPT中的一個(gè)token。使用patches,可以對(duì)視頻、音頻、文字進(jìn)行統(tǒng)一的向量化表示,和大模型中的 tokens 類(lèi)似,Sora用 patches 表示視頻,把視頻壓縮到低維空間(latent space)后表示為Spacetime patches。
OpenAI大模型的核心架構(gòu):大力出奇跡。Embedding技術(shù)實(shí)現(xiàn)文本、圖像、視頻等數(shù)據(jù)向量化表示,為大型模型提供了豐富的特征輸入。只要模型規(guī)模足夠大,這些向量化數(shù)據(jù)就能驅(qū)動(dòng)模型生成各種所需的內(nèi)容,體現(xiàn)了“萬(wàn)物皆可生成”的能力。
文章轉(zhuǎn)自微信公眾號(hào)@架構(gòu)師帶你玩轉(zhuǎn)AI