
DeepSeek Janus-Pro 應用代碼與圖片鏈接實踐
這種獨特的步驟使eDiff-I對其生成的內容有更強的控制。除了將文本生成圖像外,eDiff-I模型還有兩個功能——風格轉移,允許使用參考圖像的風格來控制生成的圖案的風格,以及“用文字繪畫”,用戶可以通過在虛擬畫布上繪制分割圖來創建圖像,這個功能對于用戶創建特定場景的圖像非常方便。
擴散模型的合成通常是通過一系列迭代去噪過程進行的,這些流程通過隨機噪音逐漸生成圖像,在整個去噪過程中使用同一個去噪器神經網絡。eDiff-I模型采用了另一種獨特的去噪方法,該模型在生成過程的不同時期內訓練專門用于去噪的去噪器集合。Nvidia將這種新的去噪網絡稱為“專家級去噪器”,并稱這一過程極大地提高了圖像生成的質量。
Deepgram的首席執行官Scott Stephenson表示,eDiff-I提出的新方法可以被運用到DALL-E或Stable Diffusion的新版本中,使合成圖像在質量和控制能力方面取得重大進步。Stephenson指出,這肯定會增加訓練模型的復雜性,但在生產使用過程中并沒有明顯增加計算的復雜性。能夠分割和定義所產生的圖像的每個組成部分的樣子,可以加速圖像創作過程。這種方法能讓人和機器更加緊密地合作。
與其他同時期的產品如DALL-E 2和Imagen只使用單一的編碼器(如CLIP或T5)不同,eDiff-I的架構在同一模型中使用兩個編碼器。這樣的架構使eDiff-I能夠從相同的文本輸入中產生大量不同的視覺效果。
CLIP為創建的圖像提供了風格化的效果,然而,輸出的圖像經常遺漏文本信息。而使用T5文本嵌入創建的圖像可以根據文本信息產生更好的內容。通過結合它們,eDiff-I產生了集成這兩種優點的圖像。
開發團隊還發現,文本信息的描述性越強,T5的表現就越比CLIP好,而且將兩者結合起來會產生更好的合成輸出。該模型還在標準數據集(如MS-COCO)上進行了模型評估,表明CLIP+T5的trade-off曲線明顯優于單獨的任何一種。根據Frechet Inception Distance(FID)——這是一種評估人工智能生成的圖像質量的指標,eDiff-I的表現優于DALL-E 2、Make-a-Scene、GLIDE和Stable Diffusion等競爭對手。
Nvidia的研究稱,在對簡單和詳細的文字說明生成的圖像進行比較時,DALL-E 2和Stable Diffusion都未能根據文字說明準確合成圖像。此外,該研究發現,其他生成模型要么會產生錯誤的信息,要么忽略了一些屬性。同時,eDiff-I可以在大量樣本基礎上正確地從英文文本中建立特征模型。
當下文轉圖的擴散模型可能使藝術表達大眾化,為用戶提供了產生細致和高質量圖像的能力,而不需要專門技能。然而,它們也可以被用于進行照片處理,以達到惡意目的或創造欺騙性或有害的內容。
生成模型和AI圖像編輯的最新研究進展對圖像的真實度和其他方面有著較大的影響。Nvidia表示,可通過自動驗證圖像真實性和檢測偽造的內容來應對此類挑戰。
目前大規模文轉圖生成模型的訓練數據集大多未經過濾,可能包含由模型捕獲并反映在生成數據中的偏差。因此,需要意識到基礎數據中的這種偏差,并通過積極收集更具代表性的數據或使用偏差校正方法來抵消偏差。
Stephenson指出,生成式人工智能圖像模型面臨著與其他人工智能領域相同的倫理挑戰:訓練數據的出處和理解它如何被用于模型中,大的圖像標注數據集可能包含受版權保護的材料,而且往往無法解釋受版權保護的材料是如何(或是否)被應用在最終生成出來的圖像的。
reVolt公司的創始人兼首席執行官Kyran McDonnell表示,盡管現在的文轉圖模型已經做得特別好,但還是缺乏必要的架構來構建正確理解現實所需的先驗條件。他說:“有了足夠的訓練數據和更好的模型,生成的圖像將能夠近似于現實,但模型還是不會真正理解生成的圖像。在這個根本問題得到解決之前,我們仍然會看到這些模型犯一些常識性錯誤。”
McDonnell認為,下一代文轉圖的架構,如eDiff-I,將解決目前的許多問題。他還說:“仍然會出現構圖錯誤,但質量將類似于現在生成人臉的GANs,我們會在幾個應用領域看到生成式AI的更多應用。根據一個品牌的風格和‘氛圍’訓練出來的生成模型可以產生無限的創意,企業應用的空間很大,而生成性式AI還沒有迎來它的‘輝煌時刻’。”
問:eDiff-I與其他文轉圖模型有何不同?
問:eDiff-I在圖像生成質量上有什么優勢?
問:生成式AI在應用中面臨哪些挑戰?
問:未來的生成式AI發展方向是什么?
問:如何提高生成模型的訓練數據質量?