
Python實現動圖生成:輕松創建自定義表情包
潛在文本到圖像模型 Stable Diffusion v1-5 將自動編碼器與擴散模型合并,以創建照片般逼真的圖像。 它已經在廣泛的 laion-aesthetics v2 5+ 數據集上進行了訓練,并在 512×512 像素的分辨率下微調了超過 595k 步,該模型具有基于任何給定文本輸入生成高度逼真的圖像的卓越能力。
Stable Diffusion可以靈活地從各種潛在空間生成圖像,而不是局限于一組固定的文本提示。 它對大型圖像數據集的訓練使其能夠更深入地了解圖像特征,從而生成更逼真的圖像。
Openjourney 是一個免費的開源文本到圖像模型,它在超過 124k Midjourney v4 圖像的數據集上進行訓練,以 Midjourney 風格生成 AI 藝術。 這是穩定擴散的微調。
Openjourney 由領先的提示工程網站 PromptHero 開發,是 HuggingFace 上下載量第二高的文本到圖像模型,僅次于 Stable Diffusion。 用戶更喜歡 Openjourney,因為它能夠以最少的輸入生成令人印象深刻的圖像,并且適合作為微調的基本模型。
深受粉絲喜愛的 Dream Shaper V7 基于擴散模型架構構建,引入了 LoRA 支持和整體真實感方面的改進。 它建立在版本 6 中的增強功能的基礎上,其中包括增加的 LoRA 支持、總體樣式改進以及更好的 1024 像素高度生成(盡管建議在使用此功能時小心)。
Dream Shaper生成具有噪聲抵消的逼真圖像,并通過 booru 標簽增強動漫風格的生成。 它還提高了較低分辨率下的眼睛性能,作為早期版本的“修復”。 3.32 版“剪輯修復”的影響可能與 3.31 版有所不同,建議將其用于混音。 它還涉及修復和修復。
Dreamlike Photoreal 2.0 是基于穩定擴散 1.5 的真實感模型。 由 DreamlikeArt 制作,你可以通過將照片合并到提示中來增強生成圖像的真實感。
為了獲得最佳結果,請使用非方形縱橫比。 對于肖像風格的照片,建議使用垂直縱橫比,而水平縱橫比更適合風景照片。 Dreamlike Photoreal模型是在尺寸為 768×768 像素的圖像上進行訓練的,盡管它也可以有效處理更高分辨率(如 768x1024px 或 1024x768px)。
Dreamlike Photoreal在服務器級 A100 GPU 上運行,平均生成速度為 4 秒,超越 8 倍 RTX 3090 GPU 的性能。 它能夠同時處理多達 30 個圖像并同時生成多達 4 個圖像,確保了高效的工作流程。 它包括多種功能,如放大、自然語言編輯、面部增強、姿勢、深度、草圖復制等。
最后但并非最不重要的一點是,我們有 Waifu Diffusion,它是穩定擴散模型的微調版本 (1.3),源自穩定擴散 v1.4。 該模型專門用于生成逼真的動漫風格圖像,并因其令人印象深刻的多樣性和高品質而獲得認可。
原文鏈接:http://www.bimant.com/blog/top6-text-to-image-ai-models/