應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

智源推出全能視覺生成模型 OmniGen:支持文生圖、圖像編輯等

2024-10-30 09:03 IT之家
關(guān)鍵詞:智源視覺生成模型

導(dǎo)讀:北京智源人工智能研究院(BAAI)推出了新的擴散模型架構(gòu) OmniGen,這是一種用于統(tǒng)一圖像生成的多模態(tài)模型。

  10 月 29 日消息,北京智源人工智能研究院(BAAI)推出了新的擴散模型架構(gòu) OmniGen,這是一種用于統(tǒng)一圖像生成的多模態(tài)模型。

image.png

▲文本生成圖像,編輯生成圖像的部分元素,根據(jù)生成圖像的人體姿態(tài)生成重繪圖像,從另一圖像中提取所需對象與新圖像融合

  官方表示,OmniGen 具有以下特點:

  統(tǒng)一性:OmniGen 天然地支持各種圖像生成任務(wù),例如文生圖、圖像編輯、主題驅(qū)動生成和視覺條件生成等。此外,OmniGen 可以處理經(jīng)典的計算機視覺任務(wù),將其轉(zhuǎn)換為圖像生成任務(wù)。

  簡單性:OmniGen 的架構(gòu)高度簡化。此外,與現(xiàn)有模型相比,它更加用戶友好,可以通過指令完成復(fù)雜的任務(wù),而不需要冗長的處理步驟和額外的模塊 (如 ControlNet 或 IP-Adapter),從而大大簡化了工作流程。

  知識遷移:受益于統(tǒng)一格式的學(xué)習(xí),OmniGen 有效地跨不同任務(wù)遷移知識,應(yīng)對未見過的任務(wù)和領(lǐng)域,并展示新穎的功能。我們還探討了模型的推理能力和思維鏈機制的在圖像生成領(lǐng)域的潛在應(yīng)用。

image.png

▲指代表達生成