定價
登入
Prompt
Attach MediaLibrary
Pick Character
1 / 4
💎 2 tokens
Demo Preview
Ernie Image
ERNIE-Image
ERNIE-Image 是百度的開源權重文字生成圖像模型,適合需要可讀文字、更強提示精準度以及結構化佈局的創作者,用於海報、資訊圖表和漫畫。

ERNIE-Image 的最佳用途
可讀文字佈局
百度明確定位 ERNIE-Image 用於密集、長篇及對佈局敏感的文字場景。這使其更適合用於海報、資訊圖表及類似 UI 的視覺效果,避免標籤破損或文字扭曲破壞草稿。

提示增強器支持
ERNIE-Image 結合其 DiT 模型與輕量級提示增強器,將短提示擴展為更豐富的描述。當創作者知道場景類型但希望模型在生成前添加更多結構時,這功能尤為有用。

結構化場景控制
官方文檔反覆提到海報、漫畫、故事板及多面板構圖。這些用例很重要,因為佈局是意義的一部分,而不是後期疊加的裝飾。

開源權重部署適配
百度表示 ERNIE-Image 可在具備 24G VRAM 的消費級 GPU 上運行,這對於希望本地評估開源權重模型的團隊來說是一個實用門檻,而不僅僅依賴於託管圖像 API。

核心 ERNIE-Image 信號檢查
8B DiT 基礎
百度將 ERNIE-Image 發布為 8B 單流 DiT 模型,而非模糊的未命名堆棧。
提示增強器路徑
短提示可在生成前擴展,當場景清晰但措辭稀疏時,這非常有用。
文字密集型優勢
官方資料強調長篇及對佈局敏感的文字,而非僅限於風格化藝術的推介。
Turbo 選項
ERNIE-Image-Turbo 被記錄為 8 步變體,用於更快的迭代及更輕鬆的審查流程。
24G VRAM 目標
百度表示該模型可在具備 24G VRAM 的消費級 GPU 上運行,這對於本地測試計劃來說很重要。
基準透明度
GenEval 和 LongTextBench 表格已發布,但它們應用於指導測試而非取代測試。
如何評估 ERNIE-Image
三個實用步驟
01
從輸出類型開始
首先命名實際任務:海報、資訊圖表、漫畫面板、類似 UI 的場景或寫實構圖。當結構及文字重要時,ERNIE-Image 最具吸引力。
02
提前指定文字及佈局
將標籤需求、層次及物件關係放在提示的頂部,讓模型先解決硬性約束,再微調風格語言。
03
比較標準版與 Turbo 版
使用相同的提示包測試 ERNIE-Image 和 ERNIE-Image-Turbo,然後選擇最符合精準度、速度及審查努力平衡的版本。
為什麼團隊注意到 ERNIE-Image
- 更適合困難提示: 文字密集及對佈局敏感的場景是 ERNIE-Image 最清晰的發布故事。
- 開源權重評估路徑: 24G VRAM 指導使模型更容易進行本地測試及內部工具開發。
- 發布數據,而非僅僅口號: 百度分享了已發布的變體及基準表格,即使您仍需進行自己的提示測試,這也是有用的。
更適合困難提示
如果您的視覺簡報包含標籤、面板或結構化信息,ERNIE-Image 比主要依賴風格樣本的模型更容易證明其價值。
開源權重評估路徑
這並不意味著部署變得簡單,但比模糊的僅限企業圖像產品有更具體的起點。
發布數據,而非僅僅口號
真正的信任信號不是 ERNIE-Image 聲稱能贏得一切,而是官方資料提供了足夠的細節來驗證模型在哪些方面真正強大。
探索相關 AI 圖像工作流程
常見問題解答



