テキストを正確に表現する画像を生成
ほとんどの画像モデルは、密度の高いコピー、タイトなレイアウト、複数オブジェクトのプロンプトで失敗します。ERNIE Imageはまさにこれらのケースのために訓練されています。ポスターの長文テキスト、コミックの吹き出し、構造化されたマルチパネル構成、バイリンガルの中国語/英語シーンに対応。

クリエイターがERNIE Imageを選ぶ理由
他の画像モデルが弱い部分で強力
ERNIE Imageは、生成モデルを通常壊すケースを処理するために訓練された単一ストリーム拡散トランスフォーマーです。読みやすいテキスト、厳格なレイアウト、複数オブジェクトのプロンプト、バイリンガル指示に対応。軽量なプロンプトエンハンサーが短い入力を構造化された説明に展開するため、使用可能な出力を得るためにプロンプトエンジニアリングを行う必要はありません。
Turboモードで高速反復
8ステップのTurboバリアントが50ステップのSFTモデルと共に提供されます。ドラフト速度でスケッチし、フル品質でヒーローフレームをレンダリング。ツールの切り替えは不要です。
デモだけでなくベンチマーク
GENEval 0.8856、LongTextBench 0.9733、英語と中国語の両方でトップクラスのOneIGスコア。品質は独立して検証されており、厳選されたものではありません。
思考のままに書く
組み込みのプロンプトエンハンサーが、1行のアイデアを詳細な構造化されたプロンプトに変換します。クリエイティブモードに留まり、モデルがプロンプトエンジニアリング層を処理します。
パイプライン全体を1つの画面で
生成、編集、合成、アップスケール、エクスポート。ビジュアルワークフローが単一のタブ内に収まります。ツールの切り替えや複数のサブスクリプションは不要です。
撮影とストック予算を置き換え
ブランドに合ったポスター、製品フレーム、キャンペーンアセットを数分で作成。人員やライセンス費用を増やすことなく、クリエイティブな量を拡大できます。
Apache 2.0 — 出力はあなたのもの
ウェイトはApache 2.0でオープンであり、生成したすべてのものは商用的にあなたのものです。広告、商品、印刷、再販、ファインチューニング、セルフホスティング。すべて可能です。
コア機能
他の画像モデルを壊すケースのために構築
ERNIE Imageは、プロンプトエンハンサーとTurboバリアントを組み合わせた8B単一ストリームDiTです。アーキテクチャが実際に得意とすることは次のとおりです。
正確な画像内テキストレンダリング
ポスターの長文コピー、インフォグラフィックの見出し、コミックの吹き出し、UIモックアップのラベル。他の拡散モデルがグリフをぼかしたり文字を幻覚したりする場所で、文字がきれいにレンダリングされます。LongTextBench 0.9733。
指示に忠実な構成
複数のオブジェクト、特定の空間関係、知識集約的なプロンプト。モデルは、一般的な「きれいな絵」に崩れることなく、実際に説明した内容を追跡します。GENEval 0.8856、Qwen-Imageを上回り、FLUX.2に匹敵します。
構造化レイアウトとマルチパネル
ポスター、コミック、ストーリーボード、UIフレーム、インフォグラフィック。ERNIE Imageは、被写体やスタイルだけでなく、ページレイアウトとパネル構成について推論します。サポートされている解像度には、1024×1024、848×1264、1264×848、768×1376、1376×768が含まれます。
バイリンガル中国語と英語
どちらの言語でのプロンプトも同等の品質の結果を返します。OneIG-EN 0.5750、OneIG-ZH 0.5543。画像内テキストは両方のスクリプトを処理するため、1つのパイプラインから2つの市場に同じキャンペーンを展開できます。
2つのバリアント: SFTとTurbo
50ステップのSFTモデルは、最終フレームの指示忠実度を最大化します。ERNIE-Image-Turbo(DMDと強化学習で蒸留)は、高速反復のために8ステップのプレビューを数秒で返します。
オープンウェイト、コンシューマーGPUフレンドリー
フル8Bチェックポイントは、Apache 2.0の下でリリースされ、単一の24GB GPUで実行されます。セルフホスト、ブランドデータでファインチューニング、または本番パイプラインに直接統合。ベンダーロックはありません。
クリエイティブプロフェッショナルに信頼される
ワークフローを変革したクリエイターからの実話
吹き出し付きのコミックパネルで主に作業していますが、他のすべてのAIツールでは台無しになりました。ERNIE Imageは、画像内のテキストが実際にレンダリングされる最初のものです。週に20時間以上が戻ってきました。
本物の見出しを持つキャンペーンポスターは、代理店から数週間かけて戻ってきていました。今では、英語と中国語の両方で、午後のうちに社内で生成しています。
Turboモードは反復方法を変えました。1つをレンダリングするのにかかっていた時間で30の構成をプレビューします。その後、フルSFTモデルで最終フレームをロックします。
15以上のテキスト画像ツールをテストしました。ERNIE Imageは、レイアウトの多い作業、つまりポスター、インフォグラフィック、間隔とテキストが実際に重要なものに信頼できる唯一のツールです。
12のアカウント、2つの言語、月に1回の午後。バイリンガルプロンプトにより、並行するクリエイティブパイプラインを維持する必要がなくなりました。エンゲージメントは約3倍になりました。
ストックフォトの項目を完全に廃止しました。すべてのアセットはオリジナルで、ブランドに合っており、本物のテキストが焼き付けられています。そのため、デザインチームはPhotoshopで見出しをレタッチする作業を停止します。
クライアントの修正は数日を食っていましたが、今では通話中に行われます。何十もの探索された方向性を持って入り、出力は約5倍になり、クライアントとの会話ははるかに良くなりました。
50以上のSKU全体でレイアウトの一貫性を保つことは、フルタイムの仕事でした。モデルは私たちのスタイルガイドを学習し、オンデマンドで完璧に整列された製品アセットを出荷するようになりました。
ピッチデッキは、実際のビジュアルが数週間かかったため、プレースホルダービジュアルに頼っていました。今では、すべてのスライドがカスタム画像付きで出荷され、クライアントは私たちの背後にフルスタジオがあると想定しています。
実際のインターフェーステキスト(ボタン、ラベル、マイクロコピー)を含むUIモックアップが、最初の試行で正しく出力されました。1日に50以上のコンセプトをサイクルし、開発ループは簡単に4倍になりました。
AI生成ポスターとカルーセルでほぼ完全に1万人から10万人のフォロワーに成長しました。違いは、画像内のテキストが実際に読めることです。それがソーシャルでのゲーム全体です。
すべてのプロジェクトで、使用する予定のなかった別の機能が明らかになります。微妙なレタッチ、構造化されたマルチパネルレイアウト、バイリンガルコピー。シニアデザイナーが真剣に受け止めるような複雑さを処理します。
よくある質問
ERNIE Imageについて知っておくべきすべて