Générez des Images avec du Texte Vraiment Précis
La plupart des modèles d'image échouent avec le texte dense, les mises en page serrées et les prompts multi-objets. ERNIE Image est entraîné exactement pour ces cas — texte long sur affiches, bulles de dialogue dans les BD, compositions structurées multi-panneaux et scènes bilingues chinois/anglais.

Pourquoi les Créateurs Choisissent ERNIE Image
Fort là où d'autres modèles d'image sont faibles
ERNIE Image est un Transformateur de Diffusion à flux unique entraîné pour gérer les cas qui font généralement échouer les modèles génératifs : texte lisible, mises en page strictes, prompts multi-objets et instructions bilingues. Un Améliorateur de Prompt léger développe les entrées courtes en descriptions structurées, vous n'avez donc pas besoin de maîtriser l'ingénierie de prompt pour obtenir des résultats utilisables.
Itération Rapide avec le Mode Turbo
Une variante Turbo distillée en 8 étapes est fournie avec le modèle SFT de 50 étapes. Esquissez à vitesse de brouillon, puis rendez l'image finale en qualité maximale — sans changer d'outil.
Benchmarks, Pas Seulement des Démos
GENEval 0.8856, LongTextBench 0.9733, scores OneIG de premier ordre en anglais et en chinois. La qualité est vérifiée indépendamment, pas sélectionnée.
Écrivez Comme Vous Pensez
L'Améliorateur de Prompt intégré transforme une idée en une ligne en un prompt détaillé et structuré. Vous restez en mode créatif ; le modèle gère la couche d'ingénierie de prompt.
Une Seule Surface pour Tout le Pipeline
Générer, modifier, composer, agrandir, exporter — votre flux de travail visuel reste dans un seul onglet. Pas de changement d'outil, pas d'abonnements empilés.
Remplacez les Shoots et Budgets de Stock
Affiches de marque, visuels de produits et assets de campagne en quelques minutes. Augmentez le volume créatif sans augmenter les effectifs ou les dépenses de licences.
Apache 2.0 — Vous Possédez la Production
Les poids sont ouverts sous Apache 2.0 et tout ce que vous générez vous appartient commercialement. Publicités, merchandising, impression, revente, fine-tuning, auto-hébergement — tout est possible.
Capacités Principales
Conçu pour les cas qui font échouer d'autres modèles d'image
ERNIE Image est un DiT à flux unique de 8B associé à un Améliorateur de Prompt et une variante Turbo. Voici ce pour quoi l'architecture excelle vraiment.
Rendu Précis du Texte dans l'Image
Texte long sur affiches, titres sur infographies, bulles de dialogue dans les BD, étiquettes sur maquettes d'interface. Les caractères s'affichent proprement là où d'autres modèles de diffusion brouillent les glyphes ou hallucinent des lettres — LongTextBench 0.9733.
Composition Fidèle aux Instructions
Plusieurs objets, relations spatiales spécifiques, prompts riches en connaissances. Le modèle suit ce que vous avez réellement décrit plutôt que de s'effondrer vers une 'jolie image' générique — GENEval 0.8856, devant Qwen-Image et comparable à FLUX.2.
Mises en Page Structurées et Multi-Panneaux
Affiches, BD, storyboards, maquettes d'interface, infographies. ERNIE Image raisonne sur la mise en page et la composition en panneaux — pas seulement le sujet et le style. Les résolutions prises en charge incluent 1024×1024, 848×1264, 1264×848, 768×1376 et 1376×768.
Bilingue Chinois et Anglais
Les prompts dans l'une ou l'autre langue renvoient des résultats de qualité comparable — OneIG-EN 0.5750 et OneIG-ZH 0.5543. Le texte dans l'image gère les deux écritures, vous pouvez donc lancer la même campagne sur deux marchés depuis un seul pipeline.
Deux Variantes : SFT et Turbo
Le modèle SFT de 50 étapes maximise la fidélité aux instructions pour les images finales. ERNIE-Image-Turbo — distillé avec DMD et apprentissage par renforcement — retourne des aperçus en 8 étapes en quelques secondes pour une itération rapide.
Poids Ouverts, Compatible GPU Grand Public
Le checkpoint complet de 8B est publié sous Apache 2.0 et fonctionne sur un seul GPU 24GB. Auto-hébergez, affinez sur vos données de marque, ou intégrez directement dans un pipeline de production — sans verrouillage fournisseur.
Approuvé par les Professionnels de la Création
Témoignages réels de créateurs qui ont transformé leur flux de travail
Je travaille principalement sur des planches de BD avec bulles de dialogue, que tous les autres outils IA ont massacré. ERNIE Image est le premier où le texte à l'intérieur de l'image s'affiche réellement — plus de 20 heures par semaine récupérées.
Les affiches de campagne avec vrais titres nous revenaient de notre agence en semaines. Maintenant je les génère en interne, en anglais et chinois, en un après-midi.
Le mode Turbo a changé ma façon d'itérer — je prévisualise 30 compositions dans le temps qu'il fallait pour en rendre une. Puis je finalise l'image sur le modèle SFT complet.
J'ai testé plus de quinze outils texte-vers-image. ERNIE Image est le seul en qui j'ai confiance pour le travail axé sur la mise en page — affiches, infographies, tout où l'espacement et le texte comptent vraiment.
Douze comptes, deux langues, un après-midi par mois. Le prompting bilingue signifie que je ne maintiens plus de pipelines créatifs parallèles — l'engagement a environ triplé.
Nous avons complètement retiré la ligne budgétaire des photos de stock. Chaque asset est original, aligné sur la marque, et livré avec du vrai texte intégré — donc l'équipe design arrête de retoucher les titres dans Photoshop.
Les révisions clients qui prenaient des jours se font maintenant pendant l'appel. J'arrive avec des dizaines de directions explorées — la production est environ 5 fois supérieure et les conversations avec les clients sont bien meilleures.
Maintenir la cohérence de mise en page sur plus de 50 SKU était un travail à temps plein. Le modèle a appris notre guide de style et livre maintenant des assets produits parfaitement alignés sur demande.
Les présentations clients reposaient sur des visuels provisoires car les vrais prenaient des semaines. Maintenant chaque diapo est livrée avec des visuels personnalisés — et le client suppose qu'on a un studio complet derrière.
Des maquettes d'interface avec vrai texte d'interface — boutons, étiquettes, microcopy — sont sortis correctement du premier coup. Je parcours plus de 50 concepts par jour ; la boucle de développement a facilement quadruplé.
Nous sommes passés de 10K à 100K abonnés presque entièrement grâce aux affiches et carrousels générés par IA. La différence est que le texte dans l'image se lit vraiment — c'est toute la stratégie pour le social.
Chaque projet révèle une autre capacité que je n'avais pas prévu d'utiliser. Retouches subtiles, mises en page structurées multi-panneaux, copie bilingue — il gère le type de complexité qu'un designer senior prendrait au sérieux.
Questions Fréquemment Posées
Tout ce que vous devez savoir sur ERNIE Image