Gere Imagens Que Realmente Acertam o Texto
A maioria dos modelos de imagem falha com cópias densas, layouts apertados e prompts com múltiplos objetos. ERNIE Image é treinado exatamente para esses casos — texto extenso em pôsteres, balões de fala em quadrinhos, composições estruturadas de múltiplos painéis e cenas bilíngues em chinês/inglês.

Por Que Criadores Escolhem ERNIE Image
Forte onde outros modelos de imagem são fracos
ERNIE Image é um Transformador de Difusão de fluxo único treinado para lidar com os casos que geralmente quebram modelos generativos: texto legível, layouts rigorosos, prompts com múltiplos objetos e instruções bilíngues. Um Aprimorador de Prompt leve expande entradas curtas em descrições estruturadas, então você não precisa fazer engenharia de prompt para obter resultados utilizáveis.
Iteração Rápida com Modo Turbo
Uma variante Turbo destilada de 8 passos acompanha o modelo SFT de 50 passos. Esboce em velocidade de rascunho, depois renderize o quadro principal em qualidade total — sem trocar de ferramenta.
Benchmarks, Não Apenas Demos
GENEval 0.8856, LongTextBench 0.9733, pontuações OneIG de primeira linha em inglês e chinês. A qualidade é verificada independentemente, não escolhida a dedo.
Escreva Como Você Pensa
O Aprimorador de Prompt integrado transforma uma ideia de uma linha em um prompt detalhado e estruturado. Você permanece no modo criativo; o modelo cuida da camada de engenharia de prompt.
Uma Superfície para Todo o Pipeline
Gerar, editar, compor, aumentar escala, exportar — seu fluxo de trabalho visual fica dentro de uma única aba. Sem pular entre ferramentas, sem assinaturas empilhadas.
Substitua Sessões de Fotos e Orçamentos de Stock
Pôsteres alinhados à marca, quadros de produtos e ativos de campanha em minutos. Escale volume criativo sem escalar equipe ou gastos com licenciamento.
Apache 2.0 — Você é Dono do Resultado
Os pesos são abertos sob Apache 2.0 e tudo que você gera é seu comercialmente. Anúncios, produtos, impressão, revenda, ajuste fino, auto-hospedagem — tudo na mesa.
Capacidades Principais
Construído para os casos que quebram outros modelos de imagem
ERNIE Image é um DiT de fluxo único de 8B emparelhado com um Aprimorador de Prompt e uma variante Turbo. Aqui está no que a arquitetura é realmente boa.
Renderização Precisa de Texto Dentro da Imagem
Cópias extensas em pôsteres, manchetes em infográficos, balões de fala em quadrinhos, rótulos em mockups de UI. Caracteres renderizam claramente onde outros modelos de difusão borram glifos ou alucinam letras — LongTextBench 0.9733.
Composição Fiel à Instrução
Múltiplos objetos, relações espaciais específicas, prompts densos em conhecimento. O modelo rastreia o que você realmente descreveu em vez de colapsar para uma 'imagem bonita' genérica — GENEval 0.8856, à frente do Qwen-Image e comparável ao FLUX.2.
Layouts Estruturados e Múltiplos Painéis
Pôsteres, quadrinhos, storyboards, quadros de UI, infográficos. ERNIE Image raciocina sobre layout de página e composição de painel — não apenas assunto e estilo. Resoluções suportadas incluem 1024×1024, 848×1264, 1264×848, 768×1376 e 1376×768.
Bilíngue em Chinês e Inglês
Prompts em qualquer idioma retornam resultados de qualidade comparável — OneIG-EN 0.5750 e OneIG-ZH 0.5543. Texto dentro da imagem lida com ambos os scripts, então você pode lançar a mesma campanha em dois mercados a partir de um pipeline.
Duas Variantes: SFT e Turbo
O modelo SFT de 50 passos maximiza a fidelidade de instrução para quadros finais. ERNIE-Image-Turbo — destilado com DMD e aprendizado por reforço — retorna visualizações de 8 passos em segundos para iteração rápida.
Pesos Abertos, Amigável para GPU de Consumidor
O checkpoint completo de 8B é lançado sob Apache 2.0 e roda em uma única GPU de 24GB. Auto-hospede, ajuste fino em seus dados de marca ou integre diretamente em um pipeline de produção — sem bloqueio de fornecedor.
Confiado por Profissionais Criativos
Histórias reais de criadores que transformaram seu fluxo de trabalho
Trabalho principalmente com painéis de quadrinhos com balões de fala, que toda outra ferramenta de IA estragava. ERNIE Image é a primeira onde o texto dentro da imagem realmente renderiza — mais de 20 horas por semana de volta no meu bolso.
Pôsteres de campanha com manchetes reais costumavam voltar da nossa agência em semanas. Agora eu os gero internamente, em inglês e chinês, em uma tarde.
O modo Turbo mudou como eu itero — visualizo 30 composições no tempo que costumava levar para renderizar uma. Depois travo o quadro final no modelo SFT completo.
Testei mais de quinze ferramentas de texto para imagem. ERNIE Image é a única em que confio para trabalho com muito layout — pôsteres, infográficos, qualquer coisa onde espaçamento e texto realmente importam.
Doze contas, dois idiomas, uma tarde por mês. O prompting bilíngue significa que não estou mais mantendo pipelines criativos paralelos — o engajamento aproximadamente triplicou.
Aposentamos completamente o item de linha de fotos stock. Todo ativo é original, alinhado à marca e entregue com texto real incorporado — então a equipe de design para de retocar manchetes de volta no Photoshop.
Revisões de clientes que costumavam consumir dias agora acontecem durante a ligação. Entro com dezenas de direções exploradas — a produção está aproximadamente 5x maior e as conversas com o cliente são muito melhores.
Manter consistência de layout em mais de 50 SKUs costumava ser um trabalho em tempo integral. O modelo aprendeu nosso guia de estilo e agora entrega ativos de produtos perfeitamente alinhados sob demanda.
Decks de apresentação costumavam depender de visuais temporários porque os reais levavam semanas. Agora cada slide entrega com imagens personalizadas — e o cliente assume que temos um estúdio completo por trás.
Mockups de UI com texto de interface real — botões, rótulos, microcopy — saíram corretamente na primeira tentativa. Ciclo através de mais de 50 conceitos por dia; o loop de desenvolvimento facilmente quadruplicou.
Crescemos de 10K para 100K seguidores quase inteiramente com pôsteres e carrosséis gerados por IA. A diferença é que o texto na imagem realmente é legível — esse é o jogo todo para redes sociais.
Cada projeto expõe outra capacidade que eu não havia planejado usar. Retoque sutil, layouts estruturados de múltiplos painéis, cópia bilíngue — lida com o tipo de complexidade que um designer sênior levaria a sério.
Perguntas Frequentes
Tudo que você precisa saber sobre ERNIE Image