실제로 텍스트를 정확하게 생성하는 이미지 만들기
대부분의 이미지 모델은 밀도 높은 문구, 빡빡한 레이아웃 및 다중 객체 프롬프트를 제대로 처리하지 못합니다. ERNIE Image는 정확히 이런 경우들을 위해 훈련되었습니다 - 포스터의 긴 텍스트, 만화의 말풍선, 구조화된 다중 패널 구성 및 중국어/영어 이중 언어 장면.

크리에이터들이 ERNIE Image를 선택하는 이유
다른 이미지 모델이 약한 부분에서 강력함
ERNIE Image는 일반적으로 생성 모델을 망가뜨리는 케이스들을 처리하도록 훈련된 단일 스트림 디퓨전 트랜스포머입니다: 읽을 수 있는 텍스트, 엄격한 레이아웃, 다중 객체 프롬프트, 이중 언어 지시. 경량 프롬프트 향상기가 짧은 입력을 구조화된 설명으로 확장하여, 사용 가능한 결과를 얻기 위해 프롬프트 엔지니어링을 할 필요가 없습니다.
터보 모드로 빠른 반복
8단계로 증류된 터보 변형이 50단계 SFT 모델과 함께 제공됩니다. 초안 속도로 스케치한 다음 전체 품질로 주요 프레임을 렌더링 - 도구 전환이 없습니다.
데모가 아닌 벤치마크
GENEval 0.8856, LongTextBench 0.9733, 영어 및 중국어 모두에서 최상위 OneIG 점수. 품질은 독립적으로 검증되었으며 선별된 것이 아닙니다.
생각하는 대로 작성
내장된 프롬프트 향상기가 한 줄 아이디어를 자세하고 구조화된 프롬프트로 전환합니다. 당신은 창작 모드에 머물고 모델이 프롬프트 엔지니어링 레이어를 처리합니다.
전체 파이프라인을 위한 하나의 화면
생성, 편집, 합성, 업스케일, 내보내기 - 시각적 워크플로우가 단일 탭 내에 있습니다. 도구 전환 없음, 구독 중복 없음.
촬영 및 스톡 예산 대체
브랜드에 맞는 포스터, 제품 프레임 및 캠페인 자산을 몇 분 안에. 인력이나 라이선스 비용을 늘리지 않고 창작 볼륨을 확장하세요.
Apache 2.0 — 출력물은 당신 소유
가중치는 Apache 2.0 하에 공개되며 생성한 모든 것은 상업적으로 당신의 것입니다. 광고, 상품, 인쇄, 재판매, 미세 조정, 자체 호스팅 - 모두 가능합니다.
핵심 기능
다른 이미지 모델을 망가뜨리는 케이스를 위해 구축됨
ERNIE Image는 프롬프트 향상기 및 터보 변형과 쌍을 이루는 8B 단일 스트림 DiT입니다. 이 아키텍처가 실제로 잘하는 것은 다음과 같습니다.
정확한 이미지 내 텍스트 렌더링
포스터의 긴 문구, 인포그래픽의 제목, 만화의 말풍선, UI 목업의 레이블. 다른 디퓨전 모델이 글자를 번지게 하거나 환각을 일으키는 곳에서 문자가 깨끗하게 렌더링됩니다 - LongTextBench 0.9733.
지시에 충실한 구성
여러 객체, 특정 공간 관계, 지식 집약적 프롬프트. 모델은 일반적인 '예쁜 그림'으로 축소되지 않고 실제로 설명한 것을 추적합니다 - GENEval 0.8856, Qwen-Image보다 앞서고 FLUX.2와 비교 가능.
구조화된 레이아웃 및 다중 패널
포스터, 만화, 스토리보드, UI 프레임, 인포그래픽. ERNIE Image는 페이지 레이아웃과 패널 구성에 대해 추론합니다 - 주제와 스타일만이 아닙니다. 지원되는 해상도에는 1024×1024, 848×1264, 1264×848, 768×1376 및 1376×768이 포함됩니다.
중국어 및 영어 이중 언어
두 언어 중 하나로 프롬프트를 입력하면 비슷한 품질의 결과를 반환합니다 - OneIG-EN 0.5750 및 OneIG-ZH 0.5543. 이미지 내 텍스트가 두 스크립트를 모두 처리하므로 하나의 파이프라인에서 두 시장에 동일한 캠페인을 제공할 수 있습니다.
두 가지 변형: SFT 및 터보
50단계 SFT 모델은 최종 프레임을 위한 지시 충실도를 최대화합니다. ERNIE-Image-Turbo — DMD 및 강화 학습으로 증류 — 빠른 반복을 위해 8단계 미리보기를 몇 초 안에 반환합니다.
공개 가중치, 소비자 GPU 친화적
전체 8B 체크포인트는 Apache 2.0 하에 공개되며 단일 24GB GPU에서 실행됩니다. 자체 호스팅, 브랜드 데이터로 미세 조정 또는 프로덕션 파이프라인에 직접 통합 - 공급업체 종속 없음.
창작 전문가들의 신뢰
워크플로우를 변화시킨 크리에이터들의 실제 이야기
저는 주로 말풍선이 있는 만화 패널 작업을 하는데, 다른 모든 AI 도구는 망쳤습니다. ERNIE Image는 이미지 내 텍스트가 실제로 렌더링되는 첫 번째 도구입니다 - 일주일에 20시간 이상을 돌려받았습니다.
실제 제목이 있는 캠페인 포스터는 대행사에서 몇 주 만에 돌아왔습니다. 이제 영어와 중국어 모두로 오후 한나절에 사내에서 생성합니다.
터보 모드가 반복 방식을 바꿨습니다 - 하나를 렌더링하는 데 걸리던 시간에 30개의 구성을 미리 봅니다. 그런 다음 전체 SFT 모델에서 최종 프레임을 확정합니다.
15개 이상의 텍스트-이미지 도구를 테스트했습니다. ERNIE Image는 레이아웃 중심 작업(포스터, 인포그래픽, 간격과 텍스트가 실제로 중요한 모든 것)에 신뢰할 수 있는 유일한 도구입니다.
12개 계정, 두 언어, 한 달에 한 번 오후. 이중 언어 프롬프팅은 더 이상 병렬 창작 파이프라인을 유지하지 않아도 된다는 것을 의미합니다 - 참여도가 약 3배 증가했습니다.
스톡 사진 항목을 완전히 폐기했습니다. 모든 자산은 독창적이고 브랜드에 맞으며 실제 텍스트가 구워진 상태로 제공되므로 디자인 팀이 Photoshop에서 제목을 다시 수정하는 것을 중단합니다.
며칠을 소비하던 고객 수정이 이제 통화 중에 이루어집니다. 탐색된 수십 개의 방향을 가지고 들어갑니다 - 출력은 약 5배 증가했고 고객 대화가 훨씬 좋아졌습니다.
50개 이상의 SKU에서 레이아웃 일관성을 유지하는 것은 풀타임 작업이었습니다. 모델이 우리의 스타일 가이드를 학습했고 이제 완벽하게 정렬된 제품 자산을 주문형으로 제공합니다.
피치 덱은 실제 것들이 몇 주가 걸렸기 때문에 플레이스홀더 비주얼에 의존했습니다. 이제 모든 슬라이드가 맞춤 이미지와 함께 제공됩니다 - 고객은 우리 뒤에 전체 스튜디오가 있다고 가정합니다.
실제 인터페이스 텍스트(버튼, 레이블, 마이크로카피)가 있는 UI 목업이 첫 시도에 올바르게 나왔습니다. 하루에 50개 이상의 컨셉을 순환합니다. 개발 루프가 쉽게 4배가 되었습니다.
AI 생성 포스터와 캐러셀만으로 1만에서 10만 팔로워로 성장했습니다. 차이점은 이미지의 텍스트가 실제로 읽힌다는 것입니다 - 그것이 소셜의 전체 게임입니다.
모든 프로젝트가 사용할 계획이 없었던 다른 기능을 노출합니다. 미묘한 리터칭, 구조화된 다중 패널 레이아웃, 이중 언어 카피 - 시니어 디자이너가 진지하게 받아들일 종류의 복잡성을 처리합니다.
자주 묻는 질문
ERNIE Image에 대해 알아야 할 모든 것