إنشاء صور تعرض النص بشكل صحيح فعلياً
معظم نماذج الصور تفشل في النصوص الكثيفة والتخطيطات الضيقة والمطالبات متعددة العناصر. ERNIE Image مُدرّب خصيصاً لهذه الحالات - نصوص طويلة على الملصقات، فقاعات حوار في القصص المصورة، تركيبات منظمة متعددة اللوحات، ومشاهد ثنائية اللغة بالصينية والإنجليزية.

لماذا يختار المبدعون ERNIE Image
قوي حيث تكون نماذج الصور الأخرى ضعيفة
ERNIE Image هو محول انتشار أحادي التدفق مُدرّب للتعامل مع الحالات التي عادة ما تكسر النماذج التوليدية: نص مقروء، تخطيطات صارمة، مطالبات متعددة العناصر، وتعليمات ثنائية اللغة. محسّن مطالبات خفيف الوزن يوسع المدخلات القصيرة إلى أوصاف منظمة، لذا لا تحتاج إلى هندسة المطالبات للحصول على مخرجات قابلة للاستخدام.
تكرار سريع مع وضع Turbo
متغير Turbo مُقطّر بـ 8 خطوات يأتي جنباً إلى جنب مع نموذج SFT بـ 50 خطوة. ارسم بسرعة المسودة، ثم اعرض الإطار الرئيسي بجودة كاملة - بدون تبديل أداة.
معايير أداء، ليس فقط عروض توضيحية
GENEval 0.8856، LongTextBench 0.9733، درجات OneIG من الدرجة الأولى في كل من الإنجليزية والصينية. الجودة معتمدة بشكل مستقل، وليست منتقاة بعناية.
اكتب كما تفكر
محسّن المطالبات المدمج يحول فكرة من سطر واحد إلى مطالبة مفصلة ومنظمة. أنت تبقى في الوضع الإبداعي؛ النموذج يتعامل مع طبقة هندسة المطالبات.
سطح واحد لخط الأنابيب بأكمله
إنشاء، تحرير، تركيب، رفع الدقة، تصدير - سير عملك المرئي يتم داخل علامة تبويب واحدة. لا تنقل بين الأدوات، ولا اشتراكات متراكمة.
استبدال جلسات التصوير وميزانيات المخزون
ملصقات متوافقة مع العلامة التجارية، إطارات منتجات، وأصول حملات في دقائق. قياس حجم المحتوى الإبداعي دون قياس عدد الموظفين أو إنفاق الترخيص.
Apache 2.0 - أنت تملك المخرجات
الأوزان مفتوحة بموجب Apache 2.0 وكل ما تولده هو ملكك تجارياً. إعلانات، بضائع، طباعة، إعادة بيع، ضبط دقيق، استضافة ذاتية - كل شيء متاح.
القدرات الأساسية
مصمم للحالات التي تكسر نماذج الصور الأخرى
ERNIE Image هو DiT أحادي التدفق بحجم 8 مليار معامل مقترن بمحسّن مطالبات ومتغير Turbo. إليك ما تجيده البنية فعلياً.
عرض نص دقيق داخل الصورة
نسخ طويلة على الملصقات، عناوين على الرسوم البيانية، فقاعات حوار في القصص المصورة، تسميات على نماذج واجهات المستخدم. الأحرف تُعرض بوضوح حيث تطمس نماذج الانتشار الأخرى الحروف أو تهلوسها - LongTextBench 0.9733.
تركيب مخلص للتعليمات
عناصر متعددة، علاقات مكانية محددة، مطالبات كثيفة المعرفة. النموذج يتتبع ما وصفته فعلياً بدلاً من الانهيار إلى 'صورة جميلة' عامة - GENEval 0.8856، متقدم على Qwen-Image وقابل للمقارنة مع FLUX.2.
تخطيطات منظمة ومتعددة اللوحات
ملصقات، قصص مصورة، لوحات قصصية، إطارات واجهة مستخدم، رسوم بيانية. ERNIE Image يفكر في تخطيط الصفحة وتركيب اللوحة - ليس فقط الموضوع والأسلوب. الدقات المدعومة تشمل 1024×1024، 848×1264، 1264×848، 768×1376، و1376×768.
ثنائي اللغة بالصينية والإنجليزية
المطالبات بأي من اللغتين تعيد نتائج بجودة قابلة للمقارنة - OneIG-EN 0.5750 وOneIG-ZH 0.5543. النص داخل الصورة يتعامل مع كلا الخطين، لذا يمكنك إطلاق نفس الحملة في سوقين من خط أنابيب واحد.
متغيران: SFT وTurbo
نموذج SFT بـ 50 خطوة يزيد من دقة التعليمات للإطارات النهائية. ERNIE-Image-Turbo - مُقطّر مع DMD والتعلم المعزز - يعيد معاينات بـ 8 خطوات في ثوانٍ للتكرار السريع.
أوزان مفتوحة، متوافق مع وحدات معالجة الرسومات الاستهلاكية
نقطة التفتيش الكاملة بحجم 8 مليار معامل صادرة بموجب Apache 2.0 وتعمل على وحدة معالجة رسومات واحدة بسعة 24 جيجابايت. استضافة ذاتية، ضبط دقيق على بيانات علامتك التجارية، أو تكامل مباشر في خط أنابيب الإنتاج - بدون قفل بائع.
موثوق به من قبل المحترفين المبدعين
قصص حقيقية من مبدعين حولوا سير عملهم
أعمل في الغالب على لوحات القصص المصورة مع فقاعات الحوار، والتي أفسدتها كل أداة ذكاء اصطناعي أخرى. ERNIE Image هي الأولى التي يُعرض فيها النص داخل الصورة فعلياً - استعدت أكثر من 20 ساعة أسبوعياً.
ملصقات الحملات مع عناوين حقيقية كانت تعود من وكالتنا في أسابيع. الآن أنشئها داخلياً، بكل من الإنجليزية والصينية، في فترة ما بعد الظهر.
وضع Turbo غيّر كيفية تكراري - أعاين 30 تركيباً في الوقت الذي كان يستغرقه عرض واحد. ثم أقفل الإطار النهائي على نموذج SFT الكامل.
اختبرت أكثر من خمسة عشر أداة نص إلى صورة. ERNIE Image هي الوحيدة التي أثق بها للعمل الثقيل التخطيط - ملصقات، رسوم بيانية، أي شيء حيث التباعد والنص مهمان فعلياً.
اثنا عشر حساباً، لغتان، فترة ما بعد الظهر واحدة شهرياً. المطالبات ثنائية اللغة تعني أنني لم عد أحتفظ بخطوط أنابيب إبداعية متوازية - تضاعفت المشاركة ثلاث مرات تقريباً.
تقاعدنا من بند صور المخزون تماماً. كل أصل أصلي، متوافق مع العلامة التجارية، ويُشحن مع نص حقيقي مخبوز فيه - لذا يتوقف فريق التصميم عن إعادة لمس العناوين مرة أخرى في Photoshop.
تعديلات العميل التي كانت تأكل أياماً تحدث الآن أثناء المكالمة. أدخل مع عشرات الاتجاهات المستكشفة - المخرجات ارتفعت حوالي 5 أضعاف ومحادثات العميل أفضل بكثير.
الحفاظ على اتساق التخطيط عبر أكثر من 50 وحدة كان وظيفة بدوام كامل. تعلم النموذج دليل أسلوبنا والآن يشحن أصول منتجات متوازنة تماماً عند الطلب.
كانت عروض العروض التقديمية تعتمد على صور مؤقتة لأن الحقيقية كانت تستغرق أسابيع. الآن كل شريحة تشحن بصور مخصصة - والعميل يفترض أن لدينا استوديو كامل وراءها.
نماذج واجهات المستخدم بنص واجهة حقيقي - أزرار، تسميات، نسخ صغير - خرجت بشكل صحيح من المحاولة الأولى. أتنقل عبر أكثر من 50 مفهوماً يومياً؛ دورة التطوير تضاعفت بسهولة أربع مرات.
نمونا من 10 آلاف إلى 100 ألف متابع تقريباً بالكامل على ملصقات ودوارات مولدة بالذكاء الاصطناعي. الفرق هو أن النص في الصورة يُقرأ فعلياً - هذه هي اللعبة بأكملها للتواصل الاجتماعي.
كل مشروع يكشف عن قدرة أخرى لم أخطط لاستخدامها. لمسات دقيقة، تخطيطات منظمة متعددة اللوحات، نسخ ثنائية اللغة - تتعامل مع نوع التعقيد الذي يأخذه مصمم أول على محمل الجد.
الأسئلة الشائعة
كل ما تحتاج لمعرفته عن ERNIE Image