210 قراءة٪ s

نموذج AI جديد يمنح صور AI جيدة للغاية

بواسطة thisweekin...7m2025/06/30
Read on Terminal Reader

طويل جدا؛ ليقرأ

روح هي النسخة الجديدة فقط من Higgsfield.ai ، وقد تم تدريبها خصيصا لتفادي الجودة البصرية على مستوى المجلة من الغرفة.
featured image - نموذج AI جديد يمنح صور AI جيدة للغاية
This Week in AI Engineering HackerNoon profile picture

Hello AI Enthusiasts!

مرحبا بكم في المجموعة الخامسة والعشرين من"This Week in AI Engineering"!

هذا الأسبوع، توسيع OpenAI API مع وحدات Deep Research و Webhooks الجديدة، أطلقت جوجل Gemma 3n للاستخدام المتعدد الأبعاد على أجهزة معقولة منخفضة الموارد، وفي الوقت نفسه، أطلقت Sakana.ai إطارًا جديدًا للتفكير من خلال نموذج معلم مبتكر، أطلقت Higgsfield نموذجًا جديدًا رائعًا يسمى Soul، وأطلقت FLUX.1 Kontext محرر صورة تتنافس مع الأدوات المملوكة.

كما هو الحال دائمًا ، سنقوم بتجميع الأشياء مع أدوات وفرق تحت القيادة التي تستحق اهتمامك.


Higgsfield Soul: The Most Aesthetic AI Photo Model

Soulهو أحدث نموذج فقط على الصور من Higgsfield.ai ، وقد تم تدريبه بشكل خاص على ضربmagazine-level visual qualityخارج الصندوق

AestheticNet Performance

  • النسبة 95 في المائة على المعايير الداخلية AestheticNet للتصنيع والتضحية والجودة.
  • إعدادات إضافية: 50+ نموذج فني، من “Quiet Luxury” إلى “Y2K Retro”

Technical Highlights

  • Photo-Only Focus: على عكس النماذج التوسعية العامة ، يتم تصميم Soul بالليزر للتصوير الفعلي.
  • التصوير الحقيقي: يحافظ على خصائص الوجه والتفاصيل الجميلة في العديد من الوجوه والأضواء.

Artistic Control

  • تصفح المكتبة: تطبيقات تظهر على الوجهات المكتبية بسهولة واحدة.تصفح تكييفية: تعديل التناقض والتعليق، والتركيز على الألوان، والروح.

Key Use Cases

  • الأزياء والإعلانات: إنتاج سريع من الحملات الإعلانية مع العلامة التجارية الدائمة.
  • خدمات الرسوم المتحركة: الرسوم المتحركة المهنية على الطلب والفيديوهات في وسائل التواصل الاجتماعي.
  • التجارة الإلكترونية: صور المنتج مع إضاءة استوديو مستمر.

FLUX.1 Kontext [dev]: Open Weights, Proprietary-Level Image Editing

Kontextو التي تم تطويرها تحت FLUX.1, الآن متوفر كواحدة منopen weights modelالتي توفر القدرة على تعديل الصورة مقارنة مع الأدوات المملوكة أعلى.

Model Specs & Open Weights

  • 12 B الحواسيب: تم تحسينها للمعدات المحلية والعالمية.
  • مجانًا غير تجاريًا مفتوحًا: الوزن على الوجه مع دعم ComfyUI و Diffusers و TensorRT.

Editing Capabilities

  • التعديلات الإنتقالية في السياق: تعديل الصور خطوة بخطوة دون التحرك.
  • الحفاظ على الشخصية: يحافظ على هوية الموضوع عبر تعديلات متعددة.
  • القياس المزدوج: تلقائيات النص + الصورة لسيطرة دقيقة.

Benchmark Results

  • KontextBench: يقدم نموذجًا مفتوحًا (على سبيل المثال، Bagel، HiDream-E1) وتقنيات مغلقة (Gemini-Flash Image) في اختبارات المفضلة البشرية.
  • التعديلات المتقدمة: BF16, FP8, FP4 TensorRT خيارات للسرعة الجودة التفاوض.

Integration & Variants

  • Dev: مصدر مفتوح تمامًا، تركز على البحث.
  • Pro & Max: أساليب تجارية تتيح إصدارات أسرع (3-5 ثانية)، التصوير المتقدم، وSLAs الشركات.

Key Use Cases

  • شبكات الأدوات الإبداعية: إدخال إعداد التصميم إلى التطبيقات على شبكة الإنترنت وأجهزة الكمبيوتر الأساسية.
  • نموذج سريع: يمكن للمصممين اختبار المفاهيم المرئية على الأجهزة المستهلكة.
  • البحوث الأكاديمية: التعامل مع تدفق الدراسة والتعديل الإعدادي دون حواجز الترخيص.

بالنسبة للمطورين في بناء الأدوات الإبداعية، توفر Kontext نموذجًا أساسيًا مفتوحًا ومتكاملًا دون توقفات الترخيص.


This Might Change LLMs Forever

أعلنت Sakana.ai عن تصميم جديد:Reinforcement Learning Teachers of Test Time Scaling، الذي يتحول إلى طريقة التقييم التقليدية على رأسها.

Learning‑to‑Teach Framework

  • مع سؤال + إجابة: يحصل RLTون على مشكلة وأي حل له ، مع التركيز على إنشاء تفسيرات واضحة ، خطوة بخطوة.
  • المكافآت ذات الصلة بالمعرفة: يتم مكافأة المعلمين على أساس مدى فعالية LLM للطلاب في تكوين الدرس، والتي يتم قياسها باستخدام احتمالات الدخول للطلاب.

Training Process

  • إشارات مكافأة عميقة: تتيح الترجمة المستمرة من أداء الطلاب RL فعالة على 7 B نموذج معلم.
  • النتائج المستعدة للتخزين: تستخدم التفسيرات بشكل مباشر كمعلومات تدريبية لمواصفات الطلاب المستقبلية.

Performance Benchmarks

  • وظائف المنافسة: يتم تركيب RLTs إلى الطلاب الذين يتجاوزون خطوط الإنتاج باستخدام أرقام أكبر من LMs.
  • Zero-Shot Generalization: يحافظ على فعالية التفكير على النتائج غير الموزعة دون تحديد إضافي.

Key Applications

  • Cost‑Efficient Reasoning: Build high‑performance reasoning assistants without massive compute or retraining costs.
  • التعلم الدراسي: إنتاج تلقائي من المواد التدريبية للمناطق المتخصصة.
  • التصميم على الطلب: تكييف نموذج الطلاب بسرعة إلى المهام الجديدة عن طريق تبادل مع معلمين مختلفين من RLT.

لا يزال هذا البحث مبكرًا، ولكن يمكن أن يكونbreakthrough for cheaper, more scalable logic-intensive systems.


OpenAI API Adds Deep Research & Webhooks

أوبتيون يضيفtwo powerful capabilitiesوَقَالَ أَبُو عَبْدِ اللَّهِ الْحَافِظُ:Deep ResearchوWebhooksإزالة طبقة جديدة بالكامل من الذكاء والتفاعلية لمستخدمي التطبيقات.

Deep Research Models

  • o3-deep-research & o4-mini-deep-research: هذه النماذج تشمل مئات المصادر على شبكة الإنترنت ، مما يعود إلى التقارير المكونة من التقارير المستندة بدلاً من القصص.
  • التفكير متعدد الخطوات الذاتية: يمكن الآن من خلال المخابرات إطلاق التفكير العميق حول الموضوعات المعقدة، والبحث في السوق، والبيانات الفنية، والبيانات الأكاديمية، مباشرة من الكود.

Pricing & Performance

  • o3 سعر: 10 دولار لكل نقطة إرسال 1 مليون، 40 دولار لكل نقطة إرسال 1 مليون.
  • o4‐mini سعر: 2 دولار لكل نقطة انطلاق 1M، 8 دولار لكل نقطة انطلاق 1M.
  • التراجع والموثوقية: تم تصميمها لتنفيذ الخلفية ، مع التركيز على البحوث العميقة مع Webhooks لتجنب مشاكل في الوقت والاتصالات.

Webhooks

  • تدفقات العمل المتطورة في الأحداث: تلقى ردود الفعل عند الانتهاء من المهام الطويلة (على سبيل المثال، وظائف البحث العميق) ، مما يمنع الحاجة إلى الاستطلاع.
  • Secure & Scalable: يدعم نقاط النهاية معتمدة ومعدلات الفائدة الهيكلية، مثالية للعمليات المعدلة، أو أنابيب CI / CD، أو محركات CRM.

Key Use Cases

  • تحليل تنافسي تلقائيا: العاملين الذين يراقبون وتقارير جديدة
  • المساعدات البحثية: إنشاء تدفقات العمل التي تنتج تلقائيا تقييمات الأدب أو التحقيقات الفنية.
  • التكاملات المؤسسية: التكامل مع أنظمة التذاكر أو لوحات التحكم للغوص العميق على الطلب.

معا، هذه الأدوات تنقل API OpenAI إلىdynamic, live agent ecosystemsليس فقط الدعوات المستمرة.


Google Releases Gemma 3n: Light, Open, Multimodal

Google تراجع رسميًاGemma 3n، أحدث النسخة في عائلة النماذج المفتوحة الضوئية ، التي تم بناءها على نفس البحوث الأساسية مثل Gemini.

Model Architecture

  • MatFormer Backbone & PLE Caching: طبقات فعالة الحد الأدنى من الحد الأدنى من الحد الأدنى من الحد الأدنى من الحد الأدنى من الحد الأدنى من الحد الأدنى من الحد الأدنى من الحد الأدنى من الحد الأدنى من الحد الأدنى.
  • إصدارات E2B و E4B: متوفرة في الحجم 2B و 4B، تم تحسينها لعدد من التوازنات في الأداء والفعالية.

Multimodal & Multilingual

  • أنواع الدخول: الدعم الداخلي للملفات والصور والفيديو والفيديو.
  • تغطية لغة: تتدرب على أكثر من 140 لغة تتحدث عن النص؛ 35 لغة للأنشطة المتعددة اللغات.

Efficiency & On‑Device Performance

  • Offline Inference: يعمل بالكامل على جهازك ، مثالي لبعض الحالات ذات الصلة بالخصوصية أو الحالات ذات الصلة بالاتصال المنخفضة.
  • 2 جيجابايت RAM Footprint: يسمح بتشغيل الذكاء الاصطناعي على الهواتف الذكية والبرمجيات اللوحية والبرمجيات الخلفية دون اعتماد على الهواتف الذكية.

Key Use Cases

  • المساعدات المحمولة: chatbots المحلية التي تفهم الأسئلة الصوتية والصور والرسائل النصية.
  • Privacy-First Apps: أدوات الرعاية الصحية أو التمويل التي لا تترك البيانات أبداً من جهازك.
  • البحث في المجال: الترجمة خارج الإنترنت والتحليلات المتعددة الجوانب للمناطق الجغرافية.

سواء كنت تبني مساعدات الذكاء الاصطناعي المحلية أو التطبيقات المتعددة اللغات المحمولة أو مصطلحات الدردشة متعددة اللغات.Gemma 3n is a powerful, open alternative to proprietary multimodal giants.


Gemini CLI Brings AI to the Terminal

Google يبدأ ببطءGemini CLI، واجهة خطة الأوامر مفتوحة المصدر الذي يضع Gemini مباشرة في محطة التطور الخاص بك.

Features & Integrations

  • Natural-Language Prompts: إنتاج الكود، إصلاحات المشكلات، وثائق، طلبات البحث.
  • MCP وبيانات في الوقت الحقيقي: يستفيد من بروتوكول نموذج بروتوكول Google لتسجيل البيانات على شبكة الإنترنت الحية عند الحاجة.
  • التوسعات متعددة الأنواع: التكاملات مع Imagen و Veo لإنتاج الصورة / الفيديو.

Performance & Limits

  • 60 طلبًا / دقيقة و 1000 طلبًا / يوم مجانيًا (من خلال رخصة Gemini Code Assist).
  • 1 M نافذة محددة لمواقف متعددة الخطوات المعقدة.

Developer Experience & Extensibility

  • مفتوحة بالكامل: استكشاف الكود، مساهمة الملفات، توسيع وظائفك.
  • ReAct Loop: برنامج Reason-and-act لتجهيز أدوات محددة، ورشات، وخدمات الهواتف النقالة.

Key Use Cases

  • تدفقات العمل المفتوحة أولاً: تقليل التبديل في السياق بالنسبة للمطورين الذين يفضلون الخلايا.
  • CI/CD Automation: التحقق من جودة الكود أو التحكم في المهام.
  • البحث ad-hoc: إنشاء محتوى سريع وتسجيل البيانات دون مغادرة المكون.

بالنسبة إلى المهندسين الذين يعانون من التبديل في السياق إلى شبكة الإنترنت التلفزيونية ، فإن Gemini CLI هو زيادة الإنتاجية التي يمكنك كتابةها.


Tools & Releases YOU Should Know About

Warp 2.0هو بيئة التطوير العملي التي تم تصميمها لتسريع إنشاء البرمجيات باستخدام الذكاء الاصطناعي.هذا يسمح لك بإنشاء وتصميم العديد من العاملين بشكل متزايد، كل منها يتعامل مع مهام محددة في عملية التنمية.من كتابة كود للبلاستيك إلى التحكم والتوثيق، يغطي Warp 2.0 عمليات التطوير المعقدة إلى عمليات العاملين المتحمسين، مما يجعلها مثالية لمجموعة الهندسة عالية السرعة التي تريد زيادة الإنتاجية من خلال تدفقات العمل الذكية.

Gru.aiهو مساعد تطوير الذكاء الاصطناعي الذي يدعم احتياجات برنامجك اليومية، سواء كان ذلك في كتابة ألغاز، أو في إصلاح أخطاء وقت التشغيل، أو في اختبار الكود، أو في الإجابة على الأسئلة التقنية. Gru.ai يعمل كبرنامج غير متعمد، مما يساعدك على التحرك بسرعة من خلال مهام التدوين عن طريق تقديم توصيات ذكية وذات خبرة في مجموعة واسعة من اللغات والأنماط.

GoCodeoهو عامل تطوير الذكاء الاصطناعي الكامل الذي يسمح لك بتصنيع وإجراء اختبارات وتطوير التطبيقات الكاملة بأقل تكلفة. وهو يتكامل بشكل لا يتجزأ مع Supabase لتشغيل وظائف الخلفية ويقدم تطويرًا بسهولة من خلال Vercel، مما يلغي الحاجة إلى تثبيت يدوي. سواء كنت تتصنيع نموذج أو بناء تطبيقات مستعدة للإنتاج، فإن GoCodeo يضغط ساعات العمل الهندسية إلى دقائق باستخدام تكنولوجيا الذكاء الاصطناعي.

Swimmيعزز فهم الكود والتعاون الجماهيري من خلال توفير وثائق ذات تأثير على السياق ذات القدرة على الذكاء الاصطناعي.من خلال الاستفادة من التحليلات الإستراتيجية والتفسيرات التي تم إنشاؤها من جهاز الكمبيوتر، يدمج Swimm مباشرة في IDEs مثل VSCode، JetBrains، IntelliJ، وPyCharm.ويساعد المطورين على التحكم في قواعد الكود غير المعروفة عن طريق توفير وثائق داخلية تتطور مع رمزك، مما يقلل من وقت الانضمام ويقلل من الضغوط المعرفية على الحفاظ على المعرفة التقنية بين الفريقين.


وهذا يهدد هذه المسألة »This Week in AI Engineering."

شكرا لك على التكيف! تأكد من مشاركة هذا التدوين مع أصدقائك الذين يهتمون بتكنولوجيا الذكاء الاصطناعي ونتبع المزيد من التحديثات الأسبوعية.

حتى المرة القادمة، بيت سعيد!

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks