من "OpenAI"... نماذج صوتية جديدة للتفاعلات الصوتية والترجمة الفورية

كشفت OpenAI النقاب عن ثلاثة نماذج صوتية جديدة في الوقت الفعلي تستهدف المطورين الذين يعملون على المساعدين الصوتيين والترجمة الفورية وتطبيقات تحويل الكلام إلى نص مباشرةً من خلال واجهات برمجة التطبيقات الخاصة بها.

وتضم المجموعة الجديدة نماذج GPT-Realtime-2، وGPT-Realtime-Translate، وGPT-Realtime-Whisper، وتقول الشركة إنها توفر المزيد من التفاعلات الصوتية الطبيعية، مع دعم الترجمة المباشرة، وتحويل الكلام إلى نص بسرعة استجابة عالية.

ويعتبر GPT-Realtime-2 أبرز هذه النماذج؛ وهو مصمم لإدارة المحادثات الصوتية المباشرة، مع القدرة على تحليل الطلبات، واستدعاء الأدوات، والتعامل مع التصحيحات، ومواصلة الحوار بشكل طبيعي.

أضافت OpenAI العديد من الميزات الجديدة إلى النموذج، بما في ذلك القدرة على تقديم عبارات تمهيدية قصيرة مثل “دعني أتحقق من هذا” قبل تنفيذ المهمة، مع دعم استدعاء عدة أدوات بالتوازي لإبقاء المستخدم على اطلاع بما يحدث.

قامت الشركة بتحسين آليات التعامل مع الأخطاء. أصبح النموذج يستجيب بشكل أكثر سلاسة عند حدوث مشكلة بدلاً من التوقف بصمت، بالإضافة إلى توسيع نافذة السياق من 32 ألف رمز إلى 128 ألف رمز.

وتقول OpenAI إن النموذج الجديد يوفر فهمًا أفضل للمصطلحات المتخصصة والأسماء العلمية والمفردات الطبية، مع دعم التحكم في نبرة الكلام وفقًا لطبيعة الموقف. كما يتيح للمطورين اختيار مستوى التفكير والاستدلال بين عدة مستويات.

يستهدف نموذج GPT-Realtime-Translate تجارب الترجمة الصوتية متعددة اللغات مع الأداء في الوقت الفعلي؛ وهو يدعم ترجمة أكثر من 70 لغة إدخال إلى 13 لغة إخراج. وتؤكد الشركة أن النموذج يحافظ على المعنى مع مواكبة سرعة المتحدث، حتى عند استخدام اللهجات المحلية أو المصطلحات المتخصصة.

أما GPT-Realtime-Whisper فهو نموذج مخصص لتحويل الكلام إلى نص مباشر مع زمن استجابة منخفض، ويمكنه تحويل الكلام إلى نص أثناء الكلام، مما يجعله مناسبًا للترجمة الفورية وتسجيل الاجتماعات والمحاضرات الدراسية وغيرها.

لقد أتاحت OpenAI جميع النماذج الثلاثة عبر واجهات برمجة تطبيقات Realtime، حيث يبدأ السعر من 32 دولارًا لكل مليون رمز مميز لإدخال الصوت و64 دولارًا لكل مليون رمز مميز لإخراج الصوت لنموذج GPT-Realtime-2، في حين تبلغ تكلفة GPT-Realtime-Translate حوالي 0.034 دولارًا أمريكيًا للدقيقة، وتكلفة GPT-Realtime-Whisper حوالي 0.017 دولارًا أمريكيًا للدقيقة.

وتشير الشركة إلى أنه يمكن للمطورين تجربة النماذج الجديدة عبر منصة Playground، وأنها ستواصل العمل على تحسين تجربة الصوت داخل ChatGPT للمستخدمين العاديين. (ايت نيوز)