تكامل ChatGPT مع أدوات الوسائط المتعددة (الصور، الصوت، والفيديو) مقاله علميه للتدريسية م.م نجوان ثائر علي

تكامل ChatGPT مع أدوات الوسائط المتعددة (الصور، الصوت، والفيديو) مقاله علميه للتدريسية م.م نجوان ثائر علي

17/03/2026

499

أصبح ChatGPT مثالاً واضحاً على تطور الذكاء الاصطناعي من أداة نصية تقليدية إلى بيئة متعددة الوسائط تستطيع التعامل مع أكثر من نوع واحد من المحتوى داخل تجربة واحدة. وتوضح OpenAI أن GPT-4o صُمم للتعامل مع النص والصوت والصورة والفيديو، مع القدرة على إنتاج مخرجات نصية وصوتية وبصرية، وهو ما يجعل التفاعل مع النظام أكثر طبيعية ومرونة مقارنة بالأدوات النصية فقط. في جانب الصور، يبرز هذا التكامل من خلال قدرة ChatGPT على فهم الصور المرفوعة من المستخدم، وكذلك إنشاء الصور وتحريرها داخل سياق المحادثة. وتذكر OpenAI أن 4o image generation يتميز باتباع التعليمات بدقة، وإظهار النصوص داخل الصور بشكل أفضل، والاستفادة من سياق الدردشة نفسه، بما في ذلك تحويل الصور المرفوعة أو استخدامها كمرجع بصري. وهذا يجعل استخدام الصور داخل ChatGPT ليس مجرد إضافة شكلية، بل وسيلة عملية للشرح والتصميم والتواصل البصري. أما في جانب الصوت، فإن ChatGPT يقدّم محادثات صوتية مباشرة تسمح للمستخدم بالتحدث إليه واستلام الردود بصوت مسموع. ووفق مركز المساعدة لدى OpenAI، فإن المحادثات الصوتية متاحة للمستخدمين المسجلين على تطبيقات الهاتف والويب المكتبي، وهي مبنية على نماذج متعددة الوسائط. كما توضح OpenAI أن نمط التسجيل Record يمكنه تفريغ التسجيلات الصوتية وتلخيص الاجتماعات والملاحظات الصوتية، ثم تحويلها إلى مخرجات مفيدة مثل الخطط أو الرسائل أو المسودات، مع التنبيه إلى ضرورة مراجعة المعلومات المهمة والحصول على الموافقات القانونية عند تسجيل الآخرين. وفيما يتعلق بالفيديو، فإن التكامل يظهر بطريقتين. الأولى داخل تجربة ChatGPT الصوتية المتقدمة، حيث أوضحت OpenAI في ملاحظات الإصدار أنها بدأت طرح إمكانات الفيديو المباشر ومشاركة الشاشة ورفع الصور داخل Advanced Voice على تطبيقات الهاتف، مع خضوع هذه الميزات لحدود استخدام يومية وتفاوت في الإتاحة حسب الخطة والمنطقة. والطريقة الثانية هي عبر Sora، حيث تشرح OpenAI أن المستخدم يمكنه بدء إنشاء الفيديو من وصف نصي أو من صورة مرفوعة، مع إمكانات إضافية مثل إعادة المزج والقص والتمديد والدمج، بينما تشير صفحة Sora إلى أن المنصة تضيف الحركة والصوت والحوار والمؤثرات لتكوين مشهد أكثر اكتمالاً. تكمن أهمية هذا التكامل في أنه يوحّد سير العمل الإبداعي داخل مساحة واحدة. فبدلاً من التنقل بين برنامج للصور وآخر للتفريغ الصوتي وثالث للفيديو، يستطيع المستخدم أن يطلب من ChatGPT شرح صورة، أو تلخيص تسجيل، أو توليد فكرة مرئية، أو إعداد وصف لفيديو، ثم تطوير الناتج نفسه داخل الحوار ذاته. هذا الدمج بين الفهم والإنتاج والتحرير يجعل ChatGPT أداة أقرب إلى مساعد رقمي شامل، لكنه يظل بحاجة إلى إشراف بشري للتحقق من الدقة ومراعاة الخصوصية والحقوق وحدود الاستخدام. جامعة المستقبل الجامعة الأولى في العراق.