نشرت Columbia Journalism Review مؤخرًا دراسة شاملة عبر إنفوجراف تستعرض معدلات الهلوسة في نماذج الذكاء الاصطناعي المختلفة، وهو ما يعكس الفجوة في دقة المعلومات والموثوقية بين هذه النماذج التي أصبحت جزءًا أساسيًا من الحياة الرقمية اليومية.

وتهدف الدراسة إلى تزويد المستخدمين بفهم أفضل لقدرات هذه النماذج وحدودها، خاصةً فيما يتعلق بإنتاج محتوى غير دقيق أو معلومات ملفقة، والمعروفة اصطلاحًا بـ "الهلوسة".
ووفقًا للإنفوجراف، جاء نموذج Perplexity في صدارة القائمة باعتباره الأكثر دقة والأقل هلوسة بين جميع النماذج، حيث سجل معدل هلوسة منخفض جدًا بلغ 37%، مما يجعله الخيار الأنسب للمستخدمين الذين يحتاجون إلى معلومات موثوقة وسريعة، سواء في البحث العلمي أو المجال التعليمي أو حتى عند الاستعانة به في إعداد محتوى صحفي أو إعلامي.
في المرتبة الثانية، جاء نموذج Copilot، بنسبة هلوسة بلغت 40%، وهو نموذج متقدم نسبيًا لكنه يظل بحاجة إلى التحقق من المعلومات في بعض الحالات. يليه Perplexity Pro الذي سجل نسبة هلوسة 45%، ما يعكس تحسنًا مقارنة بالنماذج الأقل دقة، لكنه لا يزال أقل موثوقية من النموذج الأصلي Perplexity.
أما نموذج ChatGPT، الذي يحظى بشعبية كبيرة عالميًا، فقد سجل معدل هلوسة بلغ 67%، وهو ما يوضح أن الاعتماد عليه بشكل كامل دون تحقق من المصادر قد يؤدي إلى تقديم معلومات غير دقيقة في بعض الأحيان. بالمقابل، سجل نموذج Deepseek نسبة هلوسة مشابهة جدًا بلغت 68%، ما يجعله قريبًا من ChatGPT من حيث مستوى الدقة وموثوقية المعلومات.
وفيما يتعلق بالنماذج الأعلى هلوسة، سجل Gemini معدل هلوسة مرتفع بلغ 76%، بينما سجل Grok-2 نسبة 77%، وهو ما يشير إلى أن هذه النماذج ما زالت تحتاج إلى تحسين كبير قبل أن تصبح مصادر موثوقة للمعلومات الدقيقة. أما نموذج Grok-3، فقد سجل أعلى معدل هلوسة بين جميع النماذج بنسبة 94%، وهو ما يعكس هشاشة موثوقيته ويجعل الاعتماد عليه مخاطرة كبيرة، خصوصًا في السياقات الحساسة مثل الأخبار أو الدراسات العلمية.
وتوضح الدراسة أن معدل الهلوسة في هذه النماذج ليس ثابتًا، بل يمكن أن يختلف حسب نوعية الأسئلة وطبيعة المحتوى، مما يجعل من المهم استخدام أكثر من نموذج للتأكد من صحة المعلومات، مع الاعتماد دائمًا على المصادر الرسمية والموثوقة. وتعتبر هذه الجهود جزءًا من محاولات المجتمع الأكاديمي والإعلامي لفهم حدود الذكاء الاصطناعي وتحسين موثوقية نتائجه.
ويؤكد التقرير أن معرفة معدلات الهلوسة لدى كل نموذج تساعد المستخدمين في اختيار النموذج الأنسب لأغراضهم المختلفة، سواء كانت تعليمية، بحثية، أو إعلامية، وتجنب الاعتماد الكامل على المعلومات غير المؤكدة. كما يبرز التقرير أهمية التقييم المستمر لهذه النماذج مع تطورها السريع لضمان أعلى مستويات الدقة والمصداقية في المستقبل.