رغم تفوقه في البرمجة.. نماذج الذكاء الاصطناعي تخفق في التاريخ
نعم — من الدلائل الحديثة أنّ نماذج الذكاء الاصطناعي، رغم تفوقها في بعض المهام (مثل البرمجة أو تحليل النصوص) — تفشِل أو تتسبّب في أخطاء كبيرة عند التعامل مع مجالات مثل التاريخ، أو الفهم العميق، أو التفسير السياقي. إليك تحليل لما يحدث، مع أمثلة، ولماذا ذلك مهم.
—
🔍 ماذا نرى من الأخطاء في التاريخ؟
* أُجريت دراسة من Complexity Science Hub (CSH) في فيينا، اختبرت نماذج كبيرة مثل GPT‑4 Turbo و Llama 3.1‑8B في أسئلة تاريخية على مستوى خبراء. هذه النماذج حقّقت فقط نحو **46٪ دقة** في اختيار إجابة صحيحة من بين 4 خيارات. ([AZoAi][1])
* الدراسة خلصت إلى أن الأداء أسوأ في الفترات التاريخية الأقرب إلى الحاضر، أو في مناطق مثل أفريقيا جنوب الصحراء والمحيط الهادئ، ما يدل على تحيّز أو قصور في تغطية البيانات التاريخية. ([PsyPost – Psychology News][2])
* أحد الأمثلة: النموذج أجاب بأن لدى مصر القديمة جيشاً دائماً (standing army)، رغم أن الأمر غير مؤكد أو معتمد تاريخياً في تلك الفترة.
—
🧮 لماذا يحدث هذا؟
هناك عدة أسباب تفسّر لماذا نماذج الذكاء الاصطناعي تخطئ في التاريخ، منها:
* **الاعتماد على البيانات والتعميم**: النماذج غالباً ما تستند إلى بيانات أكثر وفرة في بعض الحضارات أو الفترات التاريخية، فتتعامل مع الحالات الأخرى بتعميم خاطئ. مثلاً: «جيش دائم = حضارة متقدمة» فتطبق التعميم على مصر وظنّت وجوده. ([AZoAi][1])
* **غياب “فهم” الحقل**: التاريخ يتطلب ليس فقط معلومات، بل تفسيراً للعوامل، السياق، المصادر الأولية، الصراعات، التحيّزات، التداخلات الثقافية، إلخ. النماذج حالياً تفتقر إلى هذا النوع من الفهم العميق. ([Reddit][4])
* **انخفاض التمثيل لبيانات بعض المناطق والفترات**: البيانات أو الترجمات أو المصادر التاريخية لبعض المناطق أقلّ تمثيلاً، مما يؤدي إلى أداء أضعف فيها. ([AZoAi][1])
* **ظاهرة “انهيار النموذج” أو Model Collapse**: عند تدريب النموذج بشكل متكرّر على مخرجاته الخاصة أو على بيانات مشتقة، يمكن أن يفقد التنوع أو التفاصيل الدقيقة — ما يزيد من الأخطاء. ([media.nature.com][5])
* **فرق طبيعة المهمة**: بعض المهام (كتوليد الشيفرة أو الترجمة) لديها قواعد ومنطق نسبي واضح؛ لكن التاريخ فيه غموض، تفسيرات متعددة، بيانات ناقصة — مما يجعل المهمة أصعب تماماً.
—
✅ لماذا هذا الموضوع مهم؟
* إذا اعتمدنا على الذكاء الاصطناعي لتعليم التاريخ أو إعداد الأبحاث أو بناء محتوى تعليمي، فقد ينتج معلومات خاطئة أو مضلّلة.
* يعكس أنّ قدرات الذكاء الاصطناعي ليست مطابقة للبشر في كل المجالات، خاصة المجالات التي تتطلب تفكيراً تاريخياً أو تحليلياً عميقاً.
* يُذكّرنا بضرورة **المراجعة البشرية** عند استخدام هذه النماذج في المجالات الحساسة مثل التعليم أو البحث.
* يساهم في تحديد حدود ما يمكن توقعه من الذكاء الاصطناعي اليوم، وتحديد مجالات يحتاج فيها بحث أكبر أو تطوير خاص.
—
🚀 ما المطلوب لتحسين الوضع؟
* تحسين جودة البيانات التاريخية التي تُدخَل في تدريب النماذج: المزيد من المصادر الأولية، تغطية أوسع للفترات/المناطق، تنوّع لغوي وثقافي.
* تطوير نماذج قادرة على التمييز بين “معلومة مؤكّدة” و”تفسير/رأي تاريخي” أو “احتمال”.
* تعزيز الشرح/التفسير داخل النماذج: أن تقول “أنا لست متأكداً” أو “هذه النظرة متنازع عليها” بدلاً من تقديم إجابة نهائية فقط.
* وضع معايير استخدام هذه النماذج في التعليم والبحث: يُستخدم كمساعد، وليس كبديل.
* دمج خبراء التاريخ في تصميم واختبار هذه النماذج: ليقدّموا “التحدي” الحقيقي للنموذج في الفهم والتفسير.
رغم تفوقه في البرمجة.. نماذج الذكاء الاصطناعي تخفق في التاريخ