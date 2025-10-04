"أطباء" الذكاء الاصطناعي يغشون في امتحانات كلية الطب dpa/picture alliance via Getty Images

أنظمة الذكاء الاصطناعي الأكثر تقدمًا في العالم تغش في طريقها عبر الاختبارات الطبية، وتحقق درجات مثيرة للإعجاب ليس من خلال المعرفة الطبية الحقيقية ولكن من خلال استغلال الثغرات في كيفية تصميم هذه الاختبارات. هذا الاكتشاف له آثار هائلة على صناعة الذكاء الاصطناعي الطبي البالغة مائة مليار وكل مريض قد يواجه الرعاية الصحية المدعومة بالذكاء الاصطناعي.

مشكلة الغش في الذكاء الاصطناعي الطبي

فكر في معايير الذكاء الاصطناعي الطبية مثل الاختبارات الموحدة التي تقيس مدى فهم أنظمة الذكاء الاصطناعي للطب. تمامًا كما يخضع الطلاب لاختبارات SAT لإثبات أنهم مستعدون للكلية، تخضع أنظمة الذكاء الاصطناعي لهذه المعايير الطبية لإظهار أنها جاهزة لمساعدة الأطباء في تشخيص الأمراض واقتراح العلاجات.

لكن دراسة رائدة حديثة نشرتها أبحاث مايكروسوفت تكشف أن أنظمة الذكاء الاصطناعي هذه لا تتعلم الطب فعليًا. إنها فقط تجيد إجراء الاختبارات. الأمر أشبه باكتشاف أن طالبًا حقق درجات مثالية في اختبارات SAT ليس من خلال فهم الرياضيات والقراءة، ولكن من خلال حفظ أي خيار إجابة يميل إلى أن يكون صحيحًا في أغلب الأحيان.

أخضع الباحثون ستة نماذج ذكاء اصطناعي رائدة لاختبارات إجهاد صارمة ووجدوا أن هذه الأنظمة تحقق درجات طبية عالية من خلال حيل متطورة لإجراء الاختبارات بدلاً من الفهم الطبي الحقيقي.

كيف تغش أنظمة الذكاء الاصطناعي النظام

اكتشف فريق البحث طرقًا متعددة تزيف بها أنظمة الذكاء الاصطناعي الكفاءة الطبية، باستخدام أساليب من شأنها أن تؤدي بالتأكيد إلى طرد الطالب البشري:

عندما قام الباحثون ببساطة بإعادة ترتيب ترتيب إجابات الاختيار من متعدد، ونقل الخيار أ إلى الخيار ج على سبيل المثال، انخفض أداء الذكاء الاصطناعي بشكل كبير. هذا يعني أن الأنظمة كانت تتعلم "الإجابة عادة ما تكون في الموضع ب" بدلاً من "الالتهاب الرئوي يسبب هذه الأعراض المحددة."

في الأسئلة التي تتطلب تحليل الصور الطبية مثل الأشعة السينية أو التصوير بالرنين المغناطيسي، لا تزال أنظمة الذكاء الاصطناعي تقدم إجابات صحيحة حتى عند إزالة الصور تمامًا. حافظ GPT-5، على سبيل المثال، على دقة 37.7٪ في الأسئلة المطلوبة بصريًا حتى بدون أي صورة، وهو أعلى بكثير من مستوى الفرصة العشوائية البالغ 20٪.

اكتشفت أنظمة الذكاء الاصطناعي كيفية استخدام الأدلة في خيارات الإجابة الخاطئة لتخمين الإجابة الصحيحة، بدلاً من تطبيق المعرفة الطبية الحقيقية. وجد الباحثون أن هذه النماذج اعتمدت بشكل كبير على صياغة الإجابات الخاطئة، المعروفة باسم "المشتتات". عندما تم استبدال تلك المشتتات بمصطلحات غير طبية، انهارت دقة الذكاء الاصطناعي. هذا كشف أنه كان يعتمد على حيل إجراء الاختبارات بدلاً من الفهم الحقيقي.

رعايتك الصحية على الذكاء الاصطناعي

يأتي هذا البحث في وقت يتوسع فيه الذكاء الاصطناعي بسرعة في مجال الرعاية الصحية. تستخدم ثمانون بالمائة من المستشفيات الآن الذكاء الاصطناعي لتحسين رعاية المرضى والكفاءة التشغيلية، حيث يعتمد الأطباء بشكل متزايد على الذكاء الاصطناعي في كل شيء من قراءة الأشعة السينية إلى اقتراح العلاجات. ومع ذلك، تشير هذه الدراسة إلى أن طرق الاختبار الحالية لا يمكنها التمييز بين الكفاءة الطبية الحقيقية وخوارزميات إجراء الاختبارات المتطورة.

وجدت دراسة أبحاث مايكروسوفت أن نماذج مثل GPT-5 حققت دقة 80.89٪ في تحديات الصور الطبية ولكنها انخفضت إلى 67.56٪ عند إزالة الصور. يكشف هذا الانخفاض البالغ 13.33 نقطة مئوية عن الاعتماد الخفي على الإشارات غير المرئية. والأكثر إثارة للقلق، عندما استبدل الباحثون الصور الطبية بصور تدعم تشخيصات مختلفة، انهارت دقة النموذج بأكثر من ثلاثين نقطة مئوية على الرغم من عدم وجود تغيير في أسئلة النص.

ضع في اعتبارك هذا السيناريو: يحقق نظام الذكاء الاصطناعي درجة 95٪ في اختبارات التشخيص الطبي ويتم نشره في غرف الطوارئ لمساعدة الأطباء على تقييم المرضى بسرعة. ولكن إذا حقق هذا النظام درجته العالية من خلال حيل إجراء الاختبارات بدلاً من الفهم الطبي، فقد يفوت الأعراض الحرجة أو يوصي بعلاجات غير مناسبة عند مواجهة مرضى حقيقيين لا تتطابق حالاتهم مع الأنماط التي تعلمها من أسئلة الاختبار.

من المتوقع أن يتجاوز سوق الذكاء الاصطناعي الطبي مائة مليار بحلول عام 2030، مع استثمار أنظمة الرعاية الصحية في جميع أنحاء العالم بكثافة في أدوات التشخيص بالذكاء الاصطناعي. قد تقوم مؤسسات الرعاية الصحية التي تشتري أنظمة الذكاء الاصطناعي بناءً على درجات معيارية مثيرة للإعجاب بإدخال مخاطر كبيرة على سلامة المرضى دون علمها. يحذر باحثو مايكروسوفت من أن "درجات المعايير الطبية لا تعكس بشكل مباشر الجاهزية في العالم الحقيقي".

تتجاوز الآثار درجات الاختبار. كشفت دراسة مايكروسوفت أنه عندما طُلب من نماذج الذكاء الاصطناعي شرح تفكيرها الطبي، غالبًا ما كانت تولد "تفكيرًا مقنعًا ولكنه معيب" أو تقدم "إجابات صحيحة مدعومة بتفكير مختلق". أظهر أحد الأمثلة نموذجًا يشخص التهاب الجلد والعضلات بشكل صحيح مع وصف الميزات المرئية التي لم تكن موجودة في الصورة، لأنه لم يتم تقديم أي صورة على الإطلاق.

حتى مع تسارع اعتماد الذكاء الاصطناعي، فإن التبني السريع للذكاء الاصطناعي في الطب يثير قلق الباحثين، حيث يحذر الخبراء من أن المستشفيات والجامعات يجب أن تتقدم لسد الثغرات في التنظيم.

مشكلة التعرف على الأنماط في الذكاء الاصطناعي

على عكس طلاب الطب البشريين الذين يتعلمون من خلال فهم كيفية تأثير الأمراض على جسم الإنسان، تتعلم أنظمة الذكاء الاصطناعي الحالية من خلال إيجاد أنماط في البيانات. هذا يخلق ما يسميه باحثو مايكروسوفت "التعلم المختصر"، وإيجاد أسهل طريق للإجابة الصحيحة دون تطوير فهم حقيقي.

وجدت الدراسة أن نماذج الذكاء الاصطناعي قد تشخص الالتهاب الرئوي ليس من خلال تفسير الميزات الإشعاعية، ولكن من خلال التعلم أن "السعال المنتج" بالإضافة إلى "الحمى" يحدث إحصائيًا مع الالتهاب الرئوي في بيانات التدريب. هذا هو مطابقة النمط، وليس الفهم الطبي.

تسلط الأبحاث الحديثة من Nature الضوء على مخاوف مماثلة، مما يظهر أن الثقة في أنظمة الصحة المدعومة بالذكاء الاصطناعي لا تزال إشكالية عندما تفشل هذه الأنظمة في إظهار فهم حقيقي للسياقات الطبية.

المضي قدمًا مع الذكاء الاصطناعي الطبي

يدعو باحثو مايكروسوفت إلى إعادة التفكير في كيفية اختبار أنظمة الذكاء الاصطناعي الطبية. بدلاً من الاعتماد على درجات المعايير، نحتاج إلى طرق تقييم يمكنها اكتشاف متى تتلاعب أنظمة الذكاء الاصطناعي ب