تثير دراسة حديثة أجرتها فرق بحثية في كلية الطب بجامعة هارفارد ومستشفى بيث إسرائيل ديكونيس في بوسطن نقاشاً واسعاً حول الدور المستقبلي للذكاء الاصطناعي في غرف الطوارئ، بعد أن أظهرت أن نموذجاً متقدماً من نماذج اللغة الكبيرة طورته شركة «أوبن إيه آي» والمعروف باسم o1-preview استطاع تحقيق أداء تشخيصي يفوق مجموعة من الأطباء المتخصصين في الطب الباطني العاملين في قسم الطوارئ، وذلك عند التعامل مع حالات سريرية حقيقية مأخوذة من السجلات الطبية الإلكترونية للمرضى.
ووفقاً لنتائج الدراسة المنشورة في مجلة «ساينس» المتخصصة، تمكن النموذج من اقتراح التشخيص الصحيح أو الأقرب إلى الصواب في نحو ثلثي الحالات التي خضع لها، بينما تراوحت دقة الأطباء الذين تمت مقارنتهم به بين النصف والخمسة وخمسين في المائة تقريباً، في مرحلة مبكرة من مسار المريض داخل الطوارئ حيث تكون المعلومات المتاحة قليلة والضغط الزمني عالياً.
اعتمد الباحثون على مجموعة من الحالات الواقعية التي استقبلها قسم الطوارئ في أحد المستشفيات الجامعية في بوسطن، واستخرجوا بياناتها من السجلات الطبية الإلكترونية بحيث تشمل المعطيات الأساسية عن المريض، مثل العمر والجنس والتاريخ المرضي والعلاجات السابقة، إضافة إلى المؤشرات الحيوية الأولية وملاحظات الممرضين في لحظة الدخول. ثم قُدمت هذه البيانات نفسها إلى الأطباء المشاركين وإلى النموذج اللغوي، دون أي صور شعاعية أو فحوص تصويرية متقدمة، وطُلب من كل طرف وضع قائمة بالتشخيصات المحتملة مرتبة بحسب الترجيح، إلى جانب اقتراح الفحوص الإضافية التي ينبغي طلبها لتأكيد أو استبعاد هذه الاحتمالات. وتمت مراجعة الإجابات من قبل لجنة مستقلة من الخبراء لتقييم مدى قربها من التشخيص النهائي الذي ثبت لاحقاً في الملف الطبي لكل مريض.
أظهرت النتائج أن النموذج تمكن في مرحلة التقييم الأولي من إدراج التشخيص الصحيح أو شبه الصحيح ضمن قائمة الاحتمالات في نحو سبعة وستين في المائة من الحالات، مقابل ما بين خمسين وخمسة وخمسين في المائة لدى الطبيبين اللذين جرى اختيارهما للمقارنة، وهما من الأطباء ذوي الخبرة في الطب الباطني العاملين في بيئة الطوارئ. وعندما أضيفت معلومات سريرية لاحقة إلى المعطيات الأولية، مثل نتائج بعض التحاليل المخبرية أو تفاصيل إضافية من الفحص السريري، تحسن أداء جميع الأطراف، إلا أن الفارق بين النموذج والأطباء ضاق وأصبح أقل لفتاً للانتباه، إذ ارتفعت دقة النموذج إلى أكثر من ثمانين في المائة تقريباً، بينما تراوح أداء الأطباء بين سبعين وتسعة وسبعين في المائة. ويرى الباحثون أن هذا التفاوت يعكس ميزة النماذج اللغوية في الاستفادة القصوى من عدد محدود من المؤشرات المبكرة، مقارنة بالطبيب الذي يفضل عادة انتظار مزيد من الأدلة قبل ترجيح تشخيص بعينه.
وفي تجربة أخرى ضمن الدراسة نفسها، اختبر الفريق العلمي قدرات النموذج على التعامل مع حالات معقدة مستمدة من المؤتمرات الإكلينيكية التشخيصية التي ينظمها «نيو إنغلاند جورنال أوف ميديسن»، حيث تُعرض حالات نادرة أو مركبة يتم مناقشتها على مدى صفحات عدة قبل الوصول إلى التشخيص النهائي. وفي هذا السياق، استطاع النموذج إدراج التشخيص الصحيح ضمن قائمته في ما يقرب من ثمانية وسبعين في المائة من الحالات، وهو مستوى أداء يتقاطع مع ما أظهرته اختبارات سابقة لنماذج لغوية على أسئلة الامتحانات الطبية المتقدمة، لكنه يلفت الانتباه لأنه تحقق في سياق حالات معقدة وليست أسئلة متعددة الخيارات مصاغة بطريقة أكاديمية. ويشير القائمون على الدراسة إلى أن هذه النتائج تؤكد قدرة هذه النماذج على تتبع سرد سريري متشعب وبناء سلسلة منطقية من الفرضيات والاستنتاجات، عبر ما يعرف بالاستدلال خطوة بخطوة.
مع ذلك، يحرص الباحثون على التأكيد أن التجربة لا تعني أن النموذج قادر على تولي مسؤولية التشخيص في غرف الطوارئ بصورة مستقلة، بل إن تصميمها ذاته يكشف حدودها بوضوح. فالنموذج تعامل حصراً مع نصوص مكتوبة داخل السجل الطبي، دون أن يواجه المريض وجهاً لوجه أو يلاحظ سلوكه وتعابير وجهه وصوته، وهي عناصر غالباً ما تؤثر في حكم الطبيب، خصوصاً في الحالات الحرجة أو في الحالات التي يواجه فيها المريض صعوبة في وصف ما يشعر به بدقة.
كما أن الدراسة لم تشمل فحوص التصوير الطبقي أو الرنين المغناطيسي أو الأشعة العادية، ولم تختبر أداء النموذج خلال الإقامة الطويلة في المستشفى أو في سياقات تتطلب قرارات متدرجة بناء على تطور حالة المريض يوماً بعد آخر. وبالتالي، فإن ما تم قياسه هو جانب محدد من الممارسة الطبية، يتعلق بالاستدلال التشخيصي المبكر على أساس معلومات نصية جزئية.
إضافة إلى ذلك، أُجريت التجربة في مركز جامعي واحد داخل منظومة صحية محددة، ما يجعل تعميم النتائج على بيئات أخرى أمراً يحتاج إلى حذر. فاختلاف أنماط الأمراض المنتشرة في كل بلد، وتفاوت البنية التحتية للمستشفيات، وتنوع أساليب تدوين السجلات الطبية، كلها عوامل قد تؤثر في أداء النموذج إذا طُبق في مكان آخر. كما أن النماذج اللغوية تُدرَّب على كم هائل من البيانات التاريخية التي تحمل بدورها بصمات الانحيازات القائمة في أنظمة الصحة، سواء في طريقة تشخيص بعض الفئات السكانية أو في أسلوب وصف الأعراض لدى مجموعات بعينها، ما يفتح الباب أمام احتمال إعادة إنتاج تلك الانحيازات في التوصيات الآلية. ولهذا يدعو الباحثون إلى إجراء تجارب واسعة النطاق في بيئات مختلفة، مع مراقبة دقيقة لآثار استخدام هذه الأدوات على جودة الرعاية الصحية وعدالتها.
في ضوء هذه المعطيات، يميل كثير من المتخصصين في الطب الرقمي إلى تصور دور هذه النماذج في المدى القريب كأدوات مساندة للقرار السريري لا بدائل عنه، على أن تُستخدم بمثابة رأي ثانٍ يساعد الطبيب على مراجعة تشخيصه، والتنبه لاحتمالات قد تكون أقل حضوراً في ذهنه تحت ضغط الوقت وكثافة الحالات في الطوارئ. وقد ترى بعض المستشفيات في هذه التقنية وسيلة لتقليل الأخطاء الناتجة عن التعب والإرهاق الذهني، من خلال تمكين الأطباء من مقارنة تقديراتهم مع توصيات نموذج يستند إلى ملايين الأنماط السريرية المستخلصة من البيانات. غير أن تحويل هذه الرؤية إلى واقع عملي يتطلب إجابات واضحة عن أسئلة المسؤولية القانونية عند حدوث خطأ، وآليات حماية خصوصية المرضى في حال الاعتماد على نماذج تُطوَّر وتُشغَّل غالباً خارج حدود المؤسسة الصحية أو حتى خارج البلد.
في المقابل، تطرح الدراسة نفسها تساؤلات حول كيفية تأثير هذه الأدوات في تكوين الأطباء الشباب، إذا بات بمقدورهم الاعتماد بسهولة على نظام آلي يقدم قائمة مرتبة من الاحتمالات التشخيصية مع تبرير لكل منها. فهناك من يرى أن هذا النوع من المساعدة قد يمنح الأطباء في طور التدريب فرصة للتعلم منطق الاستدلال الطبي بشكل منهجي، بينما يخشى آخرون أن يؤدي الإفراط في الاعتماد على الآلة إلى تراجع المهارات السريرية الأساسية التي تبنى على تراكم الخبرة الشخصية وملاحظة الفروق الدقيقة بين المرضى، وهي عناصر يصعب اختزالها في نصوص أو أرقام. وبين هذين الموقفين، يبدو أن التحدي الأكبر خلال السنوات المقبلة سيكون في إيجاد توازن يضمن استفادة منظومات الصحة من قدرات الاستدلال المتقدمة لدى النماذج اللغوية، دون أن تفقد المهنة جوهرها الإنساني الذي يقوم على العلاقة المباشرة بين الطبيب والمريض وعلى مسؤولية القرار التي لا تزال محصورة في يد الإنسان.