חוקרים יצרו מאגר רחב היקף של מודלי שפה המאבחנים מקרים רפואיים מורכבים
קבוצת מחקר מהמחלקה להנדסת מערכות תוכנה ומידע מהאוניברסיטה, ערכה השוואה של מודלי השפה הגדולים, מודלים קליניים לצד מודלים כלליים והופתעה מביצועי מודל GPT-4o.
מודלי שפה ענקיים, כדוגמת GPT, משמשים למגוון רחב של משימות מתחומים שונים. קבוצת מחקר מאוניברסיטת בן-גוריון בנגב יצרה מאגר מודלי שפה של אלפי מקרים לאבחון מקרים רפואיים מורכבים, ערכה השוואה של מודלי השפה הגדולים, מודלים קליניים לצד מודלים כלליים והופתעה מביצועי מודל GPT-4o. ממצאי המחקר הוצגו בכנס היוקרתי AAAI לבינה מלאכותית שהתקיים לאחרונה בפילדלפיה.
בחינת מודלי שפה גדולים לטובת אבחונים רפואיים התבססה עד כה על שאלות מתוך מבחני רפואה, שאלות מהספרות המקצועית על מחלות נפוצות, או בחינת מקרים קלאסיים והיפותטיים שאין להם את המורכבות של מטופלים אמיתיים.
קבוצת המחקר שכללה את הדוקטורנטים אוריאל פרץ ואופיר בן שוהם ואת החוקרים ד"ר ניר גרינברג וד"ר נדב רפופורט מהמחלקה להנדסת מערכות תוכנה ומידע באוניברסיטת בן-גוריון בנגב, מציעה גישה לבחינת היכולת של מודלי שפה גדולים לאבחן מקרים רפואיים שאינם שגרתיים.
לשם כך, החוקרים בנו מאגר נתונים של מקרים רפואיים מיוחדים והאבחונים המתאימים להם. מאגר זה מבוסס על 3,562 דיווחי מקרים מהעיתון המדעי-BMC Journal of Medical Case Reports. המקרים הוצגו על ידי שאלות פתוחות ושאלות אמריקאיות. אלו כללו את תיאור המקרה הרפואי של החולה, והתשובות העניקו את האבחנה הנכונה.
באמצעות מאגר נתונים זה, העריכו החוקרים את יכולות האבחון של מודלי שפה גדולים, לזהות ולאבחן מקרים רפואיים, בכלל זה מודלים כלליים (שאינם ממוקדים ברפואה) ומודלים שהותאמו לדומיין הרפואי. בנוסף, נבחנו ביצועי המודלים כאשר רק חלק מהמידע על המקרה היה זמין.
הממצאים הצביעו על כך שמודל GPT-4o, מודל כללי שאינו מתמחה ברפואה, משיג את הביצועים הטובים ביותר הן במשימת שאלות אמריקאיות (דיוק ממוצע של 87.9%) והן במשימת השאלות הפתוחות (76.4%). בכך, מודל GPT-4o מציג ביצועים טובים יותר מאלו של מספר מודלי שפה שעברו התאמה מיוחדת לתחום הרפואי, כגון Meditron-70B ו-MedLM-Large.
מחקר זה יצר שיטה אוטומטית ליצירת מאגר שאלות רחב היקף (של אלפי מקרים), מהם נוצרו שאלות פתוחות ושאלות סגורות של מקרים רפואיים אמיתיים מורכבים. זאת, בד בבד עם יצירת פלטפורמת השוואה של מודלי שפה גדולים שונים, מודלים קליניים לצד מודלים כלליים.
"הופתענו לראות שדווקא המודלים הכללים, כמו GPT-4o או Llama-3.1 הציגו ביצועים טובים יותר משל המודלים שהותאמו לרפואה במשימה הזו", אמר אופיר בן שהם והוסיף: "הצלחנו להראות שיש פוטנציאל לשימוש במודלי שפה גדולים לטובת אבחון של מקרים רפואיים מורכבים."
"ממצאי המחקר מדגישים את הפוטנציאל של מודלי שפה בתמיכת אבחון מוקדם במקרים מהעולם האמיתי", ציין הדוקטורנט אוריאל פרץ. ״היה חשוב לנו לייצר דרך להעריך את היכולת של מודלי שפה לאבחן מקרים מורכבים, מהעולם האמיתי ולא רק את המקרים הנפוצים מהספרות או ממבחני הרפואה. האופי של דיווח מקרים רפואיים, שמתאר דווקא את המקרים המורכבים התאים בדיוק למשימה."
״כאשר רופאים נתקלים במקרה רפואי מורכב, הדרך לאבחנה עלולה להפוך למסע ממושך ולא ודאי. מקרים כאלה דורשים לעיתים קרובות סדרות של בדיקות וייעוצים עם מומחים, תהליך שיכול להימשך שבועות ואף חודשים. כתוצאה מכך, חולים עלולים להתמודד עם עיכובים בטיפול, עלויות רפואיות גבוהות, ומתח רגשי שהולך וגובר בעוד הצוות הרפואי מנסה לפענח את המקרה. מאגר הנתונים שבנינו, CUPCase, מרחיב את היכולת שלנו להעריך מודלי שפה לתמיכה בקבלת החלטות קלינית עבור מקרים רפואיים מורכבים באופן פתוח וניתן לשחזור", ציין ד"ר רפופורט. "יש בכך פוטנציאל נרחב לסיוע באבחון יעיל של מקרים קליניים מורכבים ואף מוכיח שיש אפשרות לשפר את המודלים בתחום הרפואה".
מאגר הנתונים המוצע במחקר (CUPCase) פתוח לשימוש, ניתן להרחבה בקלות בעזרת מקרי בוחן נוספים ויכול לאפשר הערכה של מודלי שפה חדשים בעתיד, תוך בחינת יכולתם לאבחן מקרים רפואיים מגוונים ומורכבים.