מה תרצו לחפש?

מה תרצו לחפש?

בינה מלאכותית תשחזר טקסטים יהודיים עתיקים

ממצאים ארכיאולוגים עתיקים הקשורים לעם היהודי חשובים לחיזוק הזהות, הקשר לתרבות ולהיסטוריה, אולם רבים מהם נקרעו או דהו במהלך השנים. סטודנטים מהמחלקה להנדסת מערכות תוכנה ומידע באוניברסיטה פיתחו מערכת בינה מלאכותית שמצליחה להשלים קטעים חסרים לרבות תווים בודדים, מילים שלמות או חלקי מילים, במסגרת פרויקט הגמר שלהם. הפרויקט הוצג לאחרונה בכנס האירופאי המרכזי של בלשנות חישובית (EACL 2024) שהתקיים באי מלטה. 

כתובות בעברית וארמית משמשות מקור מידע חיוני על ההיסטוריה העתיקה של המזרח הקרוב. למרבה הצער, חלקים מסוימים של הטקסטים הפכו לבלתי קריאים עם הזמן. מומחים מיוחדים, הנקראים אפיגרפיסטים (מפענחי כתובות), משתמשים בהליכים ידניים בכדי להעריך את התוכן החסר,  אולם הליך זה גוזל זמן רב ובמקרים רבים אינו מביא את החוקרים למסקנות חד-משמעיות.

ניב פונו, הראל מושיוף, אלדר קרול, ואיתי אסרף, סטודנטים בשנה הרביעית במחלקה להנדסת מערכות תוכנה ומידע באוניברסיטת בן-גוריון בנגב, החליטו לייצר מענה עדכני לכתבים העתיקים ובהנחיית פרופ' מרק לסט, פיתחו מערכת בינה מלאכותית המשלימה את הקטעים החסרים בטקסטים העתיקים.

מחקר זה הוא הראשון ליישם מערכת של בינה מלאכותית להשלמת כתובות פגומות בעברית עתיקה ובארמית, באמצעות אותיות האלף- בית העברי המורכב בעיקר מתווי עיצור. מודל 'האנסמבל' אותו פיתחו, משלב מספר מודלים שאומנו על פסוקי התנ"ך בעברית ובארמית, בהנחה ששפת התנ"ך (ללא ניקוד) קרובה יותר לשפתם של כתבים עתיקים לעומת השפה העברית המודרנית. עד כה יושמו מספר מודלים שחזו בצורה טובה מילים שלמות, אך בצורה פחות טובה חזו חלקי מילים או תווים חסרים. 

שיטת המחקר התבססה על 1,071 פסוקים שנבחרו באקראי מהתנ"ך (536 לבדיקה ו-536 עבור אימות כקבוצת ביקורת). 22,144 פסוקי התנ"ך הנותרים שימשו להתאמת הפרמטרים של המודלים שאומנו מראש על מאגרי טקסטים בעברית של ימינו לטקסטים בעברית עתיקה. המשתמש מזין לתוך המערכת טקסט הכולל חלקים חסרים ועבור החלקים החסרים המערכת תחזיר מספר אפשרויות, כולל ההסתברות של כל השלמה אפשרית- מילה בודדת, אות או מילה חלקית.

מודל 'האנסמבל' נתגלה כמועיל ביותר לשחזור כתובות פגומות בעברית ואֲרָמִית. "אנו מאמינים שניתן להרחיב גישה זו בקלות לכתבים בשפות עתיקות אחרות העשירות מבחינה מורפולוגית ", אמר פרופ' לסט והוסיף: "באפשרותנו לעזור להיסטוריונים שעוסקים בשחזור מגילות וכתבים יהודיים עתיקים כמשימת חייהם להשלים את הטקסט החסר באופן מדויק ככל אפשר".

המאמר המחקרי המבוסס על פרויקט הגמר הוצג בכנס האירופאי המרכזי של בלשנות חישובית (EACL) שנערך לאחרונה באי מלטה. 

קבוצת המחקר. מימין לשמאל: פרופ' מרק לסט, אלדר קרול, הראל מושיוף, ניב פונו, איתי אסרף. צילום: עומר ידגר
ממצאים ארכיאולוגים עתיקים הקשורים לעם היהודי חשובים לחיזוק הזהות, הקשר לתרבות ולהיסטוריה, אולם רבים מהם נקרעו או דהו במהלך השנים. סטודנטים מהמחלקה להנדסת מערכות תוכנה ומידע באוניברסיטה פיתחו מערכת בינה מלאכותית שמצליחה להשלים קטעים חסרים לרבות תווים בודדים, מילים שלמות או חלקי מילים, במסגרת פרויקט הגמר שלהם. הפרויקט הוצג לאחרונה בכנס האירופאי המרכזי של בלשנות חישובית (EACL 2024) שהתקיים באי מלטה.  כתובות בעברית וארמית משמשות מקור מידע חיוני על ההיסטוריה העתיקה של המזרח הקרוב. למרבה הצער, חלקים מסוימים של הטקסטים הפכו לבלתי קריאים עם הזמן. מומחים מיוחדים, הנקראים אפיגרפיסטים (מפענחי כתובות), משתמשים בהליכים ידניים בכדי להעריך את התוכן החסר,  אולם הליך זה גוזל זמן רב ובמקרים רבים אינו מביא את החוקרים למסקנות חד-משמעיות. ניב פונו, הראל מושיוף, אלדר קרול, ואיתי אסרף, סטודנטים בשנה הרביעית במחלקה להנדסת מערכות תוכנה ומידע באוניברסיטת בן-גוריון בנגב, החליטו לייצר מענה עדכני לכתבים העתיקים ובהנחיית פרופ' מרק לסט, פיתחו מערכת בינה מלאכותית המשלימה את הקטעים החסרים בטקסטים העתיקים. מחקר
371

מעניין לקרוא עוד