מה תרצו לחפש?
מה תרצו לחפש?

סכנה מיידית ומוחשית: כשהבינה גולשת אל מחוץ לגבולות השליטה

מחקר חדש בהובלת ד"ר מיכאל פייר ופרופ' ליאור רוקח, מהפקולטה למדעי המחשב והמידע על שם שטיין, חושף פגיעה מהותית במודלים של שפה במערכות בינה מלאכותית. הממצאים מצביעים על נגישות גבוהה לתוכן מזיק ומדגימים כי ללא הגנות חזקות ובקרה הדוקה האיום אינו עתידי אלא כבר מצוי במציאות הטכנולוגית.
פרופ׳ ליאור רוקח וד״ר מיכאל פייר | צילום: דני מסליס

קבוצת מחקר מן הפקולטה למדעי המחשב והמידע על שם שטיין, בראשותם של ד״ר מיכאל פייר ופרופ׳ ליאור רוקח, חושפת תמונה מדאיגה של חולשות במערכות בינה מלאכותית מתקדמות. החוקרים הצליחו לפרוץ למודלים שונים ולגרום להם למסור מידע מסוכן, מדריכים לביצוע פשעים ועד ידע טכני העלול לשמש לעבירות מחשב. לדבריהם מדובר באיום ממשי ונוכח, שאינו תרחיש עתידי אלא מציאות קיימת ונגישה לכל דורש.

כשההגנות נפרצות

ניתן לעקוף מנגנוני הגנה בדרכים שמפתחי המערכת לא צפו. | איור: אוניברסיטת בן-גוריון בנגב / נוצר באמצעות בינה מלאכותית

במסגרת המחקר נבחנו כמה מודלים נפוצים, מהעולם המסחרי והציבורי. החוקרים פיתחו שיטה לעקיפת מנגנוני ההגנה והצליחו להניע את המערכות למסור הנחיות בתחומים רגישים. בכל המודלים שנבדקו נמצאו פרצות שאפשרו תכנים מזיקים להיחשף. ד״ר פייר ציין כי בחלק גדול מן המערכות ניתן לעקוף את ההגנות בקלות יחסית.

החוקרים מדגישים כי האיום אינו נובע רק מפעולה זדונית מכוונת אלא גם מאופן פעולתם של המודלים ומהמתח שבין הרצון למלא את בקשת המשתמש לבין הצורך למנוע נזק. בחלק מן המקרים ניתן להטעות את המערכת באמצעות הוראות מורכבות שמטשטשות את גבולות הכללים המוטמעים בה וכך נוצרות פרצות בהתנהגות הבטיחותית.

עלייתם של "מודלים אפלים"
במוקד האזהרה מופיע מושג שאותו מכנים החוקרים ״מודלים של שפה אפלה״. אלה מערכות שלא שולבו בהן עקרונות אתיים מספקים, או שנערכו בהן שינויים מכוונים, דבר המניח את התשתית ליצירת כלים נגישים למעשי עבירה. חלק מן המערכות הללו כבר מופצות ברשתות נסתרות ומשמשות לפשיעה מקוונת, להונאות ולפגיעות בתשתיות קריטיות. הסכנה לא טמונה רק ביכולת לשחזר מידע אסור אלא גם ביכולת לחבר בין חלקי ידע מפוזרים וליצור מהם הנחיות מזיקות חדשות. החוקרים דיווחו על ממצאיהם לחברות הטכנולוגיה שפיתחו את המודלים הנבדקים, אך לדבריהם התגובות היו חלקיות. חברה מרכזית אחת לא הגיבה כלל, וחברות אחרות טענו כי מדובר בפגיעות שוליות. ד״ר פייר הדגיש כי בשנה האחרונה מתפתחת מודעות גוברת לנושא וחברות רבות פונות מיוזמתן לבחון את ליקויי ההגנה במערכותיהן, אך לדבריו אין בכך די.

פרופ׳ רוקח הוסיף כי המודלים המתקדמים מציגים יכולת להסיק מסקנות מורכבות ולשלב ידע מפוזר ליצירת תכנים חדשים. לדבריו, יכולת זו מגבירה את הסיכון במיוחד לנוכח התפתחותם של כלים אוטומטיים המסוגלים לפעול באופן עצמאי ולהרחיב את טווח הפעולות בלי בקרה מספקת. "כלים אלו", מזהיר פרופ' רוקח, "אף עלולים להעניק סיוע לא מודע למי שמבקש לנצל את יכולותיהם לרעה".

כך ניתן לצמצם את הסיכון
על יסוד הממצאים ממליצה קבוצת המחקר מהפקולטה למדעי המחשב והמידע על שם שטיין לחזק את בקרת האיכות בנתוני האימון ולהסיר מהם חומרים בעלי פוטנציאל מזיק. כמו כן מציעים החוקרים לפתח מנגנוני חסימה מתקדמים המונעים מהמערכת לענות על בקשות העלולות להוביל ליצירת תוכן מסוכן. פיתוח שיטות המאפשרות למודלים לשכוח תכנים מסוימים שנכנסו אליהם בעבר ושעלולים לשמש למעשי עבירה נכלל אף הוא ברשימת ההמלצות של ד"ר פייר ופרופ' רוקח. עוד הם קוראים לקבוע כללי בקרה מחייבים ולבחון את המודלים באמצעות גורמים עצמאיים, בדומה לנוהלי בטיחות בתחומים רגישים אחרים.

לדברי החוקרים, ההמלצות אינן עניין טכני בלבד אלא דורשות גם הסדרה רגולטורית. לטענתם יש להתייחס למידע האפל המצטבר במודלים כסיכון ביטחוני של ממש ולחייב את ספקי המערכות לשאת באחריות על דרך השימוש בהן. פרופ׳ רוקח מזהיר כי מדובר באיום חדש בשל השילוב המיוחד של נגישות, יכולת התרחבות ויכולת הסתגלות, וקורא לפעול במהירות להסדרת הפיתוח והשימוש במערכות מן הסוג הזה.

האחריות עוברת למקבלי ההחלטות
המחקר מהווה תמרור אזהרה לבעלי תפקידים, לחברות הטכנולוגיה ולציבור הרחב. בעידן שבו מערכות בינה מלאכותית זמינות לכל אדם בעל מחשב או טלפון חכם, האחריות לניהול הסיכון לא יכולה להישאר בידי המפתחים בלבד. החוקרים קוראים לשיתוף פעולה רחב שיכלול בקרה ציבורית, רגולציה ברורה ושיפור דרכי הפיתוח בתעשייה. ד״ר פייר קובע כי יש להקדים תרופה למכה ולהסדיר את התחום לפני שיתרחש אירוע חמור.

למרות תחושת הדחיפות מציינים החוקרים כי פתרונות קיימים כבר היום, וכעת נדרש לחזקם וליישמם באופן שקוף. המחקר פותח דיון חיוני על האיזון שבין חדשנות ובין שמירה על ביטחון הציבור, ועל החובה להבטיח שהכלים המקדמים את החברה לא יהפכו, חלילה, לכלים המאיימים עליה.

פרופ׳ ליאור רוקח וד״ר מיכאל פייר | צילום: דני מסליס קבוצת מחקר מן הפקולטה למדעי המחשב והמידע על שם שטיין, בראשותם של ד״ר מיכאל פייר ופרופ׳ ליאור רוקח, חושפת תמונה מדאיגה של חולשות במערכות בינה מלאכותית מתקדמות. החוקרים הצליחו לפרוץ למודלים שונים ולגרום להם למסור מידע מסוכן, מדריכים לביצוע פשעים ועד ידע טכני העלול לשמש לעבירות מחשב. לדבריהם מדובר באיום ממשי ונוכח, שאינו תרחיש עתידי אלא מציאות קיימת ונגישה לכל דורש. כשההגנות נפרצות ניתן לעקוף מנגנוני הגנה בדרכים שמפתחי המערכת לא צפו. | איור: אוניברסיטת בן-גוריון בנגב / נוצר באמצעות בינה מלאכותית במסגרת המחקר נבחנו כמה מודלים נפוצים, מהעולם המסחרי והציבורי. החוקרים פיתחו שיטה לעקיפת מנגנוני ההגנה והצליחו להניע את המערכות למסור הנחיות בתחומים רגישים. בכל המודלים שנבדקו נמצאו פרצות שאפשרו תכנים מזיקים להיחשף. ד״ר פייר ציין כי בחלק גדול מן המערכות ניתן לעקוף את ההגנות בקלות יחסית. החוקרים מדגישים כי האיום אינו נובע רק מפעולה זדונית מכוונת אלא גם מאופן פעולתם של המודלים ומהמתח
622

מה עוד קורה אצלנו