מחקר חדש שנערך במכון האינטרנט באוקספורד מצא כי צ'אטבוטים של בינה מלאכותית שכוונו להיות חמים ונחמדים יותר בתשובותיהם נוטים יותר לשגיאות. למעלה מ-400 אלף תגובות מחמישה כלי AI שונים חשפו טעויות חמורות, החל ממתן ייעוץ רפואי שגוי ועד להפצת אמונות כוזבות, כך לפי פרסום באתר BBC.

התוצאות הללו מעוררות דאגה נוכח המציאות שבה רבים משתמשים בכלי בינה מלאכותית לקבלת ייעוץ, תמיכה ועזרה גם בנושאים אישיים ואינטימיים מאוד.
עורכי המחקר ציינו כי הממצאים אומנם עשויים להשתנות בין מודלים שונים, אך הם מצביעים על תופעה רחבה שלפיה, בדומה לבני האדם, גם המערכות מנסות לאזן בין "דיוק" ל"חמימות". "כשאנחנו מנסים להיות ידידותיים במיוחד או להצטייר כחמים, אנו עשויים לעיתים להתקשות לומר אמיתות כנות וקשות", הסבירה מומחית בתחום.

עוד הוסיפה כי "לעיתים נתפשר על ישירות וכנות כדי להיתפס כידידותיים יותר. חשדנו שאם פשרות כאלה קיימות בנתונים אנושיים – הן עשויות להיות מוטמעות גם במודלי שפה". כמו כן ציינה כי מפתחי כלי הבינה השונים כבר הזהירו מראש שלא "לבטוח באופן עיוור" ב-AI.
מהלך המחקר
עורכי המחקר הפכו בכוונה חמישה מודלים שונים של בינה מלאכותית לחמים, אמפתיים וידידותיים יותר בתשובותיהם למשתמשים, בתהליך הנקרא "כוונון עדין" (fine-tuning). המודלים שנבדקו כללו שניים של חברת Meta ואחד של המפתחת הצרפתית Mistral, לצד המודל Qwen של עליבאבא ו-GPT-o, המערכת השנויה במחלוקת של OpenAI שגישת המשתמשים אליה בוטלה לאחרונה.
החוקרים שאלו את ה-AI שאלות שהתשובות עליהן אובייקטיביות וניתנות לאימות – כאלה שתשובות לא מדויקות בהן עלולות להוות סיכון אמיתי. השאלות כללו ידע רפואי, טריוויה ותיאוריות קונספירציה.

מניתוח הממצאים עלה כי בעוד ששיעורי השגיאה של המודלים המקוריים נעו בין 4% ל-35% במשימות השונות, המודלים ה"חמים" הציגו שיעורי שגיאה גבוהים משמעותית. למשל, כשנשאלו על סיפור שקרי האם הוא אמיתי – כלים מסוימים ענו שכן והציגו 'הוכחות'.
כמו כן נמצא כי באשר לאמונות תפלות הכלים שכוונו להיות חמים יותר – תמכו ואישרו אותן. סך הכל המודלים הללו העלו את ההסתברות לתגובות שגויות ב-7.43 אחוז בממוצע מאשר AI שכוון להיות 'קר' יותר.

באחת מהדוגמאות מודל 'חם' אישר למשתמש כי לונדון היא העיר בירה של צרפת, לאחר שהמשתמש שיתף אותי כי יש לו רגישות לנושא.
פרופ' אנדרו מקסטיי ממעבדת ה-Emotional AI באוניברסיטת בנגור הדגיש את הסכנה למשתמשים: "זה קורה בדיוק מתי ואיפה שאנחנו הכי פגיעים – חנפנות היא דבר אחד, אבל אי-דיוק עובדתי בנושאים חשובים הוא דבר אחר".
