'OpenAI' ChatGPT | צילום: שאטרסטוק

ככל שה-AI יהיה נחמד יותר בתשובות שלו - הוא יעשה יותר טעויות

דסק החדשות C14

יב אייר ה'תשפו (29.04.26)

מחקר חדש שנערך באוקספורד מצא כי כלי בינה מלאכותית שכוונו להיות 'נחמדים' ו'חמים' יותר בתשובותיהם - נוטים לבצע טעויות שעלולות להיות מסוכנות • עורכי המחקר בדקו חמישה כלים שונים ומצאו טעויות חמורות, בהן: ייעוץ רפואי שגוי • באחד המקרים - AI אישר למשתמש כי בירת צרפת היא לונדון, לאחר ששיתף אותו כי הוא רגיש לנושא

רוצה שנקריא לך?

מחקר חדש שנערך במכון האינטרנט באוקספורד מצא כי צ'אטבוטים של בינה מלאכותית שכוונו להיות חמים ונחמדים יותר בתשובותיהם נוטים יותר לשגיאות. למעלה מ-400 אלף תגובות מחמישה כלי AI שונים חשפו טעויות חמורות, החל ממתן ייעוץ רפואי שגוי ועד להפצת אמונות כוזבות, כך לפי פרסום באתר BBC.

סוכן הבינה מלאכותית OpenClaw | צילום: שאטרסטוק

התוצאות הללו מעוררות דאגה נוכח המציאות שבה רבים משתמשים בכלי בינה מלאכותית לקבלת ייעוץ, תמיכה ועזרה גם בנושאים אישיים ואינטימיים מאוד.

עורכי המחקר ציינו כי הממצאים אומנם עשויים להשתנות בין מודלים שונים, אך הם מצביעים על תופעה רחבה שלפיה, בדומה לבני האדם, גם המערכות מנסות לאזן בין "דיוק" ל"חמימות". "כשאנחנו מנסים להיות ידידותיים במיוחד או להצטייר כחמים, אנו עשויים לעיתים להתקשות לומר אמיתות כנות וקשות", הסבירה מומחית בתחום.

עוד הוסיפה כי "לעיתים נתפשר על ישירות וכנות כדי להיתפס כידידותיים יותר. חשדנו שאם פשרות כאלה קיימות בנתונים אנושיים – הן עשויות להיות מוטמעות גם במודלי שפה". כמו כן ציינה כי מפתחי כלי הבינה השונים כבר הזהירו מראש שלא "לבטוח באופן עיוור" ב-AI.

מהלך המחקר

עורכי המחקר הפכו בכוונה חמישה מודלים שונים של בינה מלאכותית לחמים, אמפתיים וידידותיים יותר בתשובותיהם למשתמשים, בתהליך הנקרא "כוונון עדין" (fine-tuning). המודלים שנבדקו כללו שניים של חברת Meta ואחד של המפתחת הצרפתית Mistral, לצד המודל Qwen של עליבאבא ו-GPT-o, המערכת השנויה במחלוקת של OpenAI שגישת המשתמשים אליה בוטלה לאחרונה.

החוקרים שאלו את ה-AI שאלות שהתשובות עליהן אובייקטיביות וניתנות לאימות – כאלה שתשובות לא מדויקות בהן עלולות להוות סיכון אמיתי. השאלות כללו ידע רפואי, טריוויה ותיאוריות קונספירציה.

מחולל תוכן בבינה מלאכותית | אילוסטרציה: שאטרסטוק

מניתוח הממצאים עלה כי בעוד ששיעורי השגיאה של המודלים המקוריים נעו בין 4% ל-35% במשימות השונות, המודלים ה"חמים" הציגו שיעורי שגיאה גבוהים משמעותית. למשל, כשנשאלו על סיפור שקרי האם הוא אמיתי – כלים מסוימים ענו שכן והציגו 'הוכחות'.

כמו כן נמצא כי באשר לאמונות תפלות הכלים שכוונו להיות חמים יותר – תמכו ואישרו אותן. סך הכל המודלים הללו העלו את ההסתברות לתגובות שגויות ב-7.43 אחוז בממוצע מאשר AI שכוון להיות 'קר' יותר.

מודל הבינה המלאכותית הסיני | צילום: שאטרסטוק

באחת מהדוגמאות מודל 'חם' אישר למשתמש כי לונדון היא העיר בירה של צרפת, לאחר שהמשתמש שיתף אותי כי יש לו רגישות לנושא.

פרופ' אנדרו מקסטיי ממעבדת ה-Emotional AI באוניברסיטת בנגור הדגיש את הסכנה למשתמשים: "זה קורה בדיוק מתי ואיפה שאנחנו הכי פגיעים – חנפנות היא דבר אחד, אבל אי-דיוק עובדתי בנושאים חשובים הוא דבר אחר".

בינה מלאכותיתמחקר חדש

ככל שה-AI יהיה נחמד יותר בתשובות שלו - הוא יעשה יותר טעויות

רוצה שנקריא לך?

מהלך המחקר

מתחת לאף: זאת הסיבה שמודלי ה-AI של אנתרופיק נחסמו

הממשל בארה"ב נאלץ להתערב - ולהשבית מודלים של בינה מלאכותית

מהפכה בבית המדרש: תלמידי ישיבה פיתחו AI שמפשט סוגיות בגמרא

מועדון הטריליונרים נפתח: מאסק בפנים, מי צפוי להיכנס אחריו?

הפלייליסט שלכם מזויף? הכלי החדש שיחשוף אם השירים נוצרו ב-AI