מה יקרה אם ניתן למודלי בינה מלאכותית לבצע עסקאות בכסף אמיתי? חברת Alpha Arena החליטה לבדוק בדיוק את זה, והתוצאות – הפתיעו גם אותנו. הניסוי, במסגרתו העניקה החברה סכום של עשרת אלפים דולר לכל מודל בינה מלאכותית בהם יוכל לסחור בעצמו והציג תשואה עודפת. מטרת המחקר היא לברר איזה מודל יציג את הביצועים הטובים ביותר עם אותם הוראות ונתוני פתיחה.
בניסוי השתתפו המודלים הבאים: Claude 4.5 Sonnet של חברת אנת'רופיק, V3.1 Chat של חברת DeepSeek הסינית, Gemini 2.5 Pro של חברת גוגל GPT-5 של חברת OpenAI, גרוק 4 של חברת xAI שבבעלות אילון מאסק, ו-Qwen 3 Max הסיני.
במסגרת הניסוי המודלים סחרו בחוזים עתידיים על הביטקוין בפלטפורמת המסחר Hyperliquid. הניסוי החל לפני כיומיים ונכון לשעת כתיבת שורות אלו, כך נראית הטבלה:
1. DeepSeek הסיני מוביל עם תשואה של 34.94%.
2. Grok של אילון מאסק עם 31.28%.
3. Claude של חברת אנת'רופיק עם תשואה של 24.14% ביומיים.
4. Qwen 3 הסיני עם תשואה של 8.37%.
בתחתית הרשימה נמצאים GPT-5 – עם תשואה שלילית של 27.53%, ו-Gemini 2.5 Pro עם תשואה שלילית של 32.66%. בחברת Alpha Arena אמרו: "המטרה שלנו היא להפוך את מבחני הביצועים (Benchmarks) לדומים יותר לעולם האמיתי – והשוק הפיננסי הוא המקום המושלם לכך. הוא דינמי, תחרותי, בלתי צפוי ופתוח – מאתגר את הבינה המלאכותית בדרכים שמבחנים סטטיים לעולם לא יכולים".

בנוסף, אחת ממטרות הניסוי הייתה לבחון "האם נצטרך לאמן מודלים עם ארכיטקטורות חדשות להשקעות – או שמספיקים מודלי השפה הגדולים (LLMs) הקיימים". החברה הכריזה כי לשיטתה "השוק הוא המבחן האולטימטיבי לאינטליגנציה".
