מָבוֹא

האם אתה חושב ש-Grok3 יהיה "נקודת הקצה" של מודלים שעברו אימונים מראש?

אילון מאסק וצוות xAI השיקו רשמית את הגרסה האחרונה של Grok, Grok3, במהלך שידור חי. לפני אירוע זה, כמות משמעותית של מידע קשור, יחד עם ההייפ השיווקי של מאסק 24/7, העלו את הציפיות העולמיות ל-Grok3 לרמות חסרות תקדים. רק לפני שבוע, מאסק הצהיר בביטחון במהלך שידור חי, תוך שהוא מגיב על DeepSeek R1, "xAI עומד להשיק מודל בינה מלאכותית טוב יותר". מהנתונים שהוצגו בשידור חי, Grok3 עלה על כל המודלים המרכזיים הנוכחיים במדדים למתמטיקה, מדעים ותכנות, כאשר מאסק אף טען ש-Grok3 ישמש למשימות חישוביות הקשורות למשימות מאדים של SpaceX, וחזה "פריצות דרך ברמת פרס נובל תוך שלוש שנים". עם זאת, אלו הן כרגע רק טענותיו של מאסק. לאחר ההשקה, בדקתי את גרסת הבטא האחרונה של Grok3 ושאלתי את שאלת המכשול הקלאסית לדגמים גדולים: "איזה גדול יותר, 9.11 או 9.9?" למרבה הצער, ללא כל הסמכות או סימונים, מה שנקרא Grok3 החכם ביותר עדיין לא הצליח לענות על שאלה זו בצורה נכונה. Grok3 לא הצליח לזהות במדויק את משמעות השאלה.

מבחן זה משך במהרה תשומת לב רבה מחברים רבים, ובמקרה, מבחנים דומים שונים בחו"ל הראו שגרוק3 מתקשה בשאלות בסיסיות בפיזיקה/מתמטיקה כמו "איזה כדור נופל ראשון ממגדל פיזה הנטוי?". לפיכך, הוא תויג בהומור כ"גאון שאינו מוכן לענות על שאלות פשוטות".

Grok3 טוב, אבל הוא לא יותר טוב מ-R1 או o1-Pro.

Grok3 חווה "כשלים" במבחני ידע נפוצים רבים בפועל. במהלך אירוע ההשקה של xAI, מאסק הדגים כיצד Grok3 משתמש כדי לנתח את מחלקות הדמויות והאפקטים מהמשחק Path of Exile 2, אותו טען שהוא משחק לעתים קרובות, אך רוב התשובות שסיפק Grok3 היו שגויות. מאסק במהלך השידור החי לא שם לב לבעיה הברורה הזו.

טעות זו לא רק סיפקה ראיות נוספות לגולשים מחו"ל ללעוג למאסק על "מציאת תחליף" במשחקים, אלא גם העלתה חששות משמעותיים בנוגע לאמינותו של Grok3 ביישומים מעשיים. עבור "גאון" שכזה, ללא קשר ליכולותיו בפועל, אמינותו בתרחישי יישומים מורכבים ביותר, כמו משימות חקר מאדים, נותרה בספק.

נכון לעכשיו, בודקים רבים שקיבלו גישה ל-Grok3 לפני שבועות, ואלו שבדקו את יכולות המודל במשך כמה שעות אתמול, מצביעים כולם על מסקנה משותפת: "Grok3 טוב, אבל הוא לא טוב יותר מ-R1 או o1-Pro."

נקודת מבט ביקורתית על "שיבוש Nvidia"

במצגת ה-PPT שהוצגה רשמית במהלך השחרור, Grok3 הוצג כ"הרבה קדימה" בזירת הצ'אטבוטים, אך הפעם נעשה שימוש חכם בטכניקות גרפיות: הציר האנכי בטבלת המובילים רשם רק תוצאות בטווח הציונים 1400-1300, מה שגורם להבדל המקורי של 1% בתוצאות הבדיקה להיראות משמעותי במיוחד במצגת זו.

בתוצאות ניקוד המודל בפועל, Grok3 מקדים את DeepSeek R1 ואת GPT-4.0 ב-1-2% בלבד, נתון התואם את חוויותיהם של משתמשים רבים בבדיקות מעשיות שלא מצאו "הבדל מורגש". Grok3 עולה על יורשיו רק ב-1%-2%.

למרות ש-Grok3 קיבל ציון גבוה יותר מכל המודלים שנבדקו כיום בפומבי, רבים לא מתייחסים לכך ברצינות: אחרי הכל, xAI ספג בעבר ביקורת על "מניפולציה של ציונים" בעידן Grok2. כאשר לוח המובילים העניש את סגנון אורך התשובות, הציונים ירדו משמעותית, מה שהוביל גורמים בתעשייה לבקר לעתים קרובות את התופעה של "ציון גבוה אך יכולת נמוכה".

בין אם באמצעות "מניפולציה" של לוחות הישגים או טריקים עיצוביים באיורים, הם חושפים את ה-xAI ואת האובססיה של מאסק לרעיון של "הובלת החבורה" ביכולות המודל. מאסק שילם מחיר כבד עבור שולי הרווח הללו: במהלך ההשקה, הוא התרברב בשימוש ב-200,000 מעבדי GPU מסוג H100 (וטען ל"מעל 100,000" במהלך השידור החי) והשגת זמן אימון כולל של 200 מיליון שעות. דבר זה הוביל חלק להאמין שמדובר בעודף משמעותי נוסף לתעשיית המעבדים הגרפיים ולראות את השפעתה של DeepSeek על המגזר כ"טיפשית". ראוי לציין, כי חלקם מאמינים שכוח חישובי טהור יהיה עתיד אימון המודלים.

עם זאת, חלק מהגולשים ברשת השוו את צריכתם של 2000 כרטיסי מסך H800 במשך חודשיים כדי לייצר את ה-DeepSeek V3, וחישבו שצריכת החשמל בפועל של Grok3 לאימון גדולה פי 263 מזו של ה-V3. הפער בין DeepSeek V3, שקיבל 1402 נקודות, לבין Grok3 עומד על קצת פחות מ-100 נקודות. בעקבות פרסום נתונים אלה, רבים הבינו במהרה שמאחורי התואר של Grok3 כ"חזק בעולם" מסתתר אפקט תועלת שולית ברור - ההיגיון של דגמים גדולים יותר שמייצרים ביצועים חזקים יותר החל להראות תשואות הולכות ופוחתות.

אפילו עם "ציון גבוה אך יכולת נמוכה", ל-Grok2 היו כמויות עצומות של נתונים איכותיים ממקור ראשון מפלטפורמת X (טוויטר) כדי לתמוך בשימוש. עם זאת, באימון של Grok3, xAI נתקל באופן טבעי ב"תקרה" שעומדת כעת בפני OpenAI - היעדר נתוני אימון פרימיום חושף במהירות את התועלת השולית של יכולות המודל.

מפתחי Grok3 ומאסק הם ככל הנראה הראשונים להבין ולזהות את העובדות הללו לעומק, ולכן מאסק ציין שוב ושוב ברשתות החברתיות שהגרסה שמשתמשים חווים כעת היא "עדיין רק גרסת בטא" וכי "הגרסה המלאה תצא בחודשים הקרובים". מאסק לקח על עצמו את תפקיד מנהל המוצר של Grok3, והציע למשתמשים לספק משוב על בעיות שונות שנתקלו בהן בקטע התגובות. הוא עשוי להיות מנהל המוצר העוקב ביותר על פני כדור הארץ.

אף על פי כן, תוך יום אחד, ביצועי Grok3 עוררו ללא ספק דאגה בקרב אלו שקיוו להסתמך על "כוח חישובי עצום" כדי לאמן מודלים גדולים וחזקים יותר: בהתבסס על מידע זמין לציבור של מיקרוסופט, ל-GPT-4 של OpenAI יש גודל פרמטר של 1.8 טריליון פרמטרים, פי עשרה מזה של GPT-3. שמועות מצביעות על כך שגודל הפרמטר של GPT-4.5 עשוי להיות גדול אף יותר.

ככל שגדלי הפרמטרים של המודל עולים, גם עלויות האימון מרקיעות שחקים. עם נוכחותה של Grok3, מתמודדים כמו GPT-4.5 ואחרים המעוניינים להמשיך "לשרוף כסף" כדי להשיג ביצועי מודל טובים יותר באמצעות גודל פרמטר חייבים לשקול את התקרה שנראית כעת בבירור באופק ולחשוב כיצד להתגבר עליה. ברגע זה, איליה סוטסקבר, המדען הראשי לשעבר ב-OpenAI, הצהיר בעבר בדצמבר האחרון, "האימון המקדים שאנו מכירים יגיע לסיומו", דבר שעלה שוב בדיונים, מה שגרם למאמצים למצוא את הדרך האמיתית לאימון מודלים גדולים.

נקודת המבט של איליה הפעילה אזעקה בתעשייה. הוא חזה במדויק את התכלות הקרובה של נתונים חדשים נגישים, מה שיוביל למצב שבו לא ניתן להמשיך ולשפר את הביצועים באמצעות רכישת נתונים, והשווה זאת להתכלות של דלקים מאובנים. הוא ציין כי "כמו נפט, תוכן שנוצר על ידי בני אדם באינטרנט הוא משאב מוגבל". בתחזיותיו של סוצקבר, הדור הבא של מודלים, לאחר טרום-הכשרה, יהיה בעל "אוטונומיה אמיתית" ויכולות חשיבה "בדומה למוח האנושי".

בניגוד למודלים של ימינו, אשר מאומנים מראש, מסתמכים בעיקר על התאמת תוכן (בהתבסס על תוכן המודל שנלמד קודם לכן), מערכות בינה מלאכותית עתידיות יוכלו ללמוד ולבסס מתודולוגיות לפתרון בעיות באופן הדומה ל"חשיבה" של המוח האנושי. אדם יכול להשיג מיומנות בסיסית בנושא בעזרת ספרות מקצועית בסיסית בלבד, בעוד שמודל גדול של בינה מלאכותית דורש מיליוני נקודות נתונים כדי להשיג רק את היעילות הבסיסית ביותר ברמת הכניסה. אפילו כאשר הניסוח משתנה מעט, שאלות יסוד אלו עלולות שלא להיות מובנות כהלכה, מה שממחיש שהמודל לא השתפר באמת באינטליגנציה: השאלות הבסיסיות אך בלתי פתירות שהוזכרו בתחילת המאמר מייצגות דוגמה מובהקת לתופעה זו.

מַסְקָנָה

עם זאת, מעבר לכוח גס, אם Grok3 אכן תצליח לחשוף לתעשייה ש"מודלים שאומנו מראש מתקרבים לסופם", יהיו לכך השלכות משמעותיות על התחום.

אולי לאחר שהטירוף סביב Grok3 ישכך בהדרגה, נהיה עדים למקרים נוספים כמו הדוגמה של פיי-פיי לי ל"כוונון מודלים בעלי ביצועים גבוהים על מערך נתונים ספציפי תמורת 50 דולר בלבד", ובסופו של דבר נגלה את הדרך האמיתית ל-AGI.

מצא פתרון כבלים של ELV

כבלי בקרה

עבור BMS, BUS, תעשייתי, כבל מכשור.

לחץ כאן

מערכת כבלים מובנית

רשת ונתונים, כבל סיב אופטי, כבל תיקון, מודולים, לוחית פנים

לחץ כאן

סקירת תערוכות ואירועים לשנת 2024

זמן פרסום: 19 בפברואר 2025

בדיקת ה"חכמים בעולם" Grok3

מָבוֹא

Grok3 טוב, אבל הוא לא יותר טוב מ-R1 או o1-Pro.

נקודת מבט ביקורתית על "שיבוש Nvidia"

מַסְקָנָה

כבלי בקרה

מערכת כבלים מובנית

16-18 באפריל, 2024, אנרגיה מזרח תיכונית בדובאי

16-18 באפריל, 2024, Securika במוסקבה

אירוע השקת מוצרים וטכנולוגיות חדשים בשנחאי, 9 במאי 2024

22-25 באוקטובר, 2024, אבטחת סין בבייג'ינג

19-20 בנובמבר, 2024 עולם מחובר, קנדה