בדיקת "החכם בעולם" GROK3

קבוצת איפו ווטון (1)

מָבוֹא

האם אתה חושב שגרוק 3 יהיה "נקודת הקצה" של דגמים מיומנים מראש?

אלון מאסק וצוות ה- XAI השיקו רשמית את הגרסה האחרונה של גרוק, גרוק 3, במהלך חייה. לפני אירוע זה, כמות משמעותית של מידע קשור, בשילוב עם ההייפקה המבצע 24/7 של מאסק, העלתה את הציפיות העולמיות לרמות Grok3 לרמות חסרות תקדים. רק לפני שבוע, מאסק הצהיר בביטחון במהלך חיית חיים בזמן שהעיר על Deepseek R1, "Xai עומד להשיק דגם AI טוב יותר." מהנתונים שהוצגו בשידור חי, על פי הדיווחים, Grok3 עלה על כל המודלים המיינסטרים הנוכחיים במדדים למתמטיקה, מדע ותכנות, כאשר מאסק אפילו טען כי Grok3 ישמש למשימות חישוביות הקשורות למשימות מאדים של SpaceX, תוך שהוא מנבא "פריצות דרך ברמת פרס נובל תוך שלוש שנים." עם זאת, אלה כרגע רק קביעותיו של מאסק. לאחר ההשקה, בדקתי את גרסת הבטא האחרונה של Grok3 והציגתי את שאלת הטריק הקלאסית לדגמים גדולים: "שהוא גדול יותר, 9.11 או 9.9?" למרבה הצער, ללא כל מוקדמות או סימונים, מה שמכונה Grok3 החכם ביותר עדיין לא יכול היה לענות נכון על שאלה זו. Grok3 לא הצליח לזהות במדויק את משמעות השאלה.

 

מבחן זה הפנה במהירות תשומת לב ניכרת מצד חברים רבים, ובמקרה, מבחנים דומים שונים מעבר לים הראו כי גרוק 3 נאבק בשאלות בפיזיקה/מתמטיקה בסיסית כמו "איזה כדור נופל תחילה מהמגדל הנטוי של פיזה?" לפיכך, הוא תויג בהומוריסט כ"גאון שלא מוכן לענות על שאלות פשוטות. "

640

Grok3 הוא טוב, אבל זה לא טוב יותר מ- R1 או O1-Pro.

Grok3 חווה "כישלונות" במבחני ידע נפוצים רבים בפועל. במהלך אירוע ההשקה של XAI, מאסק הדגים שימוש ב- Grok3 כדי לנתח את שיעורי הדמות ואת האפקטים מדרך המשחק של גלות 2, שלטענתו משחק לעתים קרובות, אך מרבית התשובות שסיפק גרוק 3 לא היו נכונות. מאסק במהלך חיית החיים לא הבחין בסוגיה הברורה הזו.

 

טעות זו לא רק סיפקה ראיות נוספות עבור אזרחים בחו"ל ללעוג למאסק על "למצוא תחליף" במשחקים, אלא גם העלו חששות משמעותיים בנוגע לאמינותו של גרוק 3 ביישומים מעשיים. עבור "גאון" כזה, ללא קשר ליכולותיו בפועל, אמינותו בתרחישי יישומים מורכבים במיוחד, כמו משימות חקר מאדים, נותרה בספק.

 

נכון לעכשיו, בודקים רבים שקיבלו גישה ל- GROK3 לפני שבועות, ואלה שבדיוק בדקו את יכולות הדגם למשך מספר שעות אתמול, כולם מצביעים על מסקנה נפוצה: "Grok3 הוא טוב, אבל זה לא טוב יותר מ- R1 או O1-Pro."

640 (1)

נקודת מבט ביקורתית על "שיבוש nvidia"

ב- PPT שהוצג באופן רשמי במהלך השחרור, הוכח כי Grok3 היה "רחוק קדימה" בזירת צ'אט-בוט, אך זה השתמש בחוכמה בטכניקות גרפיות: הציר האנכי בלוח המוביל רק תוצאות רשומות בטווח הניקוד 1400-1300, מה שהופך את ההבדל המקורי של 1% בתוצאות הבדיקה למשמעותי במיוחד במצגת זו.

640

בתוצאות ניקוד מודל בפועל, Grok3 הוא רק 1-2% לפני Deepseek R1 ו- GPT-4.0, התואם את חוויות המשתמשים הרבים במבחנים מעשיים שמצאו "שום הבדל בולט." GROK3 רק עולה על ממשיכי דרכו ב -1%-2%.

640

למרות שגרוק 3 קלע גבוה יותר מכל הדגמים שנבדקו כיום בפומבי, רבים אינם לוקחים זאת ברצינות: אחרי הכל, XAI ספג בעבר ביקורת על "מניפולציה של ציונים" בעידן Grok2. ככל שה- Leaderboard העניש את סגנון אורך התשובה, הציונים ירדו מאוד, מה שהוביל את מבני התעשייה לבקר לעתים קרובות את התופעה של "ניקוד גבוה אך יכולת נמוכה".

 

בין אם באמצעות "מניפולציה" של Leaderboard או טריקים עיצוביים באיורים, הם חושפים את האובססיה של Xai ומאסק לתפיסה של "להוביל את החבילה" ביכולות הדגם. מאסק שילם מחיר תלול עבור השוליים הללו: במהלך ההשקה הוא התפאר בשימוש ב -200,000 GPUs H100 (בטענה "מעל 100,000" במהלך חיית החיים) והשיג זמן אימונים כולל של 200 מיליון שעות. זה הוביל לחלקם להאמין שהוא מייצג יתרון משמעותי נוסף לתעשיית ה- GPU ולשקול את השפעתו של Deepseek על המגזר כ"טיפשי ". ראוי לציין כי יש הסבורים כי כוח חישובי מוחלט יהיה העתיד של אימוני מודלים.

 

עם זאת, כמה אזרחים השוו את הצריכה של 2000 GPUs H800 GPU במשך חודשיים כדי לייצר את DeepSeek V3, וחושבת כי צריכת חשמל האימונים בפועל של גרוק 3 היא פי 263 של V3. הפער בין Deepseek V3, שקלע 1402 נקודות, ו- Grok3 הוא קצת פחות מ 100 נקודות. לאחר שחרור נתונים אלה, רבים הבינו במהירות כי מאחורי התואר של גרוק 3 כ"החזקה בעולם "טמונה אפקט שירות שולי ברור - ההיגיון של דגמים גדולים יותר שיצר ביצועים חזקים יותר החל להראות תשואות הולכות ופוחתות.

640 (2)

אפילו עם "ניקוד גבוה אבל יכולת נמוכה", היו לגרוק 2 כמויות אדירות של נתוני צד ראשון באיכות גבוהה מפלטפורמת X (טוויטר) לתמיכה בשימוש. עם זאת, בהכשרה של Grok3, Xai נתקל באופן טבעי ב"תקרה "שעומדת בפני Openai כיום - היעדר נתוני אימונים פרימיום חושף במהירות את התועלת השולית של יכולות הדגם.

 

המפתחים של גרוק 3 ומוסק הם ככל הנראה הראשונים להבין ומזהים את העובדות הללו עמוק, וזו הסיבה שמאסק ציין ללא הרף במדיה החברתית כי המשתמשים בגרסאות חווים כעת היא "עדיין רק הבטא" וכי "הגרסה המלאה תשוחרר בחודשים הקרובים." מאסק קיבל על עצמו את תפקיד מנהל המוצר של Grok3, ומציע למשתמשים מספקים משוב על סוגיות שונות שנתקלו בקטע התגובות.

 

עם זאת, תוך יום, הביצועים של גרוק 3 ללא ספק העלו אזעקות למי שמקווה להסתמך על "שריר חישוב מסיבי" כדי להכשיר דגמים גדולים חזקים יותר: על סמך מידע על מיקרוסופט הזמין לציבור, ל- GPT-4 של Openai יש גודל פרמטר של 1.8 טריליון פרמטרים, יותר מעשר פעמים מזה של GPT-3. השמועות מציעות כי גודל הפרמטר של GPT-4.5 עשוי להיות גדול עוד יותר.

 

ככל שגדלי פרמטר הדגם עולים, עלויות ההדרכה מרקיעות גם שחקים. בנוכחותו של גרוק 3, מתמודדים כמו GPT-4.5 ואחרים המבקשים להמשיך "לשרוף כסף" כדי להשיג ביצועי מודל טובים יותר באמצעות גודל הפרמטר חייבים לשקול את התקרה שנמצאת כעת בבירור ולהרהר כיצד להתגבר עליה. ברגע זה הצהירה איליה סוטסקבר, המדען הראשי לשעבר באפתולי, בעבר בדצמבר האחרון, "ההכשרה שקדמה להכיר שאנו מכירים יסתיימה", שעלתה מחדש בדיונים, מה שגרם למאמצים למצוא את הדרך האמיתית להכשרת דגמים גדולים.

640 (3)

נקודת המבט של איליה נשמעה את האזעקה בענף. הוא צפה במדויק את התשישות הקרובה של נתונים חדשים נגישים, מה שמוביל למצב בו לא ניתן להמשיך ולשפר את הביצועים באמצעות רכישת נתונים, ומדמה אותם לתשישות של דלקים מאובנים. הוא ציין כי "כמו נפט, תוכן שנוצר על ידי האדם באינטרנט הוא משאב מוגבל." בתחזיותיו של סוטסבר, הדור הבא של הדגמים, לאחר אימון, יהיה בעל "אוטונומיה אמיתית" ויכולות הנמקה "הדומות למוח האנושי."

 

בניגוד למודלים שהוכשרו מראש של ימינו המסתמכים בעיקר על התאמת תוכן (המבוססת על תוכן המודל שנלמד בעבר), מערכות AI עתידיות יוכלו ללמוד ולהקים מתודולוגיות כדי לפתור בעיות באופן הדומה ל"חשיבה "של המוח האנושי. אדם יכול להשיג מיומנות בסיסית בנושא עם ספרות מקצועית בסיסית בלבד, ואילו מודל גדול של AI דורש מיליוני נקודות נתונים כדי להשיג בדיוק את היעילות הבסיסית ביותר ברמת הכניסה. גם כאשר הנוסח משתנה מעט, יתכן שאין להבין נכון את השאלות הבסיסיות הללו, וממחישים כי המודל לא השתפר באמת באינטליגנציה: השאלות הבסיסיות אך הבלתי ניתנות לפתרון שהוזכרו בתחילת המאמר מייצגות דוגמה ברורה לתופעה זו.

微信图片 _20240614024031.jpg1

מַסְקָנָה

עם זאת, מעבר לכוח הזרוע, אם Grok3 אכן יצליח לחשוף את התעשייה כי "מודלים שהוכשרו מראש מתקרבים לסוף שלהם, זה היה נושאת השלכות משמעותיות על התחום.

אולי לאחר שהטירוף סביב Grok3 שוכך בהדרגה, אנו נעיד במקרים נוספים כמו הדוגמה של פיי-פיי לי ל"כוונון מודלים בעלי ביצועים גבוהים במערך נתונים ספציפי במחיר של $ 50 בלבד ", בסופו של דבר לגלות את הדרך האמיתית ל- AGI.

מצא פתרון כבל ELV

כבלי שליטה

עבור BMS, אוטובוס, כבל מכשור.

מערכת כבלים מובנית

רשת ונתונים, כבל סיבים אופטיים, כבל תיקון, מודולים, לוחית פנים

2024 תערוכות ואירועים סקירת

אפריל 16th-18, 2024 אנרגיה אמצעית-מזרח בדובאי

אפריל 18-18, 2024 Securika במוסקבה

מאי 9, 2024 מוצרים וטכנולוגיות חדשות אירוע השקה בשנגחאי

אוקטובר 22-25, 2024 סין אבטחה בבייג'ינג

נובמבר 19-20, 2024 KSA עולם מחובר


זמן הודעה: פברואר 19-2025