DeepSeek: המהפכה המשבשת בנוף הבינה המלאכותית

קבוצת AIPU WATON

מָבוֹא

חרדה מתמשכת בקרב דגמים גדולים מתחרים, ספקי ענן המתחרים על נתח שוק ויצרני שבבים חרוצים - אפקט DeepSeek נמשך.

עם סיום פסטיבל האביב, ההתרגשות סביב DeepSeek נותרה חזקה. החג האחרון הדגיש תחושת תחרות משמעותית בתוך תעשיית הטכנולוגיה, כאשר רבים דנים ומנתחים את "דג השפמנון" הזה. עמק הסיליקון חווה תחושה חסרת תקדים של משבר: תומכי קוד פתוח משמיעים שוב את דעתם, ואפילו OpenAI מעריכה מחדש האם אסטרטגיית הקוד הסגור שלה הייתה הבחירה הטובה ביותר. הפרדיגמה החדשה של עלויות חישוב נמוכות יותר עוררה תגובת שרשרת בקרב ענקיות שבבים כמו Nvidia, מה שהוביל להפסדי שיא של ערך שוק ביום אחד בהיסטוריה של שוק המניות האמריקאי, בעוד שסוכנויות ממשלתיות חוקרות את תאימות השבבים שבהם משתמשת DeepSeek. על רקע ביקורות מעורבות על DeepSeek בחו"ל, בארץ, היא חווה צמיחה יוצאת דופן. לאחר השקת דגם R1, האפליקציה המשויכת חוותה עלייה בתעבורה, דבר המצביע על כך שצמיחה במגזרי היישומים תניע את המערכת האקולוגית הכוללת של הבינה המלאכותית קדימה. ההיבט החיובי הוא ש-DeepSeek ירחיב את אפשרויות היישומים, דבר המצביע על כך שהסתמכות על ChatGPT לא תהיה יקרה בעתיד. שינוי זה בא לידי ביטוי בפעילויות האחרונות של OpenAI, כולל אספקת מודל חשיבה בשם o3-mini למשתמשים חינמיים בתגובה ל-DeepSeek R1, כמו גם שדרוגים מאוחרים יותר שהפכו את שרשרת המחשבות של o3-mini לציבורית. משתמשים רבים מחו"ל הביעו הכרת תודה ל-DeepSeek על פיתוחים אלה, אם כי שרשרת מחשבות זו משמשת כסיכום בלבד.

באופן אופטימי, ניכר ש-DeepSeek מאחדת שחקנים מקומיים. עם התמקדותה בהפחתת עלויות אימון, יצרני שבבים שונים במעלה הזרם, ספקי ענן ביניים וסטארט-אפים רבים מצטרפים באופן פעיל למערכת האקולוגית, ומשפרים את יעילות העלויות בשימוש במודל DeepSeek. על פי המאמרים של DeepSeek, האימון המלא של מודל V3 דורש רק 2.788 מיליון שעות GPU H800, ותהליך האימון יציב ביותר. ארכיטקטורת MoE (Mixture of Experts) חיונית להפחתת עלויות אימון מקדים פי עשרה בהשוואה ל-Llama 3 עם 405 מיליארד פרמטרים. נכון לעכשיו, V3 הוא המודל הראשון המוכר בפומבי המדגים דלילות כה גבוהה ב-MoE. בנוסף, ה-MLA (Multi Layer Attention) פועל בסינרגיה, במיוחד בהיבטי חשיבה. "ככל שה-MoE דליל יותר, כך גודל האצווה הדרוש במהלך החשיבה גדול יותר כדי לנצל באופן מלא את כוח החישוב, כאשר גודל ה-KVCache הוא הגורם המגביל העיקרי; ה-MLA מפחית משמעותית את גודל KVCache", ציין חוקר מחברת Chuanjing Technology בניתוח עבור AI Technology Review. בסך הכל, הצלחתה של DeepSeek טמונה בשילוב של טכנולוגיות שונות, ולא רק אחת. גורמים בתעשייה משבחים את יכולות ההנדסה של צוות DeepSeek, ומציינים את מצוינותם בהכשרה מקבילה ואופטימיזציה של מפעילים, תוך השגת תוצאות פורצות דרך על ידי ליטוש כל פרט. גישת הקוד הפתוח של DeepSeek מזינה עוד יותר את הפיתוח הכולל של מודלים גדולים, והצפוי שאם מודלים דומים יתרחבו לתמונות, סרטונים ועוד, הדבר יעורר משמעותית את הביקוש ברחבי התעשייה.

הזדמנויות לשירותי הנמקה של צד שלישי

נתונים מצביעים על כך שמאז השקתה, DeepSeek צברה 22.15 מיליון משתמשים פעילים יומיים (DAU) תוך 21 ימים בלבד, והגיעה ל-41.6% מבסיס המשתמשים של ChatGPT ועברה את 16.95 מיליון המשתמשים הפעילים היומיים של Doubao, ובכך הפכה לאפליקציה הצומחת ביותר בעולם, כשהיא מובילה את חנות האפליקציות של אפל ב-157 מדינות/אזורים. עם זאת, בעוד שמשתמשים נהרו בהמוניהם, האקרים סייבר תקפו ללא הרף את אפליקציית DeepSeek, וגרמו לעומס משמעותי על השרתים שלה. אנליסטים בתעשייה מאמינים שזה נובע בחלקו מכך ש-DeepSeek פריסה כרטיסים לאימון בעוד שחסרה לה כוח חישוב מספיק להיגיון. מקור בתעשייה מסר ל-AI Technology Review: "ניתן לפתור בקלות את בעיות השרת התכופות על ידי גביית עמלות או מימון לרכישת מכונות נוספות; בסופו של דבר, זה תלוי בהחלטות של DeepSeek." זה מציג פשרה בין התמקדות בטכנולוגיה לבין ייצור. DeepSeek הסתמכה במידה רבה על כימות קוונטית לקיום עצמי, לאחר שקיבלה מימון חיצוני מועט, מה שהביא ללחץ תזרים מזומנים נמוך יחסית ולסביבה טכנולוגית טהורה יותר. נכון לעכשיו, לאור הבעיות שהוזכרו לעיל, חלק מהמשתמשים מפצירים ב-DeepSeek ברשתות החברתיות להעלות את ספי השימוש או להציג תכונות בתשלום כדי לשפר את נוחות המשתמש. בנוסף, מפתחים החלו להשתמש בממשקי ה-API הרשמיים או בממשקי API של צד שלישי לצורך אופטימיזציה. עם זאת, הפלטפורמה הפתוחה של DeepSeek הודיעה לאחרונה כי "משאבי השרת הנוכחיים מועטים, וטעינת שירות ה-API הושעת".

 

אין ספק שזה פותח הזדמנויות נוספות עבור ספקי צד שלישי בתחום תשתיות הבינה המלאכותית. לאחרונה, ענקיות ענן מקומיות ובינלאומיות רבות השיקו את ממשקי ה-API של מודל DeepSeek - ענקיות זרות כמו מיקרוסופט ואמזון היו בין הראשונות להצטרף בסוף ינואר. המובילה המקומית, Huawei Cloud, עשתה את הצעד הראשון, והוציאה את שירותי החשיבה DeepSeek R1 ו-V3 בשיתוף פעולה עם Flow, חברת Silicon, ב-1 בפברואר. דיווחים של AI Technology Review מצביעים על כך ששירותי Flow, חברת Silicon, חוו נהירה של משתמשים, מה ש"הרס" למעשה את הפלטפורמה. שלוש חברות הטכנולוגיה הגדולות - BAT (Baidu, Alibaba, Tencent) ו-ByteDance - גם הן פרסמו הצעות בעלות נמוכה ומוגבלות בזמן החל מה-3 בפברואר, מה שמזכיר את מלחמות המחירים של ספקי הענן בשנה שעברה שהציתו השקת דגם V2 של DeepSeek, שם DeepSeek החלה להיקרא "קצב המחירים". הפעולות הנמרצות של ספקי הענן מהדהדות את הקשרים החזקים הקודמים בין Microsoft Azure ל-OpenAI, כאשר בשנת 2019, מיקרוסופט ביצעה השקעה משמעותית של מיליארד דולר ב-OpenAI וקצרה פירות לאחר השקת ChatGPT בשנת 2023. עם זאת, מערכת יחסים קרובה זו החלה להתפורר לאחר ש-Meta הפכה את Llama לקוד פתוח, מה שאפשר לספקים אחרים מחוץ למערכת האקולוגית של Microsoft Azure להתחרות במודלים הגדולים שלהם. במקרה זה, DeepSeek לא רק עקפה את ChatGPT מבחינת חום המוצר, אלא גם הציגה מודלים בקוד פתוח לאחר השקת o1, בדומה להתרגשות סביב החייאת GPT-3 על ידי Llama.

 

במציאות, ספקי ענן ממצבים את עצמם גם כשערי תעבורה עבור יישומי בינה מלאכותית, כלומר העמקת הקשרים עם מפתחים מתורגמת ליתרונות מקדימים. דיווחים מצביעים על כך של-Baidu Smart Cloud היו למעלה מ-15,000 לקוחות שהשתמשו במודל DeepSeek דרך פלטפורמת Qianfan ביום השקת המודל. בנוסף, מספר חברות קטנות יותר מציעות פתרונות, כולל Flow מבוסס סיליקון, Luchen Technology, Chuanjing Technology וספקי תשתית בינה מלאכותית שונים שהשיקו תמיכה במודלי DeepSeek. AI Technology Review למדה כי הזדמנויות האופטימיזציה הנוכחיות לפריסות מקומיות של DeepSeek קיימות בעיקר בשני תחומים: האחד הוא אופטימיזציה של מאפייני הדלילות של מודל MoE באמצעות גישת חשיבה מעורבת לפריסת מודל MoE בן 671 מיליארד הפרמטרים באופן מקומי תוך שימוש בהסקת GPU/CPU היברידית. בנוסף, אופטימיזציה של MLA היא חיונית. עם זאת, שני המודלים של DeepSeek עדיין מתמודדים עם כמה אתגרים באופטימיזציית הפריסה. "בשל גודל המודל והפרמטרים הרבים שלו, אופטימיזציה היא אכן מורכבת, במיוחד עבור פריסות מקומיות שבהן השגת איזון אופטימלי בין ביצועים לעלות תהיה מאתגרת", הצהיר חוקר מחברת Chuanjing Technology. המכשול המשמעותי ביותר טמון בהתגברות על מגבלות קיבולת הזיכרון. "אנו מאמצים גישת שיתוף פעולה הטרוגנית כדי לנצל באופן מלא את המעבדים ומשאבי חישוב אחרים, תוך הצבת החלקים הלא משותפים של מטריצת MoE הדלילה על גבי CPU/DRAM לעיבוד באמצעות אופרטורי CPU בעלי ביצועים גבוהים, בעוד שהחלקים הצפופים נשארים על גבי ה-GPU", הוסיף. דיווחים מצביעים על כך שמסגרת הקוד הפתוח של Chuanjing, KTransformers, מזריקה בעיקר אסטרטגיות ואופרטורים שונים לתוך יישום Transformers המקורי באמצעות תבנית, מה שמשפר משמעותית את מהירות ההסקה באמצעות שיטות כמו CUDAGraph. DeepSeek יצרה הזדמנויות עבור סטארט-אפים אלה, שכן יתרונות הצמיחה הופכים לברורים; חברות רבות דיווחו על צמיחה ניכרת בקרב לקוחות לאחר השקת ה-API של DeepSeek, וקיבלו פניות מלקוחות קודמים המחפשים אופטימיזציות. מקורות בתעשייה ציינו כי "בעבר, קבוצות לקוחות מבוססות יחסית היו נעולות לעתים קרובות לשירותים סטנדרטיים של חברות גדולות יותר, כבולות קשר הדוק ליתרונות העלות שלהן עקב גודל. עם זאת, לאחר השלמת פריסת DeepSeek-R1/V3 לפני פסטיבל האביב, קיבלנו לפתע בקשות לשיתוף פעולה מכמה לקוחות ידועים, ואפילו לקוחות רדומים בעבר יזמו קשר כדי להציג את שירותי DeepSeek שלנו." נכון לעכשיו, נראה ש-DeepSeek הופכת את ביצועי הסקת המודלים לחיוניים יותר ויותר, ועם אימוץ רחב יותר של מודלים גדולים, הדבר ימשיך להשפיע באופן משמעותי על הפיתוח בתעשיית תשתית הבינה המלאכותית. אם מודל ברמת DeepSeek יוכל להיות לפרוס באופן מקומי בעלות נמוכה, הדבר יסייע רבות למאמצי הטרנספורמציה הדיגיטלית של הממשלה והארגונים. עם זאת, עדיין קיימים אתגרים, שכן לחלק מהלקוחות עשויות להיות ציפיות גבוהות לגבי יכולות מודלים גדולים, מה שמבהיר יותר שאיזון בין ביצועים לעלות הופך לחיוני בפריסה מעשית. 

כדי להעריך האם DeepSeek טוב יותר מ-ChatGPT, חיוני להבין את ההבדלים העיקריים שלהם, נקודות החוזק שלהם ומקרי השימוש שלהם. הנה השוואה מקיפה:

מאפיין/היבט דיפקייק צ'אט GPT
בַּעֲלוּת פותח על ידי חברה סינית פותח על ידי OpenAI
מודל המקור קוד פתוח קנייני
עֲלוּת שימוש חינם; אפשרויות גישה זולות יותר ל-API תמחור מנוי או תשלום לפי שימוש
התאמה אישית ניתן להתאמה אישית רבה, המאפשר למשתמשים להתאים ולבנות עליה התאמה אישית מוגבלת זמינה
ביצועים במשימות ספציפיות מצטיין בתחומים מסוימים כמו ניתוח נתונים ואחזור מידע רב-תכליתי עם ביצועים חזקים בכתיבה יצירתית ומשימות שיחה
תמיכה בשפה דגש חזק על השפה והתרבות הסינית תמיכה רחבה בשפות אך ממוקדת בארה"ב
עלות ההכשרה עלויות הדרכה נמוכות יותר, אופטימליות ליעילות עלויות הכשרה גבוהות יותר, הדורשות משאבי חישוב משמעותיים
וריאציה בתגובה עשוי להציע תגובות שונות, אולי בהשפעת ההקשר הגיאופוליטי תשובות עקביות המבוססות על נתוני אימון
קהל היעד מיועד למפתחים וחוקרים המעוניינים בגמישות מכוון למשתמשים כלליים המחפשים יכולות שיחה
מקרי שימוש יעיל יותר ליצירת קוד ומשימות מהירות אידיאלי ליצירת טקסט, מענה לשאלות וניהול דיאלוג

נקודת מבט ביקורתית על "שיבוש Nvidia"

כיום, מלבד Huawei, מספר יצרני שבבים מקומיים כמו Moore Threads, Muxi, Biran Technology ו-Tianxu Zhixin גם הם מסתגלים לשני המודלים של DeepSeek. יצרן שבבים אמר ל-AI Technology Review, "המבנה של DeepSeek מדגים חדשנות, אך הוא נותר תואר שני במשפטים. ההתאמה שלנו ל-DeepSeek מתמקדת בעיקר ביישומי חשיבה, מה שהופך את היישום הטכני לפשוט ומהיר למדי." עם זאת, גישת MoE דורשת דרישות גבוהות יותר מבחינת אחסון והפצה, יחד עם הבטחת תאימות בעת פריסה עם שבבים מקומיים, מה שמציג אתגרים הנדסיים רבים הדורשים פתרון במהלך ההתאמה. "כיום, כוח החישוב המקומי אינו תואם את זה של Nvidia מבחינת שימושיות ויציבות, ודורש השתתפות של היצרן המקורי לצורך הגדרת סביבת תוכנה, פתרון בעיות ואופטימיזציה של ביצועים בסיסיים", אמר איש מקצוע בתעשייה על סמך ניסיון מעשי. במקביל, "בשל קנה המידה הגדול של הפרמטרים של DeepSeek R1, כוח החישוב המקומי מחייב צמתים רבים יותר לצורך מקביליות. בנוסף, מפרטי החומרה המקומיים עדיין מעט מאחור; לדוגמה, ה-Huawei 910B אינו יכול לתמוך כרגע בהסקת FP8 שהוצגה על ידי DeepSeek." אחת הנקודות הבולטות של מודל DeepSeek V3 היא הצגת מסגרת אימון דיוק מעורבת FP8, אשר אומתה ביעילות על מודל גדול במיוחד, מה שמסמן הישג משמעותי. בעבר, שחקנים גדולים כמו מיקרוסופט ו-Nvidia הציעו עבודה קשורה, אך ספקות נותרו בתעשייה לגבי היתכנותה. מובן כי בהשוואה ל-INT8, היתרון העיקרי של FP8 הוא שכימות לאחר אימון יכול להשיג דיוק כמעט ללא אובדן תוך שיפור משמעותי של מהירות ההסקה. בהשוואה ל-FP16, FP8 יכול להשיג תאוצה של עד פי שניים ב-H20 של Nvidia ותאוצה של יותר מפי 1.5 ב-H100. ראוי לציין כי ככל שדיונים סביב המגמה של כוח חישוב מקומי בתוספת מודלים מקומיים צוברים תאוצה, ספקולציות לגבי האם ניתן לשבש את Nvidia, והאם ניתן לעקוף את חפיר CUDA, הופכות נפוצות יותר ויותר. עובדה אחת שאין להכחישה היא ש-DeepSeek אכן גרמה לירידה משמעותית בשווי השוק של Nvidia, אך שינוי זה מעלה שאלות בנוגע לשלמות כוח החישוב המתקדם של Nvidia. נרטיבים מקובלים בעבר בנוגע לצבירת חישובים המונעת על ידי הון עומדים בפני אתגרים, אך עדיין קשה ל-Nvidia להיות מוחלפת במלואה בתרחישי אימון. ניתוח השימוש העמוק של DeepSeek ב-CUDA מראה שגמישות - כגון שימוש ב-SM לתקשורת או מניפולציה ישירה של כרטיסי רשת - אינה אפשרית עבור GPU רגילים. נקודות מבט בתעשייה מדגישות כי החפיר של Nvidia מקיף את כל המערכת האקולוגית של CUDA ולא רק את CUDA עצמו, והוראות PTX (Parallel Thread Execution) בהן DeepSeek משתמשת עדיין חלק ממערכת האקולוגית של CUDA. "בטווח הקצר, לא ניתן לעקוף את כוח החישוב של Nvidia - זה ברור במיוחד באימון; עם זאת, פריסת כרטיסים מקומיים לצורך הנמקה תהיה קלה יחסית, כך שההתקדמות צפויה להיות מהירה יותר. ההתאמה של כרטיסים מקומיים מתמקדת בעיקר בהסקה; איש עדיין לא הצליח לאמן מודל של ביצועי DeepSeek על כרטיסים מקומיים בקנה מידה גדול", העיר אנליסט בתעשייה ל-AI Technology Review. בסך הכל, מנקודת מבט של הסקה, הנסיבות מעודדות עבור שבבים מקומיים גדולים. ההזדמנויות עבור יצרני שבבים מקומיים בתחום ההסקה ניכרות יותר עקב הדרישות הגבוהות מדי של האימון, אשר מעכבות את הכניסה. אנליסטים טוענים כי ניצול פשוט של כרטיסי הסקה מקומיים מספיק; במידת הצורך, רכישת מכונה נוספת אפשרית, בעוד שמודלי אימון מציבים אתגרים ייחודיים - ניהול מספר מוגבר של מכונות יכול להפוך למכביד, ושיעורי שגיאות גבוהים יותר יכולים להשפיע לרעה על תוצאות האימון. לאימון יש גם דרישות ספציפיות בקנה מידה של אשכולות, בעוד שהדרישות מאשכולות להסקה אינן מחמירות באותה מידה, ובכך מקלות על דרישות ה-GPU. נכון לעכשיו, הביצועים של כרטיס H20 היחיד של Nvidia אינם עולים על אלה של Huawei או Cambrian; כוחו טמון באשכולות. בהתבסס על ההשפעה הכוללת על שוק כוח החישוב, מייסד Luchen Technology, You Yang, ציין בראיון ל-AI Technology Review, "DeepSeek עשוי לערער באופן זמני את ההקמה וההשכרה של אשכולות חישוביים גדולים במיוחד לאימון. בטווח הארוך, על ידי הפחתה משמעותית של העלויות הכרוכות באימון, הנמקה ויישומים של מודלים גדולים, הביקוש בשוק צפוי לעלות. איטרציות עוקבות של בינה מלאכותית המבוססות על כך יניעו באופן רציף ביקוש מתמשך בשוק כוח החישוב." בנוסף, "הביקוש המוגבר של DeepSeek לשירותי חשיבה וכיוונון עדין תואם יותר לנוף החישוב המקומי, שבו היכולות המקומיות חלשות יחסית, מה שעוזר להפחית בזבוז ממשאבים פנויים לאחר הקמת אשכולות; זה יוצר הזדמנויות בנות קיימא עבור יצרנים ברמות שונות של המערכת האקולוגית החישובית המקומית." Luchen Technology שיתפה פעולה עם Huawei Cloud כדי להשיק את ממשקי ה-API להסקה ושירותי הדמיה בענן מסדרת DeepSeek R1 המבוססים על כוח חישוב מקומי. יו יאנג הביע אופטימיות לגבי העתיד: "DeepSeek משרה אמון בפתרונות המיוצרים מקומית, מעודדת התלהבות והשקעה גדולים יותר ביכולות חישוב מקומיות בהמשך."

微信图片_20240614024031.jpg1

מַסְקָנָה

האם DeepSeek "טוב יותר" מ-ChatGPT תלוי בצרכים ובמטרות הספציפיים של המשתמש. עבור משימות הדורשות גמישות, עלות נמוכה והתאמה אישית, DeepSeek עשוי להיות עדיף. עבור כתיבה יצירתית, חקירה כללית וממשקי שיחה ידידותיים למשתמש, ChatGPT עשוי להוביל. כל כלי משרת מטרות שונות, כך שהבחירה תהיה תלויה במידה רבה בהקשר שבו הוא משמש.

מצא פתרון כבלים של ELV

כבלי בקרה

עבור BMS, BUS, תעשייתי, כבל מכשור.

מערכת כבלים מובנית

רשת ונתונים, כבל סיב אופטי, כבל תיקון, מודולים, לוחית פנים

סקירת תערוכות ואירועים לשנת 2024

16-18 באפריל, 2024, אנרגיה מזרח תיכונית בדובאי

16-18 באפריל, 2024, Securika במוסקבה

אירוע השקת מוצרים וטכנולוגיות חדשים בשנחאי, 9 במאי 2024

22-25 באוקטובר, 2024, אבטחת סין בבייג'ינג

19-20 בנובמבר, 2024 עולם מחובר, קנדה


זמן פרסום: 10 בפברואר 2025