DeepSeek. האם הבינה המלאכותית הסינית תחליף את ChatGPT?

הבינה המלאכותית הסינית DeepSeek שמאיימת על ChatGPT.
מה היא מסוגלת לעשות והאם היא שווה את זה?

בסוף 2022, חברת OpenAI האמריקאית פרסמה את צ'אטבוט הבינה המלאכותית ChatGPT. השירות עורר סערה, וניסיונות לחזור על ההצלחה שלו החלו בסין. אבל אז המפתחים נכשלו. שנתיים לאחר מכן, הופיע פתאום בשוק דגם AI סיני חדש, DeepSeek והאפליקציה לנייד שלו הפכה מיד למובילה בהורדות כשאפילו עקפה את ChatGPT. אז איזה סוג של שירות זה, מה היתרונות והחסרונות שלו והאם הוא מתאים לשימוש יומיומי?

מה זה DeepSeek?

זהו צ'אטבוט חינמי. השירות נקרא על שם החברה הסינית שיצרה אותו. הארגון מבוסס בהאנגג'ואו ומפתח מודלים של שפות גדולות בקוד פתוח (LLMs). הסיפור של DeepSeek החל בשנת 2023, כאשר ליאנג וונפנג, בוגר אוניברסיטת ג'ג'יאנג (אחת האוניברסיטאות המובילות בסין), הקימה את הסטארט-אפ. הוא הודיע כי הוא מתכנן לארגן "קבוצת מחקר חדשה ועצמאית ללימוד AGI". ראשי התיבות מייצגים בינה מלאכותית למטרות כלליות: מערכות אוטונומיות שמתגברות על בני אדם ברוב המשימות. ליאנג רכש שבבי Nvidia A100 (שפותחו על ידי חברת הטכנולוגיה האמריקאית שמייצרת מעבדים גרפיים) ויש להניח שהם הפכו לבסיס של הרשת העצבית.

על מה מבוססת הרשת העצבית?

DeepSeek משתמש בטכניקות למידת מכונה מתקדמות. המערכת הוכשרה על מערכות AI גדולים יותר, מה שהבטיח ביצועים גבוהים ללא צורך בכמות גדולה של משאבי מחשוב ומהירות העיבוד גבוהה מאוד. השירות מצויד גם בפונקציית NLP (עיבוד שפה טבעית) מתקדמת. למעשה, לרשת הנוירונים DeepSeek יש הבנה טובה יותר של ההקשר ויכולה להשתתף בשיחות משמעותיות יותר עם משתמשים. המפתחים גם ציינו כי המערכת תוכל לעבד לא רק טקסט, אלא גם תמונות ואפילו צלילים. בנוסף, השירות מסוגל ללמידה עצמית, תוך התחשבות בתוצאות האינטראקציה עם המשתמשים ושיפורה ההדרגתי. גם עם הגידול בנפח הנתונים, המערכת מסוגלת לעבד מידע בצורה יעילה יותר מבלי להקריב את הביצועים. המודל תואם לתוכנות שונות וניתן להשתמש בו בקלות בפלטפורמות קיימות.

האיש שקונה את העתיד: בין מאדים, בינה מלאכותית ו-X

הוליווד כמרקחה: נטפליקס נסוגה מרכישת האחים וורנר. פרמאונט מנצחת?

לקוסט – הטניסאי שהמציא את חולצת הפולו

מפת האימפריה הרומית בשיא תפארתה

הסופרבול – כשצעצוע מגומי הפך לאירוע הספורט הגדול בתבל

״לשכה 39״: מנגנון המימון החשאי של צפון קוריאה

מה DeepSeek יכול לעשות?

לחפש מידע באינטרנט (עם קישורים למקורות).
ליצור טקסטים בנפחים ובסגנונות שונים, שיכולים לסייע בכתיבת מאמרים, חיבורים וכדומה.
זיהוי וניתוח תמונות.
כתיבה ועיצוב קוד בשפות תכנות שונות (C++, Go, Java, JavaScript, Python, Rust).
לנמק בהיגיון, לפתור בעיות ולנמק את התשובות.

גרסה R1

החל מינואר 2025, הגרסה המתקדמת ביותר היא R1, אשר:

מצוינת ביצירת קוד (למשל Python, Java) ובפתרון משוואות מורכבות.
מעבדת בקשות במהירות עם עלויות משאבים נמוכות.
מאופיינת בקוד מקור פתוח (משתמשים יכולים להפעיל AI באופן מקומי, להציג ולערוך).
עם זאת, בשל פרוטוקולי הצנזורה הקיימים בסין, המערכת אינה יכול לתמוך בשיחות על נושאים פוליטיים, ואין לה עדיין פונקציות של זיכרון הקשר, יצירת תמונות או אינטראקציה קולית.

גרסאות אחרות

אחד הפיתוחים הראשונים של החברה שוחרר בתחילת נובמבר 2023 ונקרא Coder. היו 8 גרסאות בסדרה, 4 מהם אומנו מראש (Base) ול-4 נוספים נעשה כוונון עדין מבוקר. התכונה החשובה שלהם היא אורך ההקשר של 16 אלף אסימונים. המשמעות היא שהם יכלו להתמודד גם עם שאלות קצרות וגם, למשל, עם פיסות קוד גדולות.

עד סוף נובמבר יצאה סדרה נוספת: LLM בשתי צורות: בסיסי וצ'אטבטוא. אוצר המילים שלהם כלל 102,400 אסימונים (שזה כמה שהם יכלו לזהות ולעבד).

באפריל 2024, גרסאות של Math הפכו לזמינות להתקנה. הם הותאמו לביצוע משימות מתמטיות. חודש לאחר מכן שוחררה סדרת V2, ששילבה 2 דגמים בסיסיים (DeepSeek-V2, DeepSeek-V2-Lite) ו-2 צ'אטבוטים (-Chat). אורך ההקשר הוגדל ל-128 אלף, שזו רמת ניתוח של ספרים, מסמכים משפטיים ומאמרים מדעיים מורכבים.

בסוף נובמבר 2024, גרסת R1-Lite-Preview הפכה לזמינה. היא הוכשרה בביצוע הסקה לוגית (ניבוי), חשיבה מתמטית ופתרון בעיות בזמן אמת. גם אז, המודל היה מסוגל להתחרות בפיתוחי OpenAI.

בדצמבר 2024, שוחרר מודל DeepSeek-V3-Base וגרסת הצ'אט DeepSeek-V3, שתיהן גרסאות משופרות של V2 שהציגו מהירויות עיבוד מהירות יותר, מאומנות על 14.8 טריליון אסימונים של הקורפוס הרב לשוני (מסד נתונים של טקסט במספר שפות, בעיקר אנגלית וסינית), עם תוכן מוגבר של נתונים מתמטיים ותכנותיים. עד מהרה, בינואר 2025, הופיע מודל ה-R1. במקביל, החברה הוציאה את גרסת ה-R1-Zero. הוא שופר בשיטת ה-Reforcement Learning (RL) ללא הכשרה מוקדמת באמצעות SFT (Speed-Focused Adaptation). כתוצאה מכך, המודל למד בדיקה עצמית, השתקפות ויצירת שרשראות ארוכות של חשיבה. עם זאת, היו קשיים בקריאה ובערבוב של שפות. פותחה גם גרסת R1-Distill, שנבנתה על גבי מודלים אחרים שהוכשרו מראש בקוד פתוח כמו LLaMA ו-Qwen (בשימוש בסביבות מוגבלות חישובית).

אפליקציית DeepSeek

הגרסה לנייד, המבוססת על גרסה R1, זמינה למכשירי iOS ואנדרואיד (התקנה חינם). החל מינואר 2025, השירות תומך בעיבוד טקסט: משתמשים יכולים לשאול שאלות ולקבל תשובות בצ'אט. עם זאת, בשל הצמיחה המהירה בפופולריות של בינה מלאכותית חדשה וכתוצאה מכך, עומס יתר על השרת, האפליקציה עלולה לחוות הפרעות. כמו כן, על פי הצהרות רשמיות, השירות היה נתון ל"התקפות זדוניות בקנה מידה גדול" והוא משתמש בכל המשאבים הזמינים כדי להילחם בהן.

החסרונות של DeepSeek

קודם כל, מדובר בטעויות טכניות וכשלים המתרחשים מעת לעת, מידע שקרי שנוצר מדי פעם ושימוש בחלקי דיבור בצורות שגויות. כמו כן, צנזורה. כאמור לעיל, אי אפשר לדבר על פוליטיקה (למשל על מעמדה של טייוואן) עם מערכת הבינה המלאכותית וזה מגביל ישירות את היכולת שלו לספק מידע באופן אובייקטיבי.

חשוב לקחת בחשבון גם את הדברים הבאים. על פי מדיניות הפרטיות שלה, החברה מאחסנת נתונים אישיים של משתמשים בשרתי החברה הממוקמים בסין: תאריך לידה, תכני טקסט ואודיו, קבצים שהורדו, היסטוריית צ'אטים. הרשימה עשויה לכלול גם מידע טכני, מדגם המכשיר ומערכת ההפעלה ועד לכתובת ה-IP ודפוס ההקשות.

רשומות לפי מדדים

בדיקות בינלאומיות מראות תוצאות יוצאות גופן בגרסת R1, שמשתוות או אפילו עולות על ההישגים של פיתוחי OpenAI:

דיוק – 79.8%;
פתרון בעיות מתמטיות – 97.3%;
קידוד – 96.3%
MMLU (Massive Multitask Language Understanding, מבחן מקיף להערכת רמת הידע בתחומים שונים) – 90.8%. המבחן עוזר לבדוק חשיבה לוגית, יכולת הבנת שפה ולימוד.

תחרותיות

הרשת העצבית הסינית מציעה פתרונות יעילים ומשתלמים יותר בשיפור הבינה המלאכותית ובכך מאתגרת את מתחרותיה הגדולות. כך, הרשת העצבית של מודל R1 דומה באיכותה ל-GPT-4o וגרסת o1 מבית OpenAI ועלות ההכשרה שלה היא 6 מיליון דולר (לעומת 100 מיליון דולר שהושקעו בשיפור GPT-4 במהלך שנת 2023). המערכת גם משתמשת רק בעשירית מכוח המחשוב בהשוואה למתחרים שלה.

בנוסף, החברה מפרסמת קוד, אלגוריתמים ופרטי הדרכה ברשות הרבים ומערבת באופן פעיל מומחים צעירים בעלי פרופילים שונים מאוניברסיטאות מובילות בסין בפיתוח.

השוואה עם ChatGPT

נתון	DeepSeek	ChatGPT
מבנה ועיצוב	Mixture-of-Experts (MoE): משתמש ב-37 מיליארד פרמטרים מ-671 תת-דגמים זמינים (מומחים) עבור משימות שונות.	Transformer: משתמש בכל הפרמטרים הזמינים, מה שהופך את המודל למגוון יותר, אך מפחית את מהירות עיבוד השאילתות.
ביצועים ויכולות	מצוין במשימות טכניות, במיוחד קידוד ופתרון בעיות מתמטיות מורכבות. מסוגל לבצע פונקציות כגון הדגשת תחביר וזיהוי שגיאות.	ידוע בכישורי האינטראקציה עם המשתמשים וביצירתיות שלו.
זמן תגובה ממוצע לשאילתות מורכבות	תגובה מיידית	כ-10 שניות
מהירות עיבוד משימות טכניות	כ-10 שניות	כ-30 שניות
ניהול תוכן	יש צנזורה פוליטית.	מעודכן היטב על אירועים בעולם ויכול לספר הרבה.
מיקוד פיתוח	בעיקר השוק האסייתי.	שוק גלובלי וריבוי משימות.
מאגרי מידע להדרכה	בעיקר בסינית ובאנגלית.	מגוון רחב יותר של שפות, מקורות מגוונים יותר.
טכנולוגיות (קוד מקור)	פתוח.	סגור.

השלכות על שוק הבינה המלאכותית העולמי

הצלחתה של DeepSeek כבר משפיעה בחוגים הפוליטיים הגבוהים ביותר בסין. ב-20 בינואר, היום בו נחשפה גרסת R1 לציבור, מייסד החברה ליאנג השתתף בפורום סגור לאנשי עסקים ומומחים בהנחיית ראש ממשלת סין לי צ'יאנג. נוכחותו של ליאנג בפגישה היתה סימן פוטנציאלי לכך שההתפתחות שלו יכולה להיות שימושית למטרות פוליטיות. בפרט, מעורבותה של ממשלת סין במגזרים אסטרטגיים כמו בינה מלאכותית.

צניחת המניות ויתרונות השירות

ההתפתחויות של הסטארט-אפ הסיני עוררו סערה בבורסות העולם, כבר ביום הראשון לאחר יציאת האפליקציה לנייד של DeepSeek, מניית Nvidia ירדה ב-18%. הסיבה פשוטה: המודל של DeepSeek מתחרה עם השירותים המערביים, בעודו מפגין הצלחה דומה עם עלויות נמוכות יותר עבור משאבי מחשוב. וזה מאיים אוטומטית על הדומיננטיות של חברות אמריקאיות בתחום הבינה המלאכותית. המשקיעים הטילו ספק בחוכמת ההשקעה בפיתוח והטמעה של AI אמריקאי. עם זאת, לאחר צניחת המניות הראשונית, מניית Nvidia התאוששה ב-8%, מה מצביע על שיקום חלקי של אמון המשקיעים.
כיצד לשלב רשת נוירונים סינית בעסקים.

קוד מקור פתוח מוריד את מחסום הכניסה לארגונים המתכננים ליישם בינה מלאכותית בעבודה שלהם. כתוצאה מכך, הטכנולוגיה הופכת נגישה יותר למגוון רחב יותר של עסקים. בנוסף, חברות שאימצו את DeepSeek זוכות ליתרונות אסטרטגיים עם NLP מתקדם לאינטראקציות עם לקוחות; תמיכה מרובת שפות מתקדמת לחדירה לשוק בינלאומי; אלגוריתמי למידה אדפטיביים למיטוב פתרון בעיות.

עבור עסקים קטנים שמתמודדים לרוב עם אתגרים כמו תקציבים מוגבלים והצורך ללהטט במספר משימות בו זמנית, DeepSeek מציעה לפתור את הבעיות הללו. לדוגמה, בשל אפיון הקוד הפתוח, חברות יכולות להתאים אותו באופן מלא לצרכים ולמשימות שלהן. תכונה שימושית במיוחד עבור סטארט-אפים ועסקים קטנים. DeepSeek כנראה גם תפחית את הצורך בעבודת כפיים, תאפשר לחסוך כסף ולהקצות יותר משאבים ליוזמות חשובות יותר. למערכת הסינית יש גם פונקציית ניתוח. השירות מסוגל לספק מידע בזמן אמת על ביצועים עסקיים, שיסייע בקבלת החלטות חכמות יותר לפיתוח עסקי.

העתיד של DeepSeek: תחזיות

הצלחת DeepSeek היא לא רק עדות לחדשנות טכנולוגית. התופעה תשפיע באופן מהותי על האופן שבו חברות משתמשות בבינה מלאכותית. אחת הסיבות היא הקוד הפתוח והיכולת להתאים את המודל לצרכים של ארגון או אדם מסוים. רשת העצבים הסינית כבר הוכיחה את התחרותיות שלה וגרמה לתהודה בשוק הבינה המלאכותית ולתנודות בשווקי המניות.

זה עשוי להאיץ את אימוץ הבינה המלאכותית בתעשיות רבות על ידי הצעת דרכים זולות ויעילות יותר לייעל משימות, תמיכת לקוחות וביצוע ניתוחים. סביר גם שהטכנולוגיה תתפשט במהירות מחוץ לסין. עם זאת, קשה להסיק מסקנות כאלה בשל מתחים פוליטיים וכלכליים הקשורים לטכנולוגיה הסינית. מדינות מסוימות עשויות להטיל הגבלות על השימוש ב-DeepSeek במגזר הארגוני והממשלתי.

באשר לתחרות עם מערכות הבינה המלאכותית המערביות, המשך פיתוח הפיתוח תלוי באיכות יצירת התוכן, בהכנסת חידושים בארכיטקטורת הרשת העצבית וביכולת לייעל עלויות. אבל, גם אם התחרות בשוק תגבר, סביר להניח שהעתיד אינו שייך לבינה מלאכותית אחת ספציפית, אלא למערכת אקולוגית מורכבת. תיאורטית, חברות יוכלו להשתמש ב-AI שונה כדי לפתור בעיות שונות (למשל, ChatGPT ליצירתיות ולדיון בנושאים יומיומיים, בעיקר לפסיכולוגים ביחסים, בעוד שהפיתוח החדש יוקדש לתכנות). כך או כך, הטכנולוגיה משתפרת כל הזמן ונראה שהשוק ימשיך להשתנות ללא הרף.

הגדרות פרטיות