ברכת השבטים: ארכיטקטורת Mixture of Experts בתורה

יעקב אבינו עומד על ערש דווי ומסתכל על שנים עשר בניו. כל אחד שונה מהשני לחלוטין: יהודה - מנהיג טבעי שמושך אליו כולם, יששכר - תלמיד חכם שיושב באוהלים, זבולון - איש מסחר שעוסק בספנות, דן - שופט צדק, נפתלי - רץ מהיר עם מסרים.

האתגר: איך לברך עם שכל חלקיו שונים? יעקב יכול היה לנסות להפוך את כולם לאותו דבר - "תהיו כולכם מנהיגים" או "תהיו כולכם לומדים". אבל הוא בוחר בדרך אחרת לחלוטין.

"אִישׁ אֲשֶׁר כְּבִרְכָתוֹ בֵּרַךְ אֹתָם" (בראשית מט, כח)

כל אחד מקבל ברכה ייחודית, מותאמת למי שהוא. לא אחידות - התמחות.

שלושת אלפים שנה אחרי יעקב, חוקרי בינה מלאכותית מגיעים לאותה תובנה בדיוק. ב-1991 הם ממציאים ארכיטקטורה בשם

Mixture of Experts (MOE)

: במקום מודל אחד ענק שמנסה לעשות הכל, בונים קבוצה של מומחים שכל אחד מתמחה בתחום אחר. רשת מתאמת (

gating network

) מחליטה מתי להפעיל כל מומחה.

העיקרון זהה: כוח לא באחידות, אלא בגיוון מתואם.

העיקרון: ייחוד + תיאום = כוח

יעקב לא רק מברך כל בן בנפרד. הוא קורא לכולם לבוא ביחד:

"הֵאָסְפוּ וְאַגִּידָה לָכֶם... הִקָּבְצוּ וְשִׁמְעוּ בְּנֵי יַעֲקֹב וְשִׁמְעוּ אֶל יִשְׂרָאֵל אֲבִיכֶם" (בראשית מט, א-ב)

התכנסו, הקשיבו ביחד. 12 ברכות שונות, אבל מסר אחד משותף: כל אחד ייחודי, אבל הכוח בשילוב.

במונחים מתמטיים, מודל MOE מבטא את אותו העיקרון:

$$y = \sum_{i=1}^{12} g_i(x) \cdot E_i(x)$$

כאשר $E_i(x)$ הוא תרומת המומחה ה-$i$, ו-$g_i(x)$ הוא המשקל שה-gating network נותן לו. המשקולות מסתכמות ל-1.

התוצאה הסופית אינה 12 תשובות נפרדות - היא תשובה אחת שמשלבת את החוזקות של כל המומחים. בדיוק כמו שעם ישראל אינו 12 שבטים נפרדים אלא עם אחד עם 12 תפקידים.

שנים עשר מומחים, עם אחד

כשיעקב מברך את בניו, כל שבט מקבל ברכה ייחודית. אם נתרגם למומחים בתוך מודל LLM:

ראובן (בראשית מט, ג-ד): "בְּכֹרִי אַתָּה כֹּחִי וְרֵאשִׁית אוֹנִי... פַּחַז כַּמַּיִם אַל תּוֹתַר"
→ Expert לשפות טבעיות: פוטנציאל ענק אבל לא מספיק ממוקד. יודע הרבה שפות אבל לא בעומק.

שמעון ולוי (שם, ה-ז): "כְּלֵי חָמָס מְכֵרֹתֵיהֶם... אֲחַלְּקֵם בְּיַעֲקֹב"
→ Expert לזיהוי spam ותוכן מזיק: אגרסיבי, מופעל כש-input חשוד. מפוזר בכל שכבות המודל.

יהודה (שם, ח-י): "גּוּר אַרְיֵה יְהוּדָה... לֹא יָסוּר שֵׁבֶט מִיהוּדָה"
→ Expert למנהיגות ואסטרטגיה: מופעל לשאלות על decision making, ניהול, פוליטיקה. הכי חזק בהשפעה.

זבולון (שם, יג): "זְבוּלֻן לְחוֹף יַמִּים יִשְּׁכֹּן"
→ Expert לכלכלה ומסחר: מופעל לשאלות על שווקים, מחירים, כלכלה עולמית.

יששכר (שם, יד-טו): "יִשָּׂשכָר חֲמֹר גָּרֶם... וַיֵּט שִׁכְמוֹ לִסְבֹּל"
→ Expert למתמטיקה ומדע: עושה את העבודה הכבדה. מופעל לחישובים, הוכחות, ניתוח כמותי.

דן (שם, טז-יז): "דָּן יָדִין עַמּוֹ"
→ Expert להיגיון ולפילוסופיה: מנתח טיעונים, מזהה fallacies, שופט ביקורתיות של רעיונות.

גד (שם, יט): "גָּד גְּדוּד יְגוּדֶנּוּ וְהוּא יָגֻד עָקֵב"
→ Expert לאבטחת מידע וסייבר: מופעל כשהשאלה קשורה להגנה, איומים, פרוטוקולי אבטחה.

אשר (שם, כ): "מֵאָשֵׁר שְׁמֵנָה לַחְמוֹ"
→ Expert לתזונה ובריאות: מופעל לשאלות על אוכל, דיאטה, wellness, איכות חיים.

נפתלי (שם, כא): "נַפְתָּלִי אַיָּלָה שְׁלֻחָה"
→ Expert לסיפור storytelling ותקשורת: מופעל כשצריך לנסח, לספר, להעביר מסר בצורה מרתקת.

יוסף (שם, כב-כו): "בֵּן פֹּרָת יוֹסֵף... וַתֵּשֶׁב בְּאֵיתָן קַשְׁתּוֹ"
→ Expert לניהול פרויקטים ותכנון: רואה תמונה גדולה, מתכנן ארוך טווח, מנהל משאבים.
(אפרים ומנשה = שני sub-experts: תכנון אסטרטגי + ביצוע טקטי. יעקב הבין: strategy חשוב יותר מ-execution בלבד)

בנימין (שם, כז): "בִּנְיָמִין זְאֵב יִטְרָף בַּבֹּקֶר יֹאכַל עַד"
→ Expert לתגובות מהירות ו-brainstorming: מופעל כשצריך רעיונות יצירתיים מהר, מחשבה רוחבית.

המיפוי לוגי: כל מומחה מתמחה בתחום ידע אחר, בדיוק כמו ש-GPT-4 (לפי השמועות) מחולק למומחים שונים שכל אחד מתמחה בקטגוריה אחרת של ידע.

כל שבט הוא $E_i$ במערכת - expert עם domain expertise ייחודי. ה-gating network? השכבה שמחליטה איזה משקל לתת לכל expert בהתאם לשאלה.

ה-Gating Network: מי מחליט מתי להפעיל מי?

במערכות MOE, ה-gating network מנתח את ה-prompt ומחליט איזה משקל לתת לכל expert. זה קורה בכל שכבה של המודל:

שאלה: "מה התמ"ג של ישראל ב-2024?"
- Gating מזהה: כלכלה + מספרים
- משקל גבוה ל-Expert כלכלה (זבולון): 0.6
- משקל בינוני ל-Expert מתמטיקה (יששכר): 0.3
- משקל נמוך לשאר: 0.1

שאלה: "תכנן לי אסטרטגיית מוצר לשנה הבאה"
- Gating מזהה: תכנון + מנהיגות + אסטרטגיה
- משקל גבוה ל-Expert ניהול (יוסף): 0.5
- משקל גבוה ל-Expert מנהיגות (יהודה): 0.4
- משקל נמוך לשאר: 0.1

שאלה: "ספר לי סיפור על..."
- Gating מזהה: storytelling + יצירתיות
- משקל גבוה ל-Expert תקשורת (נפתלי): 0.7
- משקל בינוני ל-Expert brainstorming (בנימין): 0.2
- משקל נמוך לשאר: 0.1

העיקרון: המודל לומד באופן אוטומטי איזה expert הכי רלוונטי לכל סוג שאלה. זה לא כללים קבועים - זה למידה מנתונים.

למה MOE עובד טוב יותר?

התמחות: Expert למתמטיקה (יששכר) לא צריך "לדעת" על storytelling - הוא מתמקד רק בחישובים. כל expert מתרכז בתחום הידע שלו ומשתפר בו.

מדרגיות: רוצה לשפר ידע בפיזיקה? הוסף expert חדש לפיזיקה. לא צריך לאמן מחדש את כל המודל.

חוסן: אם expert אחד נכשל או מייצר פלט גרוע, ה-gating network יכול להוריד את המשקל שלו ולסמוך על experts אחרים.

יעילות: במקום להפעיל את כל הפרמטרים של מודל ענק, מפעילים רק את ה-experts הרלוונטיים. שאלה על מתמטיקה? רק יששכר + דן עובדים, השאר "ישנים".

שנים עשר שבטים, עם אחד

"כָּל אֵלֶּה שִׁבְטֵי יִשְׂרָאֵל שְׁנֵים עָשָׂר" - הפסוק מדגיש את המספר 12. לא להתעלם מהשוני, לא לטשטש אותו. 12 שבטים נפרדים.

"וְזֹאת אֲשֶׁר דִּבֶּר לָהֶם אֲבִיהֶם" - אבל יעקב מדבר אליהם ביחד, כיחידה אחת.

זה בדיוק מה שקורה ב-MOE. הנוסחה:

$$\text{output} = \sum_{i=1}^{12} g_i(\text{prompt}) \cdot E_i(\text{prompt})$$

התשובה הסופית היא סכום משוקלל של כל ה-experts. לא 12 תשובות נפרדות - תשובה אחת שמשלבת את כולם. ההבדל בין MOE לאוסף אקראי של experts הוא ה-gating network המתאם. בלי תיאום - כל expert נותן תשובה שונה וסותרת. עם gating network - משקולות מדויקות שמייצרות תשובה אחת קוהרנטית.

עם ישראל: 12 שבטים שונים, אבל עם אחד.
מודל MOE: 12 experts שונים, אבל תשובה אחת.

מהתורה ל-GPT

GPT-4 (לפי שמועות): MOE עם מומחים שונים - expert לקוד, expert למתמטיקה, expert לשפה טבעית. כשאתה שואל שאלת תכנות, ה-gating network נותן משקל גבוה ל-expert הקוד.

Gemini Ultra: Google השתמש ב-MOE כדי לבנות מודל שמצטיין בכמה תחומים - כל expert מתמחה בקטגוריה אחרת (visual reasoning, mathematical reasoning, code generation).

Switch Transformer (Google): מודל ענק עם 1.6 טריליון פרמטרים - אבל רק חלק קטן "מתעורר" בכל פעם. כל expert מתמחה בסוג tokens שונה.

בכל מודל: כוח בהתמחות מתואמת של experts, לא במודל אחד שמנסה הכל.

הבחירה של יעקב: התמחות ולא אחידות

יעקב היה יכול לנסות להפוך את כל בניו לאותו דבר. "תהיו כולכם כמו יהודה - מנהיגים חזקים". "תהיו כולכם כמו יששכר - לומדי תורה". זה היה פשוט יותר, צפוי יותר.

אבל יעקב בחר אחרת:

"אִישׁ אֲשֶׁר כְּבִרְכָתוֹ בֵּרַךְ אֹתָם" (בראשית מט, כח)

כל אחד לפי הייחודיות שלו. לא אחידות - התמחות.

אותו דילמה בדיוק עומדת מול מפתחי AI: לבנות מודל אחד ענק שמנסה לעשות הכל (מונוליטי), או מערכת של experts שכל אחד מתמחה בתחום אחד (MOE)?

מודל מונוליטי: כל הנוירונים לומדים לעשות הכל → תוצאה: בינוניות בכל תחום.
מודל MOE: כל expert מתמחה בתחום אחד → תוצאה: מצוינות בתחומו.

יעקב ידע: כוח לא באחידות, אלא בייחודיות מתואמת.

מחשבות לסיום

לפני 3000 שנה, יעקב הבין עיקרון יסודי: כוח אמיתי לא באחידות אלא בגיוון מתואם. כל בן עם הכוח הייחודי שלו, אבל כולם פועלים יחד תחת מטרה משותפת.

היום, כשאנחנו בונים את מודלי הבינה המלאכותית המתקדמים ביותר, אנחנו מגלים שוב את אותו העיקרון: GPT-4, Gemini Ultra, Switch Transformer - כולם משתמשים ב-MOE. לא מודל אחד ענק שמנסה הכל באופן בינוני, אלא experts מתמחים שעובדים יחד.

החכמה העתיקה מלמדת אותנו על הטכנולוגיה המודרנית: איש אשר כברכתו - תן לכל expert להתמחות במה שהוא הכי טוב בו. שבטי ישראל שנים עשר - אבל וודא שיש מנגנון תיאום שמחבר את כולם למטרה אחת.

הפרשה לא רק מתארת את העבר - היא מציעה blueprint לעתיד.