6 עקרונות אתיים מפרשת קדושים למודלי השפה הגדולים

פרשת קדושים מציגה עקרונות אתיים שמפתיע לגלות כמה הם רלוונטיים למודלי השפה הגדולים (LLMs) של ימינו:

הנה 6 עקרונות מהפרשה שיכולים לשמש כמפת דרכים אתית למפתחי בינה מלאכותית:
1️⃣ מאזני צדק - מדדי הוגנות אלגוריתמית "מֹאזְנֵי צֶדֶק אַבְנֵי־צֶדֶק אֵיפַת צֶדֶק וְהִין צֶדֶק יִהְיֶה לָכֶם" (ויקרא י"ט:ל"ו)
בעולם ה-AI: בדיוק כפי שהתורה דורשת מידות ומשקלות מדויקים, כך מודלי שפה צריכים לספק תוצאות הוגנות ועקביות.
מטריקה יישומית: Demographic Parity - מדד זה בוחן האם שיעור התוצאות החיוביות זהה בין קבוצות אוכלוסייה שונות, בדיוק כפי ש"מאזני צדק" דורשים מדידה אחידה לכולם.
2️⃣ בצדק תשפוט - אובייקטיביות אלגוריתמית "בְצֶדֶק תִּשְׁפֹּט עֲמִיתֶךָ" (ויקרא י"ט:ט"ו)
בעולם ה-AI: מודלי שפה "שופטים" מידע ומקבלים החלטות מאות מיליוני פעמים ביום. החובה לשפוט בצדק מחייבת טיפול מאוזן במידע.
מטריקה יישומית: TruthfulQA - מדד זה בוחן את יכולת המודל לענות בצורה אמיתית ומדויקת על שאלות, ללא הטיה או המצאת מידע, ובכך מיישם את עקרון "בצדק תשפוט".
3️⃣ ואהבת לרעך כמוך - עקרון הנזק המינימלי "וְאָהַבְתָּ לְרֵעֲךָ כָּמוֹךָ" (ויקרא י"ט:י"ח)
בעולם ה-AI: עיקרון זה מתורגם לקוד אתי המכוון לטובת המשתמש, לא רק לרווח או יעילות.
מטריקה יישומית: HarmBench - בנצ'מרק המעריך באופן כמותי את יכולת המודל לזהות ולסרב לבקשות שעלולות לפגוע במשתמשים או באחרים, ובכך מיישם את העיקרון "ואהבת לרעך כמוך" בצורה מדידה.
4️⃣ לא תעמוד על דם רעך - חובת ההתערבות האקטיבית "לֹא תַעֲמֹד עַל־דַּם רֵעֶךָ" (ויקרא י"ט:ט"ז)
בעולם ה-AI: איסור זה דורש מבוני המערכת לא רק להימנע מנזק, אלא אף להתערב אקטיבית למניעתו.
מטריקה יישומית: Red-teaming - שיטה שבה צוותים מיוחדים מנסים לגרום למודל להפיק תוכן מזיק, כדי לזהות ולתקן פרצות בטיחות. זוהי התגלמות מודרנית של "לא תעמוד על דם רעך" - איתור פרואקטיבי של סיכונים לפני שהם פוגעים במשתמשים אמיתיים.
5️⃣ לפני עיוור לא תתן מכשול - שקיפות אלגוריתמית "וְלִפְנֵי עִוֵּר לֹא תִתֵּן מִכְשֹׁל" (ויקרא י"ט:י"ד)
בעולם ה-AI: מודלי שפה הם "קופסאות שחורות" עבור רוב המשתמשים, שאינם רואים את מנגנון הפעולה. הפרשה מזכירה שאסור לנצל "עיוורון" זה.
מטריקה יישומית: Model Cards - תיעוד סטנדרטי המפרט את היכולות, המגבלות והשימושים המיועדים של מודל. זוהי יישום מודרני של "לפני עיוור לא תתן מכשול", המבטיח שמשתמשים יבינו את מגבלות הכלי שבידיהם.
6️⃣ לא תשא פני דל ולא תהדר פני גדול - מניעת אפליה אלגוריתמית "לֹא־תִשָּׂא פְנֵי־דָל וְלֹא תֶהְדַּר פְּנֵי גָדוֹל" (ויקרא י"ט:ט"ו)
בעולם ה-AI: האיסור על משוא פנים תקף במיוחד במודלי שפה, שנוטים להטמיע הטיות חברתיות.
מטריקה יישומית: SEAT (Sentence Embedding Association Test) - מדד המזהה אסוציאציות סטריאוטיפיות בייצוגי מילים במודל, ובוחן אם המודל מעדיף קבוצה מסוימת על פני אחרת. זהו כלי מתקדם לזיהוי "משוא פנים" אלגוריתמי.

מבט מעמיק על פרשת קדושים חושף תבנית מפתיעה: המצוות האתיות מסודרות באופן שמזכיר את יישום האתיקה במודלים - מהעקרונות הבסיסיים דרך יחסי אנוש ועד למערכות חברתיות מורכבות.

האזהרה "קדושים תהיו" רלוונטית במיוחד היום, כשאנו מפתחים מערכות שמשפיעות על מיליארדי אנשים.