א. כל פעם שאני כותב על ההתקדמות של בינה מלאכותית, כמה מהחברבוקים הוויזואליים שלי שואלים: אבל למה אתה מדבר בעיקר על בינה מלאכותית שקוראת ומייצרת מילים? מה עם המודל המטורף של גוגל/OpenAI/מאסק שמייצר תמונות או סרטונים?
ב. התגובה הראשונית שלי היא שכיוון שאני מתעסק בעיקר מילים ולא מבין בציורים - טקסט הוא מה שתופס אותי. אבל ייתכן שיש כאן יותר מזה.
ג. ספרי המד"ב של תור הזהב הניחו שרובוטים יהיו הומנואידים (דמויי אנוש). הסיבה, שהציג דומני אסימוב, פשוטה להפליא: כיוון שכל העולם סביבנו מותאם לבני אדם - מטוסים, מכוניות, דלתות, או מדרגות - הרובוט שיצליח להשתלב בהם הכי טוב, הוא רובוט דמוי אדם. במקום לייצר רובוט-מחרשה, רובוט-מכונת-יריה, רובוט-טיפוס-על-סולמות - הכי פשוט יהיה ליצור רובוט דמוי אדם שידע לעשות את כל זה. לא משום שיש משהו בצורת האדם שמותאם לטיסה, אלא משום שרובוט דמוי אדם יהיה מותאם להטסת מטוס שבני אדם יכולים להטיס.
כפי שכולנו יודעים, התחזית הזו לא התגשמה. נכון להיום לפחות, הרובוטים שכן יוצרו היו ייעודיים ולא הומנואידים. עדיין, התחזית הזו אולי יכולה ללמד אותנו משהו.
ד. אם נחלק בצורה גסה את העולם לשניים, יש את היקום הפיזי - בו פועלים עם ידיים, רגליים, כנפיים וסנפירים. אבל על גביו יש יקום שלם שהקימו בני אדם. כשאני פותח דלת, אני משתמש בידיים שלי. כשאני אומר לחבר שלי לפתוח לי את הדלת, אני משתמש בפה. ליתר דיוק, במילים.
ומילים הם עולם שלם, שיש לו גם חלקים יחודיים לו, וגם חלקים מקבילים באופן נרחב לעולם הפיזי. הרבה מאד פעולות, אפילו פיזיות, ניתן לתרגם אל מלים, וממילים חזרה לפעולות.
ה. תארו לעצמכם שאני רוצה לגלגל רובו-כדור אל תוך בית. פיזית אני צריך לפתוח את הדלת, ואז לגלגל אותו דרך הפתח. האם ניתן להמיר את הפעולות האלו למילים? לפחות חלקית, כן. פתיחת דלת מתורגמת ל, ובכן, "פתח את הדלת" (דמיינו שהדלת חשמלית). הגלגול פנימה מתורגם ל"התגלגל ארבע מטר ימינה, ואז פנה שמאלה בתשעים מעלות והתגלגל שוב". אם צריך להיות יותר מדוייק אני יכול לדבר בזוויות, או בקצב התקדמות לשניה או במהירות רדיאנית. הכל במילים. את הפעולה הפיזית לגמרי אני יכול לפרק לרצף של מילים כך שהצד השני ידע לתרגם אותן חזרה לפעולות.
ו. והרי זו אחת מהמטרות של שפה: לעשות אבסטרקציה של משהו מורכב, כך שהצד השני ידע לתרגם את האבסטרקציה הזו למידע, בסוף אפילו פיזי. אם אני מוסר לך כתובת, אני נותן לך מידע גיאוגרפי דרך שפה. מתכון - מידע קולינרי דרך שפה, וכן הלאה והלאה.
ז. השפה, אם כן, היא כמו הרובוט ההומנואיד של אסימוב: אם נתנו למחשב את הכוח להבין שפה חופשית - ולא משנה כרגע האם ההבנה הזו היא הבנה או "הבנה" - הוא קיבל יכולת רחבה מאד בעולם האנושי, ומתוכו גם בחלקים מהפיזי. "לדעת לדבר את השפה" זה כמעט כמו להעניק לבינה מלאכותית ידיים ורגליים. "חפש באליאקספרס אופני כושר וקנה עבורי את הזוג הכי זול של חברה XYZ" היא הוראה מילולית בשפה חופשית, ובינה מלאכותית כבר היום עשויה לעמוד במשימה הזו. אבל בעתיד גם "סע לרחוב זה וזה"; "הדלק את הדוד חצי שעה לפני שאני חוזר מהפגישה האחרונה היום"; "אם מיצי ברחה מהחדר שלח לי התראה"; אולי אפילו "נהל את בניית הבית החדש שלי".
ח. כי בינה מלאכותית, כפי שאנחנו יודעים, לא רק מבינה שפה חופשית (החלק האקוטי בעיני) אלא גם יודעת ליצור אותה. כל דיוני "האם צ'טג'פט יודע ליצור פרסומות טובות" בעיני מתעסקים בפסגה של הדובדבן שבקצפת. גם אם הוא יודע אך ורק לייצר את הטקסט הכי בנאלי - זה אומר שהוא יודע לדבר, כלומר לתקשר. כלומר להגיד לבינה מלאכותית של הסופרמרקט מה רשימת הקניות שלי.
ט. אז בינה מלאכותית של טקסט לבדה יכולה הן להבין פקודות והן ליצור פקודות. אני חושב שכל מתכנת יבין מיד את הפוטנציאל המהמם שבשילוב שתי היכולות האלו, לבדן.
י. יש הרבה מקרים שרק הבנה של מילים לא מספיקה. כדי לנווט בעצמו דרך הדלת, הרובו-כדור צריך לפענח תמונות. כדי לבנות בניין אולי באמת נצטרך ממש רובוט הומנואיד. העולם איננו רק מילים, והאינטראקציה איתו מצריכה יותר מאשר להבין ולדבר. אבל אני מרותק דווקא לבינה מלאכותית של השפה כי כבר עכשיו מספיק השימוש בה לבדה, כדי לעשות כל כך הרבה פעולות.
Loading

