קנת' קוקיאר
1,802,057 views • 15:51

העוגה החביבה על האמריקאים היא...?

קהל: תפוחים. קנת קוקיאר: תפוחים, כמובן. איך אנו יודעים? בגלל הנתונים. רואים את המכירות בסופרמרקטים. בודקים את המכירות של כל עוגות 30 הס"מ הקפואות, ועוגות התפוחים מנצחות בגדול. רוב המכירות הן של עוגות תפוחים. אבל אז הסופרמרקטים החלו למכור עוגות יותר קטנות, בקוטר 11 ס"מ, ופתאום עוגות התפוחים ירדו למקום הרביעי או החמישי. מדוע? מה קרה? חישבו על זה. כאשר אנו קונים עוגת 30 ס"מ, כל המשפחה צריכה להסכים, ועוגת תפוחים היא בעדיפות שניה אצל כל אחד. (צחוק) אבל כשקונים עוגת 11 ס"מ אישית, אפשר לקנות את זו שכל אחד אוהב אישית. כל אחד מקבל את מה שבעדיפות ראשונה אצלו. יש יותר נתונים. ניתן לראות דברים שלא ניתן היה לראות כאשר היו פחות נתונים.

העניין הוא שיותר נתונים אינם מאפשרים רק לראות יותר — יותר מאותם הדברים שראינו קודם. יותר נתונים מאפשרים לראות דברים חדשים. הם מאפשרים לנו לראות יותר טוב. הם מאפשרים להסתכל אחרת. במקרה זה, הם מאפשרים לראות מהי העוגה האהובה באמריקה: לא עוגת תפוחים.

כולכם בוודאי שמעתם את המושג 'ביג דאטה'. בטח נמאס לכם לשמוע את המושג 'ביג דאטה'. אכן, יש הרבה הפרזה סביב המושג, וזה חבל מאוד, כי ביג דאטה הוא כלי חשוב ביותר שבאמצעותו החברה עתידה להתקדם. בעבר, נהגנו להסתכל על נתונים מצומצמים ולחשוב מה משמעותם בניסיון להבין את העולם, וכעת יש לנו הרבה יותר כאלה, יותר ממה שיכלו להיות אי-פעם בעבר. מה שאנו מגלים הוא שכאשר יש לנו מסד נתונים גדול, ניתן לעשות דברים שלא יכולנו לעשות כאשר היו לנו פחות נתונים. ביג דאטה הוא חשוב והוא חדש, וכאשר חושבים על כך, הדרך היחידה בה עולמנו יוכל להתמודד עם האתגרים הגלובליים — לספק לכולם אוכל, טיפול רפואי, אנרגיה, חשמל, וגם לוודא שלא ייצלו בגלל ההתחממות הגלובלית — תהיה באמצעות שימוש יעיל בנתונים. אז מה כל-כך שונה בביג דאטה? על מה כל הרעש?

כדי לענות על השאלה, הבה נחשוב כיצד המידע נראה פעם, כיצד הוא נראה בפועל בעבר. ב-1908, באי כרתים, ארכיאולוגים גילו דיסקה מחימר. הם תיארכו אותה ל-2000 לפנה"ס, כלומר, לפני 4,000 שנה. יש כיתוב על הדיסקה שאין אנו יודעים את פירושו. זוהי תעלומה. אבל מה שחשוב כאן הוא שכך נראה מידע לפני 4,000 שנה. זו הדרך בה החברה איחסנה והעבירה מידע.

החברה לא התקדמה מאז כל-כך. אנו עדיין מאחסנים מידע על דיסקות, אבל היום אנו יכולים לאחסן הרבה יותר מידע, הרבה יותר מאי-פעם. יותר קל לחפש אותו. יותר קל להעתיקו. יותר קל לשתפו. יותר קל לעבדו. ניתן גם להשתמש בו למטרות שאף פעם לא חשבנו עליהן כאשר אספנו את המידע. בהקשר זה, המידע הפך ממצבור לזרם, ממשהו שהוא נייח וסטטי למשהו שהוא זורם ודינמי. מתקיימת, אם תרצו, נוזליות של מידע. הדיסקה מלפני 4,000 שנה שנתגלתה בכרתים היא כבדה. היא אינה מחזיקה הרבה מידע, והמידע הזה אינו ניתן לשינוי. לעומתו, כל הקבצים שאדוארד סנודן לקח מהסוכנות לביטחון לאומי של ארה"ב נכנסים בזכרון נייד בגודל של ציפורן, וניתן לשתפם במהירות האור. יותר נתונים. יותר.

אחת הסיבות שיש לנו כל-כך הרבה מידע היום היא שאנו אוספים דברים שתמיד אספנו עליהם מידע, אבל סיבה נוספת היא שאנו אוספים דברים שתמיד היו קשורים במידע אבל אף פעם לא היו בתבנית של נתונים וכעת אנו הופכים אותם לנתונים. חישבו למשל על שאלת המיקום. לדוגמא, מרטין לותר. אם היינו רוצים לדעת ב-1500 איפה נמצא מרטין לותר, היינו צריכים לעקוב אחריו כל הזמן, אולי עם קולמוס-נוצה וקסת-דיו, ולרשום את המיקומים. אבל חישבו כיצד זה היה נראה היום. אנו יודעים שהיכן שהוא, ככל הנראה בבסיס נתונים של חברת תקשורת, ישנו גיליון אלקטרוני או לפחות רשומה הרושמת את המידע על כל אחד ואיפה הוא היה בכל עת. אם יש לך טלפון נייד, ובו יש איכון לווייני, אבל גם אם אין, הוא יכול לתעד את המידע עליך. מבחינה זו, המיקום הפך לנתון.

חישבו למשל על תנוחה, האופן בו אתם ישובים כרגע, האופן בו אתה יושב, האופן בו אתה יושב, האופן בו את יושבת. אצל כל אחד זה שונה וזו פונקציה של אורך הרגל, הגב והקימור שלו,

ואם הייתי שם חיישנים, אולי 100 חיישנים בכל הכיסאות שלכם, הייתי יכול ליצור תבנית די ייחודית לכל אחד, מין טביעת אצבע, אבל לא מאצבע.

אז מה היינו עושים עם זה? חוקרים בטוקיו משתמשים בזה בתור אמצעי אפשרי נגד גניבת מכוניות. הרעיון הוא שכאשר הפורץ יישב מאחורי ההגה וינסה להתניע, המכונית תזהה שנהג לא מורשה יושב מאחורי ההגה, ואולי המנוע ייכבה, אלא אם תוקלד סיסמה בלוח המחוונים כדי לומר, "יש לי הרשאה לנהוג." מצוין.

מה אם בכל מכונית באירופה תהיה טכנולוגיה זו? מה היינו יכולים לעשות אז? אם היינו צוברים את הנתונים, אולי היינו יכולים לזהות סימנים מקדימים לתאונת דרכים העומדת להתרחש תוך 5 השניות הקרובות. ומה שנאגור אז כנתונים זו עייפות הנהג, והמענה יהיה כאשר המכונית תחוש שהאדם צונח לאותו מצב, היא תדע זאת אוטומטית, תפעיל אתראה פנימית שתרעיד את ההגה, תצפור, כדי לומר, "אדוני, תתעורר, שים לב לכביש." דברים כאלה נוכל לבצע כאשר נהפוך לנתונים יותר ויותר היבטים מחיינו.

מה הערך של ביג דאטה? חישבו על זה. יש לנו יותר מידע. ניתן לעשות דברים שלא ניתן היה קודם. אחד התחומים הכי מרשימים שבו זה קורה הוא התחום של מכונות לומדות. מכונות לומדות הוא ענף של אינטליגנציה מלאכותית, שהיא בעצמה ענף של מדעי המחשב. הרעיון באופן כללי הוא שבמקום להורות למחשב מה לעשות, פשוט נזרוק נתונים בנוגע לבעיה ונאמר למחשב שימצא פיתרון לבד. כדי להבין את הרעיון נסתכל על המקור שלו. בשנות ה-50, איש מדעי המחשב באיי-בי-אם, בשם ארתור סמואל, אהב לשחק דמקה, אז הוא כתב תוכנת מחשב כדי שיוכל לשחק נגד המחשב. הוא שיחק וניצח. הוא שיחק וניצח. הוא שיחק וניצח, כי המחשב ידע רק מהלכים חוקיים. ארתור סמואל ידע משהו אחר. ארתור סמואל ידע אסטרטגיה. לכן הוא כתב תוכנת-משנה שפעלה ברקע, וכל מה שהיא עשתה היה לאמוד את הסבירות שסידור נתון על הלוח יוביל לעמדת ניצחון לעומת עמדת הפסד לאחר כל מהלך. הוא שיחק נגד המחשב וניצח. הוא שיחק נגד המחשב וניצח הוא שיחק נגד המחשב וניצח. ואז ארתור סמואל עזב את המחשב כדי שישחק עם עצמו. הוא שיחק עם עצמו ואסף יותר מידע. הוא אסף יותר מידע וזה הגדיל את הדיוק של החיזוי שלו. ואז ארתור סמואל חזר למחשב, שיחק נגדו והפסיד, ושיחק נגדו והפסיד, ושיחק נגדו והפסיד, וכך ארתור סמואל יצר מכונה שהתעלתה על יכולתו, במשימה שהוא עצמו לימד אותה.

והרעיון הזה של למידת מכונה מגיע לכל מקום. איך לדעתכם יש לנו מכוניות ללא נהג? האם נהיה במצב יותר טוב כחברה אם נכניס את כל חוקי התנועה לתוך תוכנה? לא. האם הזיכרון זול יותר? לא. האלגוריתמים מהירים יותר? לא. המעבדים טובים יותר? לא. כל הדברים הללו חשובים, אבל הם לא הסיבה. הסיבה היא ששינינו את אופי הבעיה. שינינו את אופי הבעיה ממצב שבו ניסינו באופן מוגזם ובגלוי להסביר למחשב כיצד לנהוג למצב בו אנו אומרים, "הנה, קח לך המון נתונים על הרכב. ואתה תמצא את הפיתרון. אתה תמצא שזה רמזור, שהרמזור אדום ולא ירוק, פירושו שצריך לעצור ולא להתקדם."

למידת מכונות נמצאת ביסוד הרבה דברים שאנו מבצעים ברשת: מנועי חיפוש, אלגוריתמים של אמזון להתאמה אישית, תרגום ממוחשב, מערכות לזיהוי קול. לאחרונה, חוקרים התעמקו בסוגיית הביופסיה, של דגימת רקמות סרטניות, והם ביקשו ממחשב לקבוע, באמצעות בחינת הנתונים ושיעורי התמותה, אם התאים הם באמת סרטניים, וכשהנתונים הוזנו למחשב, באמצעות אלגוריתם למידת מכונה, המכונה היתה מסוגלת לזהות את 12 הסימנים המחשידים שמנבאים הכי טוב שריקמה זו מתאי סרטן-שד היא אכן ממאירה. הבעיה: הספרות הרפואית הכירה רק 9 מהם. שלושה מהסימנים היו כאלה שלא היה צורך שאנשים יחפשו, אבל המכונה איתרה אותם.

אבל, ישנם גם צדדים אפלים לביג דאטה. ביג דאטה ישפר את חיינו, אבל יש גם בעיות שצריך להיות מודעים אליהן. הראשונה היא האפשרות שאנו עשויים לסבול מביצוע ניבויים, כי המשטרה עלולה להשתמש בביג דאטה למטרותיה, משהו כמו בסרט "דו"ח מיוחד". זה נקרא "שיטור מנבא", או "חקר פשיעה אלגוריתמי". הרעיון הוא שאם לוקחים המון נתונים, לדוגמא, היכן התרחשו פשעים בעבר, נדע לאן לשגר את סיורי המשטרה. זה נראה הגיוני, אבל הבעיה היא שזה לא ייעצר רק בנתוני המיקום, אלא זה יירד לרמת הפרט. למה שלא נשתמש בנתונים מתעודת התיכון של האדם? אולי עלינו להשתמש בנתונים כמו, אם האדם עובד או מובטל, רמת האשראי שלו, הרגלי גלישתו באינטרנט, אם הוא ער עד מאוחר בלילה. מכשיר הניטור הגופני, אם הוא מסוגל לזהות תגובות כימיות, יראה שיש לו מחשבות תוקפניות. עשויים להיות אלגוריתמים שיכולים לנבא מה אנו עומדים לעשות, ואנו עלולים להיחשב לאחראים לדברים שטרם ביצענו בפועל. פרטיות היוותה אתגר מרכזי בעידן של נתונים מועטים. בעידן ביג דאטה, האתגר יהיה לשמור מכל משמר על הרצון החופשי, על הבחירה המוסרית, על רצון האדם, על העצמאות האנושית.

ישנה בעיה נוספת: ביג דאטה יגזול מאיתנו את עבודותינו. ביג דאטה והאלגוריתמים עומדים לקרוא תיגר על עבודות הצווארון הלבן המקצועיות של המאה ה-21 באותו אופן שהמיכון התעשייתי וקו הייצור קראו תיגר על עבודות הצווארון הכחול במאה ה-20. תחשבו על טכנאי מעבדה שמסתכל דרך מיקרוסקופ על ריקמה סרטנית ומחליט אם היא ממאירה או לא. האדם למד באוניברסיטה. הוא קנה רכוש. הוא או היא מצביעים בבחירות. הוא או היא בעלי עניין בחברה. והעבודה של אותו אדם, כמו גם צי שלם של אנשי מקצוע כמו אותו אדם, ימצאו שהעבודות שלהם השתנו באופן ניכר או למעשה התחסלו כליל. אנו אוהבים לחשוב שהטכנולוגיה יוצרת עם הזמן עבודות, לאחר תקופת-מעבר קצרה וזמנית, וזה נכון ביחס למציאות שאנו חיים בה, שהיא המהפכה התעשייתית, כי זה בדיוק מה שקרה. אבל אנו שוכחים משהו בניתוח זה: ישנם כמה תחומי עבודה שפשוט נמחקים ולעולם לא שבים. המהפכה התעשייתית לא היתה טובה במיוחד עבור סוסים. לכן יהיה עלינו להיזהר ולהתאים את ביג דאטה לצרכינו, צרכינו האנושיים ביותר. יהיה עלינו להיות אדוניה של טכנולוגיה זו, לא משרתיה. אנו נמצאים רק בתחילתו של עידן ביג דאטה, והאמת היא שאנו לא מצטיינים בטיפול בכל הנתונים שאנו מסוגלים לאסוף כיום. זו לא רק בעיה הנוגעת לסוכנות לביטחון לאומי. חברות אוספות המון נתונים והן גם משתמשות בו לרעה, ועלינו להשתפר בתחום זה, וזה יקח זמן. זה קצת כמו האתגר שניצב בפני האדם הקדמון עם האש. זהו כלי, אבל כלי שאם לא נהיה זהירים איתו, הוא ישרוף אותנו.

ביג דאטה עומד לשנות את דרך חיינו, את דרך עבודתנו וחשיבתנו. הוא יסייע לנו לנהל את הקריירות שלנו ולנהל חיים של סיפוק, תקווה אושר ובריאות. אבל בעבר, הסתכלנו על "טכנולוגיית מידע" וראינו רק את ה-"ט", את הטכנולוגיה, החומרה, כי הם היו הדברים הפיזיקליים. כעת אנו צריכים להסתכל על ה-"מ", המידע, הבולט פחות לעין, אבל במובנים מסויימים הוא הרבה יותר חשוב. האנושות יכולה סוף-סוף ללמוד מהמידע שהיא מסוגלת לאסוף, כחלק ממסעינו הנצחי להבנת העולם ומקומנו בתוכו, וזו הסיבה מדוע ביג דאטה הוא עניין כה חשוב.

(מחיאות כפיים)