הרחבות לפרק 18: יורים בנגמ"ש של מדע הנתונים

אסף שפירא
19 ביוני 2021
זמן קריאה 6 דקות

עודכן: 14 בספט׳ 2022

מה מתרחש (:

אני אסף שפירא וזה נטפריקס – הפודקאסט העברי הראשון למדע הרשתות.

בשבועיים האחרונים יצאתי להרפתקה באפליקציה שנקראת קלאבהאוס. לבומרים שבינינו, זו אפליקציה שמאפשרת לנהל שיחות בחדרים וירטואליים ועד לא מזמן היתה זמינה למכשירי אפל בלבד. כאחד מראשוני האנדרואידים ושבע הממלכות הייתי סקרן לראות ממה החבר'ה עם האייפון מתרגשים כל כך, אז התחלתי לשוטט בין החדרים השונים והשיחות שהתנהלו באפליקציה ולצד כמה חדרים מעוררי השראה, הגעתי למסקנה שרוב החדרים באנגלית עוסקים בפיתוח אישי, הסברים על קלאבהאוס ובביטקוין. לעומת זאת רוב החדרים בעברית עוסקים ב... פיתוח אישי, דיונים על קלאבהאוס ו... זהו. אפילו לא חדרונצ'יק קטן על דוג'קוין זצ"ל...

בניסיון נאיבי להזריק תוכן מחתרתי שאינו קשור לקלאבהאוס או לסחר חליפין בביטים, החלטתי לפתוח חדר ועכשיו רק הייתי צריך נושא פופולרי. מכיוון שכל מה שאני יודע זה רשתות, אז בעקבות אתגר של יותם שטיינמן מהפודקאסט (המעולה אגב) של "עושים תנ"ך", החלטתי לייצר קשרים מוזרים ברשת ולהדגים מה בין מדע הרשתות לתנ"ך, למשל, מדוע חרבה סדום בגלל חוק החזקה (ה-Power Law), מה בין משה במדבר וחוק דנבאר, תורת הכאוס וארון הספרים היהודי ועוד. יום אחד זה אולי יצא גם כפרק.

בנוסף, יחד עם אספסוף של אנשי דאטה מהסוג של דרור גולדין מפייסבוק וטל מזרחי (זה מהדף של Analysis Paralysis), פתחנו חדר פרובוקטיבי שבו החלטנו לירות בתוך הנגמ"ש הזה שנקרא מדע הנתונים.

מניח שאם נזרוק אבן, סיכוי טוב שנפגע במישהו ששמע על המושג שנקרא למידת מכונה, למשל, אבל מעולם לא שמע על מדע הרשתות, למרות שהם קיימים בערך אותו זמן. למה? לעניות דעתי, הדבר נובע ממיתוג גאוני של המושג "למידת מכונה". המושג הזה מנגן על העצבים הכי חשופים של בני אדם, שגם ככה סובלים מרגשי נחיתות כשגילו לא מזמן שהם והקופים בני דודים. הרי אנחנו יודעים שמכונה מהירה יותר מבן אדם, אז אם היא גם לומדת, היא בטוח תנצח את המוח האנושי. וככה נולדת לה תיאוריית קונספירציה – משילוב של פחד ובורות: הנה המכונות יודעות עלינו הכל, הן תיכף ישתלטו עלינו, יקבלו החלטות בשבילנו ואם לא נכרה להן מספיק ביטקוין, הן ישמידו אותנו ואז - מי יישאר להשמיד את כל השאר?

הבעיה היא שנכון להיום, וסיכוי טוב שגם מחר, למידת מכונה עונה לנו על שאלות מאד-מאד ספציפיות ובד"כ כאלה שהתשובה שלהן היא כן או לא.

כשאנחנו לוקחים את למידת המכונה למקומות שהם קצת יותר מורכבים, אנחנו לרוב מוכנים לקחת את הסיכון שנקבל תוצאה שגויה, למשל בעולם הפירסום. הנזק של הצגת מוצר לא מתאים לצרכן הוא קטן יחסית ומי יודע, אולי בכל זאת הם יקנו את המיטת שיזוף. בכל זאת – מחיר מבצע.

אז בניגוד ללמידת מכונה שהיא בהייפ משמעותי מאד, מדע הרשתות סובל מהיעדר יחסי ציבור.

וזו הסיבה שהתחלתי עם הפודקאסט, מתוך ניסיון לדברר את התחום המופלא הזה. מצד אחד יש לו כל כך הרבה יישומים ומצד שני, כמו שאלון ניר מספוטיפי אמר באחת ההרצאות שלו, מדע הרשתות משמש בעיקר כנשק סודי של יודעי חן בעולם מדע הנתונים וחבל.

כי מדע הרשתות הוא פשוט - אבל פשוט לא אינטואיטיבי.

כמו שפעם אמרו שהשמש סובבת סביב כדוה"א וזה נשמע לכולם פשוט ואינטואיטיבי הרי אנחנו נזר הבריאה והכל וזה רק הגיוני שהשמש תרים לנו. ואז בא מישהו ואמר, חבר'ה, זה פשוט, אבל הפוך: כדוה"א מסתובב סביב השמש ואני אפילו יכול להוכיח את זה.

אז למרות שזה היה פשוט, לקח כמה מאות שנים לשכנע, כי זה פשוט – אבל הפוך.

והרשת היא הפוכה לאיך שאנחנו מסתכלים על העולם. אנחנו אוהבים רשימות ולעבור על העצים אחד אחד והרשת בעצם אומרת: למה שלא תרימו רחפן ותסתכלו על היער מלמעלה? וזה מביא אותי לסוגיה של השאלות שדיברנו עליהן קודם בהקשר למידת מכונה.

אנחנו יכולים לשאול שאלות בדרך כלל רק על מה שאנחנו רואים וכשאנחנו בגובה הקרקע, שדה הראיה שלנו מוגבל. מבט רשתי מאפשר לנו לראות הרבה יותר וכך לשאול שאלות על דברים שאפילו לא חשבנו שצריך לשאול עליהם. ולא רק שהרשת מצביעה לנו מאיפה כדאי להתחיל לטפל בדאטה, אלא היא יכולה להצביע לנו על קרחות ביער ולהראות לנו מה חסר לנו.

אחת הדוגמאות שאני אוהב להראות בהקשר זה היא דוגמא מעולם ההגנה בסייבר.

אני מניח שכל מנהל מוצר נתקל בתופעה הזו: דבר ראשון שלקוחות מבקשים זה שהמערכת שמספקים להם תייצר להם התרעות כדי שיוכלו להתמקד במה שחשוב. הדבר השני שהם מבקשים זה לדעת איפה לעזאזל הכפתור שמכבה את ההתרעות האלה שמייצרות הרבה זבל ורעש.

זה שסידרנו את כל ההתרעות שלנו בתור ואפילו תיעדפנו, זה לא מספיק. גם מקרה קיצוני של OCD יישבר בסוף מאין סוף ההתרעות שמחכות לו בתור ומחכות לטיפול. למה?

כי כל התרעה כזו דורשת הבנה שלה והתעמקות. סיימנו להתעמק בבעיה הראשונה, הנה מגיעה הבעיה השניה ועכשיו צריך לצלול אליה. הבעיה השלישית דומה לראשונה והופה, עכשיו צריך לזכור את זה. מבט רשתי על התור הזה יאפשר לנו להבין ממבט על איך נראות ההתרעות. כדי להבנות את ההתרעות כרשת, נוכל למשל להציג את רשת המחשבים, איזה IP קשור לאיזה IP.

הרשת שתיווצר לנו תהיה בנויה מרכיבי קשירות או קהילות, שלכל אחד מהם מרכז כובד משלו.

כך לא רק שנוכל לראות אם ההתרעה היא נקודתית אלא האם היא מתפשטת ברשת ואיפה. וכך גם נוכל לראות את מקור ההתפשטות או את צוואר הבקבוק שלה.

מתוך המצגת בכנס של NEO4J בנושא הגנה בסייבר - התרעות משמאל ותצוגה רשתית מימין

ולפעמים אפילו לא נצטרך להשתמש באלגוריתמיקת הרשתות שדיברנו עליה. במקרה של רשתות לא גדולות, האינטואיציה של העין האנושית לפעמים מספיקה בהחלט.

אז לאן אני חותר?

כשמפנים אצבע מאשימה, 3 אצבעות מופנות למצביע וכך גם במקרה הזה.

למרות שאני שואף להראות את היישומיות הגבוהה של התחום, עד עכשיו ראיינתי בעיקר אקדמאים שהראו מחקרים מרתקים בתחום הרשתות, ולתחושתי תמיד הראינו כיצד ליישם מחקרים אלו בעולם האמיתי, אבל זה כנראה לא מספיק.

לכן אשמח להקדיש את הפרק הבא למדע הרשתות בשטח, כלומר, לראיין, אם צריך בכוח, אנשים שעוסקים בתחום ושייספרו על השימוש שהם עושים ב"נשק הסודי" הזה. המטרה היא להראות שהנושא אינו בשמיים וגם בתעשייה ובעולם אנשים נורמטיביים לחלוטין מכירים את התחום ונהנים מלעסוק בו והכי חשוב – מוצאים אותו מועיל. ולכן, אסיים לעת עתה את הסדרה האקדמאית עם המרואיין הבא, שהמחקר המטלטל שלו ישנה את צורת החשיבה שלנו על רשתות. אפרופו יישומיות, מאז הראיון איתו נתקלתי לפחות בשלושה מקרים שבהם ניגשתי לבעיה רשתית ואמרתי לעצמי, וואללה – זה ממש הנושא של הפרק. אז בלי הרבה יותר מדי הקדמות – הנה ההקדמה הבאה:

בפרק הקודם דיברנו על המציגים הישראלים בכנס הרשתות העולמי Networks2021 ודיברנו על המחקרים שיוצגו והבשורות שהם מביאים. המרואיין היום מביא איתו כמות בשורות כזו שמצריכה פרק שלם, ויהיו כאלה שיגידו פודקאסט שלם. הכוונה כמובן לפרופסור ברוך ברזל מאוניברסיטת בר אילן.

ברוך הוא חוקר בעל שם עולמי בתחום המערכות המורכבות שנגע בכוכבים כשהוציא מספר מחקרים עם אלברט לאזלו ברבאשי ואף הביא אותו לכנס שאירגן כאן בתל אביב ב-2017 עם ד"ר ארז שמואלי. שמועות אומרות, אגב, שבשנה הבאה הוא חוזר לברבאשייה ב-North Eastern University בבוסטון. ביקום מקביל, ברוך היה צריך להיות פודקאסטר ולא רק פיזיקאי. פרק מרתק בפודקאסט "בר דעת" ואולי לא הרבה יודעים אבל גם כתב מאמר לעיתון הילדים "עיניים". והוא ניגש לעולם הרשתות מהזווית של הפיסיקה והמערכות המורכבות. צוות המחקר שלו יציג במהלך הכנס 9(!) מאמרים שזה כמעט השיא של כמות המאמרים לצוות מחקרי בכנס הזה.

מתוכם, נתמקד בעיקר בשני המאמרים הבאים:

ברוך חוקר את הדינאמיקה של הרשת והקשר שלה לטופולוגיה וכבר הזכרנו אותו כשדיברנו קצת על הנושא בפרק שעוסק ברשתות דינאמיות ומרמיטות. לאלה שזוכרים, כבר אז דיברנו על זה שמדובר בנושא מסובך, אבל, זה בדיוק מה שמערכות מורכבות עושות, נכון? לסבך דברים.

אז הבשורה הטובה היא שברוך מנסה לפשט את העסק, ואני, כאיש פשוט, תומך לגמרי במאמץ הזה.

למעשה, הוצאתי על כך פרק (באנגלית) שמנסה לעזור לנו לפתח אינטואיציה לגבי רשתות והדינאמיקה שבהן, דרך המושג הנאיבי של "6 צעדים ברשת" שגם דיברנו עליו בפרק 2.

ברוך יספר לנו שכדי לחקור רשת, לא מספיק להכיר את תכונות הטופולוגיה שלה ואת חוקי הרשת שאנו מכירים. נדרש גם להבין את הזרימה של המידע ברשת וזרימה זו יכולה להיות מנותקת מהטופולוגיה. למה הכוונה?

כוונתו היא לכך שעל אותה טופולוגיית רשת ממש יכולות להיווצר דינאמיקות התפשטות שונות.

הבשורה הטובה שהוא מביא זה שהוא זיהה 3 דפוסים אוניברסליים של התפשטות:

התפשטות דרך הרכזות או מרכזי הכובד של הרשת, אלו בעלי הדרגה הגבוהה (כלומר, עם הרבה קשרים).
התפשטות שאדישה לכמות הקשרים שיש לצמתים. כל הצמתים מגיבים באופן זהה.
התפשטות שעוקפת את הרכזות ברשת. במקרה זה, הרכזות לא רק שלא מעודדות התפשטות אלא אפילו בולמות אותה.

סימולציות מהמעבדה של ברוך למודלים שונים של התפשטות על אותו מבנה של רשת. אותה טופוולוגיה- התפשטות שונה.

האינטואיציה של חוקרי הרשתות היא להניח שהמידע זורם ברשת בזכות ודרך הרכזות ברשת, אותם hub'ים או מרכזי כובד שקיימים בכל רשת. ברוך מראה מצבים בהם הזרימה מתבצעת גם במסלולים שעוקפים את אותן רכזות ומנסה להסביר מדוע הדינאמיקה מתנהגת לפעמים כך ולפעמים אחרת.

אגב, נתקלנו בתופעה כזו בפרק בו דיברנו על השפעה ברשת. בפרק הוצג מאמר של פייסבוק ובו ניתוח של התפשטות פוסטים ויראליים וראינו שיש סוגים מסויימים שיתפשטו דרך רכזות וכאלה שיעקפו אותן והסבר אפשרי לכך ניתן באותו פרק. האם באמת תלחצו על הלינק לפרק? התשובה בפרק אודות השפעה. נהניתם, ורוצים לשתף? סבלתם ולא רוצים לסבול לבד? שתפו ו/או כיתבו Review באתר הפודקסטים של ישראל ו/או דרגו את הפודקאסט בספוטיפיי או באפל-פודקאסטס ו/או כיתבו ביקורת. ניתן לדרג גם בפודקאסט-אדיקט (בטאב של ה-reviews). מותר ומומלץ להעלות פוסט ולתייג את נטפריקס בפייסבוק/טוויטר/אינסטגרם או לינקדאין ושוב, פוסטים יצירתיים במיוחד יושמעו בפרקים הבאים.

נתראה בפרק הבא של נטפריקס (:

#NetworkScience #Data_Science #MachineLearning #SNA #SocialNetworkAnalysis #SocialPhysics #ComputerScience #Statistics #Mathematics #SocialScience #Physics #Podcast #Facebook #2021Networks

הרחבות לפרק 18: יורים בנגמ"ש של מדע הנתונים

פוסטים אחרונים

תגובות