(ר' קישורים בטקסט)
מה מתרחש (: אני אסף שפירא וזה נטפריקס – הפודקאסט העברי הראשון למדע הרשתות.
מהי נקודת התורפה של הרשת? היכן צווארי הבקבוק בארגון שלי? את מי כדאי לגייס לקמפיין פרסום? איך לספר סיפור על הדאטה? מי עונה על שאלה בשאלה? נתחיל.
מזכיר שכמו הרבה דברים בעולם, גם הרשת מתפלגת Power Law, כלומר, מעט צמתים מרכזיים והרוב שוליים. אז אם המעט מחזיק מרובה, איך נמצא את אותם מעט בערימת השחת?
בכדי לאתר צמתים אלו, נידרש לשימוש באלגוריתמיקת SNA, המכונה "מדדי מרכזיות" (Centrality Measures). מדדים אלו מאפשרים לנו למצוא את מרכזי הכובד של הרשתות ודרכם "לשלוט" ברשת, להבין מה קורה בה, לפרק אותה וכו'.
ונתחיל דווקא בטעות נפוצה. לא פעם בחיפוש אחר גורמים מרכזיים, אנו אינטואיטיבית מחפשים את הצמתים הפעילים ביותר ברשת. למרות שגם הפעילות של צמתים מתפלגת Power Law (יש מעט פעילים והרוב לא), זה שמישהו פעיל, לא עושה אותו בהכרח מרכזי או משפיע.
נגיד שאני מתקשר למישהו 100 פעם ביום. משקל הקשר שלנו הוא 100. זה בהחלט עושה אותי פעיל ברשת, וגם קצת קריפי, אבל זה לא עושה אותי מרכזי. לעומת זאת, אם אתקשר או שיתקשרו אלי 20 איש ואפילו אנהל עם כל אחד מהם רק 2 שיחות, משקל הקשרים שלי יהיה רק 40, אבל אני כנראה הרבה יותר מרכזי.
כבר מדוגמא זו ניתן להבין שכמות הקשרים היא משמעותית למרכזיות, וזה נשמע מאד אינטואיטיבי. לכן לא סתם זה המדד הפופולרי ביותר למרכזיות בעולם הרשת: הדרגה או ה-Degree. בכל הדוגמאות שהובאו עד כאן ובפרקים הקודמים, זה היה המדד המרכזי בו עשינו שימוש. Degree Centrality (או "דרגה").
ברשת מכוונת, ניתן למדוד גם את הדרגה הנכנסת (In-Degree) והדרגה היוצאת (Out-Degree).
אם צומת X יוצר קשר עם 4 צמתים ובמקביל 3 צמתים יוצרים איתה קשר אזי ה-Out-Degree שלה הוא 4 וה-In-Degree שלה הוא 3.
הראציונל שעומד מאחורי המדד הוא שלהיות מקושר להרבה גורמים, הופך את הצומת למרכזי.
ברשת כוכב, הצומת האמצעי הוא בעל הדרגה הגבוהה ביותר. כל שאר הצמתים יקבלו ציון 1, הנמוך ביותר, כי הם קשורים רק לצומת אחת, המרכזית.
בבי"ס זה יהיה הילד הפופולרי, ברשת מחשבים זה יהיה שרת מרכזי, בארגון זה צפוי להיות ראש הלשכה, בצבא, למשל, זה כנראה יהיה חמ"ל.
ישנם עשרות, אם לא מאות, אלגוריתמים לזיהוי "רכזות" ברשת, אך ניתן לסכמם לכשלוש קטגוריות עיקריות שנובעות מהגיונות שונים של מהי מהות המרכזיות ברשת.
הקטגוריה הראשונה, בה כבר נגענו, היא ריבוי הקשרים של הצומת.
הקטגוריה השניה היא כמה מהווה הצומת צוואר בקבוק.
צוואר בקבוק ברשת לא מחוייב שיהיו לו הרבה קשרים אבל הוא מהווה תחנה שככל שחייבים יותר לעבור דרכה, כך היא מרכזית יותר.
המדד המוביל בקטגוריה זו הוא מדד ה- Betweenness Centrality , כלומר, הצומת נמצא inbetween או בין שני חלקים של הרשת ומגשר בינהם. ההגדרה המתמטית של המדד היא כמות המסלולים הקצרים ביותר ברשת העוברים דרך הצומת.
אם נדמיין 3 רשתות כוכב כשרק צומת אחד מחבר בין שלושתן, הרי שלצומת זו יש דרגה של 3 בלבד, אבל הוא מקשר בין 3 רשתות ולכן ה-BETWEENNESS שלו יהיה גבוה.
ציון ה-BETWEENNESS לרוב יהיה מנורמל בין 0 ל-1. ציון של 0.5 למשל אומר שכחצי מהמסלולים הכי קצרים ברשת צריכים לעבור דרך הצומת. ציון כזה אומר שהצומת הזו ממש מחלק את הרשת לשתיים וכל תנועה מצד אחד של הרשת לצד השני חייבת לעבור דרכו. ברשתות גדולות זו תופעה די נדירה וסביר להניח שניתקל בציונים נמוכים בהרבה.
גורם המתאם בין ארגונים או חלקים בארגון, סביר שיהיה לו ציון גבוה של BETWEENNESS.
בייעוץ ארגוני, העושה שימוש ב-Organizational Network Analysis (או: ONA) , צווארי בקבוק אלו מסומנים כגורמים שדרכם רעיונות חדשים נכנסים לארגון, או למצער, נחסמים. זו הסיבה שבניתוח רשתי של ארגונים, מציאת צווארי בקבוק חשובה בכדי להבין איפה תהליכים נתקעים או עלולים להיתקע. פרופסור רוב קרוס, שעושה שימוש בניתוח רשתי להבנת ארגונים, השתמש במטריקה זו בכדי לייעל צוותי חשיבה יצירתיים בארגון שהוא ייעץ לו.
האינטואיציה של הארגון היתה לקחת את האנשים המרכזיים בכל מחלקה, אלה עם ה-DEGREE הגבוה, ולהושיב אותם ביחד כדי ליצור משהו חדש. החיסרון של שיטה זו היה שאנשים אלו היו עסוקים מאד בעניני המחלקה שלהם, מכאן ה-DEGREE הגבוה שלהם, ומאד גוננו או קידמו את האינטרסים של אותה מחלקה. אנשי ה-BETWEENNESS לעומת זאת נחשפו ליותר תחומים בארגון והיו פתוחים יותר לקדם רעיונות בינ-תחומיים.
אז נשארה לנו הקטגוריה השלישית למיהו מרכזי. אם הראשונה עוסקת בכמות קשרים והשניה עוסקת בגישור בין חלקי הרשת, השלישית עוסקת במיקום: להיות ממוקם בלב הרשת זה להיות מרכזי.
המדד המוכר ביותר בקטגוריה זו הוא מדד ה-Closeness Centrality . כלומר, הצומת שנמצא הכי close או קרוב לשאר הצמתים, הוא מרכזי.
ההגדרה המתמטית היא הצומת שנמצא במרחק הממוצע הנמוך ביותר משאר הצמתים.
כך למשל, מרכז המעגל נמצא בנקודה הקרובה ביותר לכל מקום בהיקפו. באופן ציורי יותר אפשר להגיד שהתלמיד שיושב במרכז הכיתה, גם אם אין לו הרבה חברים והוא לא מגשר בין חבורות, המיקום שלו במרכז מאפשר לו לשמוע את כל הרחש-בחש והרכילות במהלך השיעור. המיקום במרכז גורם לידע לפעפע לכיוונו.
מה זה אומר להיות הכי קרוב לשאר הצמתים ברשת? אין הכוונה לקירבה גיאוגרפית אלא לכמות הצמתים שיש לעבור בכדי להגיע לצומת.
יישום אפשרי בתחום המודיעין, למשל, הוא בגיוס מקור. היתרון בלגייס מקור עם דרגה או DEGREE גבוה הוא ברור: יש לו גישה להרבה מקומות ואנשים. החסרון הוא שכנראה שיעד זה נמצא בניראות גבוהה ויהיה קשה לגשת אליו. מיקומו בארגון אולי גם יקשה עליו לעבור צד. לעומת זאת, מישהו שאין לו בהכרח הרבה קשרים אבל נמצא באיזור הליבה של הארגון, יוכל אולי להגיע למקומות המענינים בניראות נמוכה יותר. במקום לגייס את הרל"ש ננסה לגייס את התת-עוזר שנמצא במשרד ליד. בטוח שיש תמימים שחשבו לעצמם שהיה צריך לגייס את המנקה של המשרד אבל כמו שכל אחד יודע, מנקה טוב קשה למצוא.
אחד מהשימושים ב-SNA הוא בתחום האפידמיולוגיה, מחקר המחלות, בדגש על התפשטותן. הנושא נהיה חם לאור התפשטות מגפת הקורונה ב-2020.
אם נמפה רשת של הידבקות במחלה אזי הצומת עם ה-Closeness הגבוה יסמן לנו את patient zero.
גם לצרכי התפשטות ברשת, בין אם זה להפצת שמועה או לתקיפת סייבר, לצמתים עם Closeness גבוה יש יתרון.
נסכם את שלושת המדדים בשתי שיטות: הפרקטית והמגניבה.
בדוגמא הפרקטית נביא את פייסבוק ורק נזכיר שמדובר ברשת של 2.5 מיליארד משתמשים פעילים:
נגיד שיש לי 500 חברים בפייסבוק. זה אומר שהדרגה או ה-DEGREE שלי ברשת פייסבוק הוא 500.
נניח שכל החברים שלי בישראל. מה זה אומר על ציון ה-BETWEENNESS שלי ברשת?
כנראה ציון נמוך, שכן אני לא מגשר בין מקומות שונים ברשת אלא מרוכז באיזור מסויים. אבל – אם היה לי חבר בארה"ב וחבר בברזיל וחבר ביפן וחבר באפריקה אז ה-BETWEENNESS שלי היה כנראה קופץ גבוה יותר, שכן אני הופך לגשר בין מקומות מרוחקים ברשת.
אז מה ה-Closeness שלי? אין לי מושג. כדי לגלות את זה אצטרך לחשב את כל המרחקים בין צמתים ברשת הפייסבוק. מה שעושה את האלגוריתם הזה לאיטי ברשתות גדולות אבל לאחד המענינים.
גילוי נאות, אני סאקר של Closeness. תכל'ס לא צריך סיבה אבל אם חייבים להגיד אז זה גם כי הוא המדד הכי פחות אינטואיטיבי וגם בגלל שבניגוד ל-DEGREE, הוא מאפיין תכונה שהיא כלל-רשתית ולא מקומית.
בדוגמא המגניבה נשתמש בדאטה-סט רשתי שנעשה על הסדרה "משחקי הכס" וזמין בשליחת מייל ל-SNApodnet@outlook.com. הקשרים ברשת נוצרו על סמך איזו דמות מופיעה עם איזו דמות בסצנה. כדי למנוע ספויילרים מחמשת האנשים שעוד לא ראו ומתכננים לראות מתישהו, נסתפק בניתוח של העונה הראשונה.
אז בואו נבחן את עצמנו: מי במשחקי הכס, עונה ראשונה, הם המובילים במדדי המרכזיות ברשת?
נעשה גם פאוזה קצרה כל פעם בשביל שיהיה שניה לחשוב על זה.
הדמות המובילה במדד ה-DEGREE או הדרגה במשחקי הכס הוא...היא... ... טיריון לאניסטר. הדמות החביבה הזו מופיעה בהרבה סצנות אבל זה לא מספיק. כדי שיהיה לה DEGREE גבוה היא צריכה להופיע עם הרבה דמויות שונות. טיריון בעונה הראשונה מטייל לאורך הממלכה ולכן מייצר הרבה קשרים.
ועכשיו, המוביל במדד ה-BETWEENNESS הוא...היא...הם... ... ואריז יועץ הסתרים. נזכיר ש-BETWEENNESS גבוה אומר שהדמות מקשרת ומגשרת בין חלקים שונים ברשת ומהווה צוואר בקבוק, במקרה זה, של האינפורמציה. וזהו בדיוק התפקיד של ואריז כרב- המרגלים: לרגל בכל הממלכה, גם בקצוותיה הרחוקים ולשמור את המידע אצלו.
ואחרון, אחרונה, המוביל או המובילה במדד ה-Closeness הוא...הם... הן... ... נד סטארק. ה-גיבור בה"א הידיעה. למה זה כל כך יפה, ושוב, מזכיר שאני מת על Closeness. כי אם היינו שואלים את נד הישר והתמים מי הכי מרכזי הוא מן הסתם היה עונה "מה זאת אומרת? המלך!" אבל מה שהוא לא מבין זה שהוא נמצא בלב העלילה, כפי שמעיד ה-Closeness, לפחות עד שהוא נתקל בבעיית BETWEENNESS חמורה לקראת הסוף ולא נוסיף.
נו, אז כמה יצא לכם?
כמו שניתן לראות, מדדי המרכזיות מגרים אותנו לספר סיפור על הדאטה ע"י כך שאנו נדרשים להסביר לעצמנו מדוע הצמתים המרכזיים מרכזיים. ההגיונות השונים של המרכזיות עוזרים לנו להתאים את הסיפור לדאטה.
יש עוד הרבה מדדים ומדי פעם מצטרפים חדשים, אז ניתן דוגמא רק לעוד 2 מדדים נפוצים נוספים:
נגיד שזו לא חוכמה שהאתר שלנו באינטרנט יצביע על אתר מרכזי. זה לא יעשה אותו מרכזי.
אבל מה אם אתר מרכזי יצביע עלינו? ואם כמה אתרים מרכזיים יצביעו עלינו? זה כנראה יעשה אותנו מרכזיים. זה ההיגיון מאחורי מדד המרכזיות EIGENVECTOR ובן דודו המפותח PAGERANK.
פייג'ראנק נקרא כך ע"ש לארי פייג', ממייסדי גוגל, ובשנות ה-90 נעשה בו שימוש לדירוג אתרי אינטרנט.
בהפשטה, הרעיון מאחורי PAGERANK הוא שכל הצבעה של צומת על צומת אחר מעניק לו ניקוד. בתחילת הניתוח לכל צומת יש אותו ציון, 1 חלקי N, כלומר 1 חלקי מס' הצמתים ברשת. האלגוריתם מבצע
כמה איטרציות ובכל אחת הצמתים מעניקים חלק מהציון שלהם לצמתים עליהם הם מצביעים. אלגוריתם זה עבר שינויים ועדכונים עם השנים כדי להתאימו במיוחד למציאת אתרים מרכזיים באינטרנט כשאחד מהמשמעותיים הוא התחשבות בהצבעות של SEEDS או צמתי ליבה. ה-SEEDS הם אותם אתרים שמשמשים כמדדים מובהקים לאיכות ויכולים לסייע בדירוג, למשל, אתרים עם סיומת GOV, או אתרי אוניברסיטאות, שהצבעה שלהם על אתר תעלה את חשיבותו.
אלגוריתם PAGERANK ודומיו הם פיתוח של הקטגוריה הראשונה: כמות הקשרים שיש לצומת הופכת אותו למרכזי או במקרה של PAGERANK, כמות הקשרים של אלה שהצומת קשור אליהם הופכת אותו למרכזי.
מה שמשותף לכל מדדי המרכזיות ברשת הוא שהם מתפלגים Power Law. בכל מדד יהיו מעט שיקבלו בו ציון גבוה והרוב יקבלו ציונים נמוכים מאד. איך זה עוזר לנו?
לרוב כשנחשוב על ארגון ונשאל את עצמנו מי מרכזי בו, המחשבה הראשונה תהיה, ברור, מנהל הארגון. המתחכמים בינינו יגידו מה פתאם, סגן מנהל הארגון. הוא זה שבאמת עושה את העבודה, נמצא בקשר עם העובדים וכו'. תובנות אלו לקוחות מעולם ה-scenario-driven או המונעות מתרחיש. אלו תובנות שבאות מניסיון העבר, ממה שלימדו אותנו ומהאינטואיציות שלנו. אנחנו יודעים שמנהל הוא זה שמקבל החלטות וסגן המנהל הוא זה שאחראי על הפעילות היומיומית. ובכל זאת, לא נתקלנו בעבר כבר במנהל שלא כל כך מנהל? האם הסגן מנהל תמיד דומיננטי? וכשהוא בחופש או חולה, מה קורה? בלי גישה מוכוונת דאטה, יהיה לנו קשה לענות. מה שבטוח, אף אחד לא יגיד שהגורם המרכזי בארגון הוא קצין הבטיחות. נכון?
אך זה בדיוק המקרה בו נתקל ברבאשי, חוקר הרשתות המפורסם שהזכרנו אותו בעבר. ברבאשי עשה ניתוח לטובת מפעל שהנהלתו רצתה להבין מדוע המסרים שלהם לא מחלחלים לדרגי העבודה. במקום ל
עקוב אחרי עץ המבנה של הארגון, הוא ניתח את רשת הקשרים של כל העובדים כדי להבין מאיפה הם מקבלים את האינפורמציה שלהם וגילה שהדמות המרכזית ביותר לא יושבת בהנהלה אלא שזהו קצין הבטיחות.
מסתבר שאותו איש הסתובב רבות במפעל והיה חברותי מאד, ולכן יצר הרבה קשרים והפך להיות כלי מועיל בפיזור מידע.
בניגוד לאינטואיציה הראשונית של ארגונים לפטר את מי שהוא יותר מרכזי מהמנהל, ברבאשי הציע דווקא להזמין אותו ללשכה לכוס קפה, לספר לו מה ההנהלה מתכננת, ולתת לו להעביר את המסר. מדדי המרכזיות עוזרים לנו גם לספר סיפור על הדאטה. אתגר הסיפור הוא אתגר מרכזי של ה-data analyst. להסתכל על נתונים כל אחד יכול. אבל מה הם אומרים?
גם כקמ"ן לשעבר, נדרשתי לספר סיפור על היריב. אבל מה לעשות כשאף אחד לא מספר לי מה לספר?
עצה שנתן לי בכיר במערכת היתה: "נכון, לא נכון, דבר בבטחון".
עצה יותר מוכוונת דאטה היא שימוש במדדי מרכזיות. העוצמה בניתוח רשתי הוא שזה כלי מעולה לספר עליו סיפור. כך, מדדי המרכזיות מאפשרים לנו לבוא עם תובנות שהן data driven . ניתן דוגמא לסיפור אפשרי כזה הנובע ממדדי מרכזיות:
נניח שברשת של ארגון מסוים, שבנוי ממספר חטיבות, הצמתים המרכזיים ביותר יהיו של גורמי הלוגיסטיקה. מה זה אומר?
כאן האנליסט צריך לשאול את עצמו, מה גורם למישהו להיות מרכזי? למשל, שהרבה פונים אליו.
ומה זה אומר אם הרבה אנשים פונים ללוגיסטיקה?
כאן ניתן לספר סיפורים אפשריים שסובבים את הרעיון שלוגיסטיקה היא מרכז כובד, נכון לזמן הניתוח:
למשל שהארגון תלוי מאד בלוגיסטיקה, שהלוגיסטיקה היא צוואר בקבוק בארגון או שיש מצב למסיבת הפתעה לאחראי לוגיסטיקה.
כל התרחישים האלו קבילים אבל מה שיפה בשיטה מוכוונת דאטה הוא שמאד קל לבדוק את התזה. לא צריך לעבור על כל הנתונים. מספיק לאמת את התזה עם המובילים ב-Power Law, והם בודדים, ונדע אם צדקנו. ובינינו, זה אולי קצת עצוב, אבל מי מארגן מסיבות הפתעה לאחראי לוגיסטיקה?
בהנחה ואני מכוון לפגוע בארגון, מדדי המרכזיות יציפו לי את מרכזי הכובד שלו שמעסיקים אותו באותו רגע ושפגיעה בהם תשבש משמעותית את מה שהארגון מתכנן.
יובל נח הררי, בספרו קיצור תולדות האנושות, מסביר שכדי לקיים חברה אנושית, בני אדם התארגנו על בסיס רעיונות מדומיינים. עץ מבנה של ארגון הוא רעיון מדומיין. הוא נועד לעשות לנו סדר בראש מי משלם למי וכמה אבל הוא לא בהכרח מתאר כיצד הארגון באמת עובד ואין בו שום דבר שיספר לנו מה קורה בארגון בזמן הווה.
לשם כך יש לנו את מדדי המרכזיות. התכונה היפה שלהם זה שהם אינם קבועים ויכולים להשתנות לפי ההתרחשויות. למשל, בהינתן שנפתר צוואר הבקבוק הלוגיסטי שתיארנו קודם, מרכז הכובד של הארגון יכול להשתנות, למשל להיות הנהלת הארגון או שנגלה צוואר בקבוק חדש. נכון או לא נכון, מקווה שדיברתי בבטחון. עכשיו בואו נתעמק בנושא כי זה לא יכול להיות שזה כזה פשוט:
כדי לחקור ארגון או רשת, לא מספיק לבדוק מי הגורמים עם הציון הכי גבוה, שכן בנתונים יכולות להיווצר הטיות, למשל, ברשתות רבות ישנם גורמים המהווים "תופעה" ברשת ולא "שחקן" ברשת. לגורמים אלו יש נטייה "לזבל" את הרשת בקשרים פיקטיביים וליצור מרכזי כובד מדומים או קשרים פיקטיביים בין גורמים. ברשת מיילים זה יכול להיות למשל, מייל ספאם (spam) או מייל שגיאה שנשלח מהשרת. לפעמים גם תופעות אלו מענינות אותנו אבל הרבה פעמים לא. ולפעמים, הגורם המרכזי ברשת הוא לא בהכרח היעד הרלוונטי לצורך המחקר. איך נדע?
ניקח כדוגמא את השימוש שארה"ב עושה ב-SNA.
בצבא האמריקאי וב-NSA שזה, לפי פרסומים זרים, ה-8200 של ארה"ב, נעשה שימוש רב ב-SNA
במערכות בעיראק ובאפגניסטן ו-SNA אף נכנס כחלק מהדוקטרינה הצבאית האמריקאית תחת הכותרת "התמודדות עם רשתות אויב" ועל כך נרחיב בפרק המודיעין והרשת.
כך ב-2011, התבצע מחקר אמריקאי על רשת הטוויטר במצרים בכדי לזהות את הגורמים המובילים במהפכת "האביב הערבי". רשת הטוויטר ורשת הפייסבוק היו הרשתות החברתיות המובילות במצרים שאיפשרו להמון להתארגן ולתאם הפגנות. האמריקאים יצאו מנקודת הנחה שמציאת מרכזי הכובד ברשת יאפשרו לגלות מי עומד מאחורי האירועים ומוביל אותם.
כבודו במקומו מונח, מה שנקרא, מה ששלו-שלו, אבל למה ג'סטין ביבר?
הסיבה לכך היא שלסלבריטאים יכולים להיות עשרות מיליוני קשרים שתמיד יאפילו על שאר הרשת. מספיק שהם יצייצו בהאשטאג הרלוונטי והם ייזכו בבכורת ה-DEGREE.
עם זאת, המחקר הראה שלמרות המרכזיות הרשתית של ג'סטין ביבר, ה"הדים" לתכנים ששלח היו חלשים מאשר ה"הדים" למסרים של מובילי המהפכה. איך ראו את זה? נזכיר שציון גבוה במדד ה-DEGREE לבדו אינו מספיק (על אחת כמה וכמה ברשתות גדולות) ונדרש לייצר לו גם הקשר. אם חוק מס' 1 של הרשת הוא שהרשת מתפלגת Power Law אזי במקרה זה נידרש לחוק 2# של הרשת: רשתות מתקהלות (מלשון: "קהילות") כלומר, הרשת מורכבת מצבירים, שלכל אחד מהם היגיון ומרכזי כובד משלו. הבנת הקהילה הרלוונטית תסייע למצוא את מרכז הכובד הרלוונטי אבל על זאת נפרט בפרק המוקדש לקהילות ברשת ושם גם נפצח את פרשיית ג'סטין ביבר וכיכר תחריר.
אז בינתיים התמימים שבינינו בטח יגידו: אז מה הבעיה? בואו פשוט נתעלם מצומת שיש לו out-DEGREE גבוה, כלומר שכל הקשרים שלו הם קשרים יוצאים. האינטואיציה אומרת שצומת שכזה הוא מה שקרוי "זבלן" של הרשת. האמנם? קודם כל, זה תלוי מה אנחנו מחפשים ברשת. יהיו מקרים דווקא שצמתים כאלה ישרתו אותנו היטב, למשל כשנרצה להתפשט ברשת. גם במישור החברתי, אולי לצומת הזה יש תפקיד חשוב בהפצת המידע? למשל, בתחום הפרסום.
בתחום זה נעשה שימוש רב בכוכבים ברשתות החברתיות, שנהנים מפופולריות וחשיפה רבה כתוצאה מריבוי קשרים ברשת (עוקבים למשל).
סכומים גדולים מחליפים ידיים בשביל שאושיית רשת תפרסם מוצר ברשתות החברתיות.
כדי למצוא אותן, קיימות בשוק חברות שהתמחותן היא איתור של מרכזי כובד כאלה, בעיקר ע"י שימוש במדדי מרכזיות ברשת.
אז בואו ננתח יחד מקרה שכזה מ-2019, ובו חברת קסטרו, בהובלת אושיית הרשת קים קרדשיאן, השיקה קמפיין גדול למשקפיים מעוצבים בארה"ב.
לקים היו כ-145 מיליון עוקבים באינסטגרם, וההנחה בקסטרו היתה שקמפיין בהובלתה יביא כ-10% מעוקביה להיכנס לאתר של קסטרו ול-10% מהם לבצע רכישה. כלומר, הצפי היה למכירות של 1.4 מיליון זוגות משקפיים.
הקמפיין הוכרז ככישלון לאחר שהמכירות היו קטנות בשני סדרי גודל ממה שהוערך.
בקיץ 2019, חשף מגזין GQ תחקיר שגילה ש-44% מהעוקבים של קים הם בעצם יוזרים מזוייפים.
נשמע המון ולכאורה אמור להסביר את הכשלון של הקמפיין, אבל אפילו אחרי ניקוי הדאטה זה עדיין משאיר יותר מ-80 מיליון עוקבים, שזה לא רע יחסית ועדיין ממקם אותה גבוה בהתפלגות ה-Power Law של הרשת. אך אם נלך לפי חישובי החברה, עדיין היו צריכים להימכר 800 אלף זוגות משקפיים.
בפועל, כמות הרשומים באתר היתה כ-90אלף והמכירות היו בסדר גודל של עשרת אלפים זוגות בלבד.
מה קרה כאן?
יש הבדל בין פרסום להשפעה. מיקום גבוה ב-Power Law לאו דווקא מבטיח השפעה אבל הוא מבטיח פרסום ומבטיח Power Law. למשל, מספר הנכנסים לאתר מתאים מאד ל-1% מתוך כמות העוקבים (האמיתית) של קים קרדשיאן שזה Power Law קלאסי (1 ל-99).
אך על ההבדל בין פרסום והשפעה נדון בפרק אחר שיעסוק בהשפעה ברשת.
אז באיזה מדד להשתמש? מה המדד הכי טוב?
חשבתם שאגיד Closeness, מה?
לכאורה, זה תלוי מה מחפשים. למה לכאורה? כי למדדי המרכזיות יש עוד תכונה משותפת:
התוצאות שלהם יהיו דומות מאד.
אבל איך זה יכול להיות? לכל מדד מרכזיות נוסחה מתמטית אחרת שנובעת מהיגיון אחר.
אז בואו ננסה להבין זאת ע"י שימוש ברשת הכוכב שלנו. רשת הכוכב היא רשת שבמרכזה יש צומת וכל שאר הצמתים מחוברים רק אליה. לצומת המרכזי יהיה ציון ה-DEGREE הגבוה ביותר. קל.
נבצע ניתוח של BETWEENNESS לראות מי הצומת המגשר ביותר בין הצמתים ושוב נקבל את הצומת המרכזי שלנו.
כשנשתמש ב-Closeness לראות איזה צומת נמצא הכי במרכז הרשת – הפתעה – נקבל שוב את אותו הצומת.
ברור שברשתות גדולות התמונה מעט יותר מורכבת, אבל הקורולוציה בין המדדים היא מאד חזקה. אין תשובה חד משמעית, אבל ניתן להעריך שמדובר בקורולציה שנעה בין 70 ל-90 ומעלה אחוז. רגע, אבל באיזה רשת נבדוק זאת? ברשת מכוונת, שבה נתייחס גם לכיוון הקשרים או ברשת לא-מכוונת, שמניחה שכל הקשרים הדדיים?
ברשת כמו ברשת, ובניגוד לאינטואיציה, ההבדלים בין התוצאות ברשת מכוונת לרשת לא-מכוונת הם כנראה לא דרמטיים.
בזהירות רבה אגיד שסביר להניח שנראה קורולציה מאד גבוהה (מעל 90אחוז) בין DEGREE ל-EIGENVECTOR CENTRALITY למשל, כי הם מאותה משפחה (המשפחה הכמותית).
בזהירות רבה עוד יותר אגיד שככל שהרשת גדלה ומתפשטת יותר, ייתכן והקורולוציה בין DEGREE ל-Closeness תלך ותפחת. למה? ננסה לדמיין את זה. אישית, אני מדמיין התפשטות רשת כמו המפץ הגדול. זה לא מופרך, שכן מחקר רשתות ואסטרופיזיקה חולקים כמה דברים משותפים (Power Law אמרנו?).
דמיינו את הגלקסיות של הרשת מתרחקות זו מזו. האם בהכרח הכוכב הגדול ביותר עם הכי הרבה כוכבי לכת מסביבו יהיה הכי קרוב למרכז? הסיכויים לכך קטנים כי יש מעט מאד כוכבים גדולים והרבה יותר כוכבים קטנים.
אוקי, אז הבנו שהקורולציה גבוהה, אז בשביל מה צריך כל כך הרבה מדדי מרכזיות?
אז יש 2 תשובות: הפשוטה והטובה.
נתחיל בפשוטה: לא צריך. אם הקורולציה גבוהה, אז בואו נעשה שימוש במדד הDEGREE. הוא אינטואיטיבי, מהיר חישובית, כולם עושים זאת וזה נותן לנו מענה 80/20.
נעבור לתשובה הטובה: הקורולוציה לא צריכה לתסכל אותנו. להפך. היא זאת שעוזרת לנו למצוא את הדברים המענינים. מה מעניין? החריגות בקורולוציה.
למשל, ננתח רשת דימיונית של אלף צמתים על סמך DEGREE ו-Closeness. שלא במפתיע, נגלה שבTOP10, 8 חולקים ציונים גבוהים בשני המדדים. מעולה – מצאנו גורמים שהם באמת מרכזיים. אבל מה לגבי השניים האחרים?
לראשון יש DEGREE גבוה ו-Closenessנמוך. משעמם. נראה כמו צומת שמזבלת את קצוות הרשת.
לשני יש Closeness גבוה ו-DEGREE נמוך. הופה! מעניין. למה?
כי הצומת הזה הצליח, למרות שיש לו מעט קשרים, להתמקם בלב הרשת. כלומר, למרות שהצומת השקיע פחות אנרגיה, הוא נמצא בפוזיציה מרכזית. כנראה שיש לו תכונה מענינת שנרצה להבין אותה. ההשוואה בין המדדים עוזרת לנו לספר סיפור על הדאטה.
כמו שאולי שמתם לב, מדד ה- Closeness יכול לשמש כחליף לוויזואליזציה של הרשת. לדוגמא: בקהילה ובה כמה צמתים עם דרגה גבוהה, שימוש במדד ה-Closeness לצרכי השוואה, יכול להצביע מי מאותם צמתים נמצא ב"לב" הרשת (ולפיכך משמעותי יותר) לעומת צומת שנמצא ב"קצוות המרוחקים" של הרשת ולכן פחות משפיע (גם אם דרגתו גבוהה). אמרתי לכם, אין כמו Closeness...
ועכשיו, מילת אזהרה: טעות נפוצה שלא מומלץ לנקוט בה היא היתוך של המדדים זה בזה (למשל ע"י הכפלתם). מה שנקרא, שיטת הצ'ולנט.
מה שעומד מאחורי שיטת הצ'ולנט, זו התפיסה הפשטנית שאומרת שאם אנו לא יודעים להחליט מה המדד הכי טוב, פשוט נזרוק אותם ביחד לסיר ונראה מה יוצא. לרוב, התוצאה תהיה חומה וריחנית. מכיוון שמתקיימת קורולציה גבוהה בין המדדים, כפל שכזה רק יחזק את החזקים ויחליש את החלשים וגרוע מכך, נאבד את התובנות שכל מדד נותן לנו ובעיקר את התובנות שהשוואה בין המדדים יכולה לתת.
עד כאן לגבי הטיות שאנו עלולים ליצור בדאטה אבל מה לגבי הטיות בדאטה עצמו?
הטיות עלולות להיווצר למשל ממבט לא שלם על הרשת. במקרים רבים, כשאין נגישות לכלל הדאטה של הרשת, אנחנו נדגום אותה, והתוצאות החלקיות עלולות לספר לנו סיפור מוטה.
אז קודם כל, לא לפחד. בהיעדר מידע, גם תשובה חלקית יותר טובה מכלום. יכול להיות שהאמת של הניתוח היא מקומית ולא כלל-רשתית, אבל תמיד נראה לי עדיף מלהרים ידיים. כמובן שככל שנאסוף יותר מידע מהרשת, התשובות שלנו יהיו טובות יותר.
אז בואו נדבר על זה.
אחת הדרכים לייצר דאטאסט של רשת זה באמצעות snowball sampling או דגימה ע"י כדור שלג מתגלגל. מה הרעיון?
אנחנו בוחרים צומת או מספר צמתים אליהם אנחנו נגישים ברשת ועושים scraping או קוצרים את הצמתים שקשורים לאותה צומת ואז נאסוף את הצמתים שקשורים לצמתים שקשורים וכן הלאה. שיטה זו מוכרת גם בשם "איסוף מעגלים". ניתן לאסוף מעגל ראשון של הצומת, כלומר החברים שקשורים אליו, מעגל שני, שזה החברים-של-החברים וכן הלאה.
מתי לעצור? איך נדע שאספנו מספיק? על זה נדבר בפרק בנושא טיפים ו-best practice לחוקר. בלי ספויילרים.
נסתפק לרגע במידע שאספנו לטובת הדוגמא ונשים לב שהאיסוף החלקי עלול להטות את מדדי המרכזיות לטובת הצמתים או עוגני המחקר מהם התרחבנו. מדד ה- Closeness סביר שיהיה רגיש במיוחד לשיטה זו, שכן היעדים מהם התרחבנו הם מעצם הגדרתם ב"לב" הרשת. הם ה-patient zero של הניתוח שלנו.
אז מה עושים? מעבר לזהירות המתבקשת בהתייחסות לכל מדד מרכזיות, גם במקרים כאלה, מומלץ לבצע השוואה בין המדדים: למשל, לאתר את הצמתים בעלי ה-Closeness /BETWEENNESS הגבוה ודרגה נמוכה (בהנחה שאלו אינם העוגנים שלנו למחקר) ועליהם להתרחב או לבצע מחקר. מדוע דווקא אלו מעניינים? כפי שצויין קודם, צמתים אלו השיגו מקום מרכזי ברשת בפחות "מאמץ" (כלומר, פחות קשרים) ולמרות הפערים בדאטה.
אז מה היה לנו:
יש שלוש שיטות מרכזיות למצוא גורמים מרכזיים ברשת:
כמה קשרים יש לכל צומת, שזה מדד ה-DEGREE או הדרגה
כמה הצומת הוא צוואר בקבוק, שזה מדד ה-BETWEENNESS
כמה הצומת נמצא ב"לב" הרשת, שזה מדד ה-Closeness
השוואה בין המדדים נותנת לנו תובנות נוספות.
הרבה פעמים ברשתות קטנות העין האנושית מספיקה בשביל למצוא את הצמתים המרכזיים לפי המדדים ומאפשרת תובנה ויזואלית רק מלהסתכל על הרשת.
לרשתות גדולות יותר נידרש לאלגוריתמים של מדדי המרכזיות שזמינים באפליקציות לניתוח רשת (עליהן יהיה פרק נפרד) ובספריות קוד פתוח אך מה שחשוב זו הבנת הלוגיקה שמאחוריהם, עוד לפני תחילת הניתוח.
פרק זה מוגש לכם בחסות ה-Power Law שבלעדיו, זה לא היה קורה.
רוצים.ות להרחיב את קהילת מדע הרשתות בישראל? ככל שתדרגו יותר, כך הפודקאסט יהיה חשוף לאנשים רבים יותר.
דרגו את הפודקאסט בספוטיפיי או באפל-פודקאסטס ו/או כיתבו ביקורת. ניתן לדרג גם בפודקאסט-אדיקט (בטאב של ה-reviews). מותר ומומלץ להעלות פוסט ולתייג את נטפריקס בפייסבוק/טוויטר/אינסטגרם או לינקדאין ושוב, פוסטים יצירתיים במיוחד יושמעו בפרקים הבאים.
ואם עוד לא עשיתם.ן לייק בדף של נטפריקס בפייסבוק, זה הזמן. אתרים עם יותר לייקים, מקבלים יותר חשיפה.
לפניות/הערות/הארות/הצעות ועוד: שלחו מייל!
ולא לשכוח לעשות Subscribe לפודקאסט באפליקציה החביבה עליכם.ן.
נתראה בפרק הבא של נטפריקס (:
#NetworkScience #SNA #SocialNetworkAnalysis #GraphTheory #DataScience #SocialPhysics #תורת_הגרפים #Facebook #CentralityMeasures #מדדי_מרכזיות #ONA #OrganizationalNetworkAnalysis
Comentários