• אסף שפירא

הרחבות לפרק 3: חוק הרשת מס' 1 - Power Law

עודכן ב: 20 בנוב׳ 2021

(ר' קישורים בטקסט)

מה מתרחש, אני אסף שפירא וזה נטפריקס.


ה-Power Law הוא אולי התופעה הבסיסית והמופלאה ביותר ברשת, ולפיכך נעמיק בה, נבין את משמעויותיה, מה עושה אותה מופלאה כל כך, והכי חשוב: איך זה עוזר לי בחיים?


נושא זה יורכב משני חלקים:

חלק שהוא יותר מבוא שיסביר מדוע ה-Power Law לא אינטואיטיבי אך אנו מוקפים בו, ניתן לו הרבה דוגמאות וכמובן מה המשמעויות הנובעות ממנו.

החלק השני יתמקד ב-Power Law ברשתות, אך גם מדוע יש Power Law? מה עומד מאחורי התופעה? וכמובן, החלק המשמעותי ביותר: איך הבנת ה-Power Law עוזרת לנו בניתוח הרשת?


אז בואו נתחיל מזה שסטטיסטיקה היא לא אינטואיטיבית.

למשל אני זוכר את עצמי מתווכח עם חבר במשך 4 שעות על בעיית מונטי הול המפורסמת:

הבעיה קרויה על שם מנחה שעשועון טלוויזיה במהלכו מציגים בפני המשתתף 3 וילונות. מאחורי אחד הוילונות מסתתר פרס יקר ערך, נגיד עז עם פעמון, ומאחורי 2 הוילונות האחרים אין כלום.

נניח שהמשתתף בחר את וילון מס' 1. או אז מרים המנחה (שיודע היכן העז) דווקא את וילון מס' 2 ומגלה שאין מאחוריו כלום ופונה למשתתף האם ברצונו לשנות את בחירתו לוילון מס' 3.


מה אומרת האינטואיציה שלנו?


ההתפלגות שרובנו מכירים ועליה מתבססות מרבית האינטואיציות שלנו היא התפלגות נורמלית (מכונה גם התפלגות פעמון על פי צורתה, או התפלגות גיאוסיינית או פואסון). זה הרבה שמות להתפלגות אחת אבל מה שמרגיע אותנו זה שהיא נורמלית. מה כבר יכול להיות רע בנורמלי?

עוד משהו שתורם לשביעות הרצון הכללית מהתפלגות נורמלית זה הממוצע.

כשנשלח את ילדנו הרך שגובהו 1.15 סמ לכיתה א', אז לפי הסטטיסטיקות של משרד הבריאות, אנחנו לא נצטרך לחשוש שהוא יוקף בענקים מאיימים או שהכסא עליו ישב יהיה לו קטן מדי שכן הוא נמצא בדיוק בממוצע הגובה לגילו. יהיו כמה נמוכים יותר ויהיו כמה גבוהים יותר, אבל הרוב יהיו באיזור הגובה הזה.

כלומר, ממוצע ההתפלגות הנורמלית הוא אמנם נתון בודד אבל הוא מספר את הסיפור שמאחורי רוב הנתונים.

המציג אינו סטטיסטיקאי או פסיכולוג חברתי, אבל לתחושתי הסובייקטיבית, רובנו חושבים על העולם בצורה של התפלגות נורמלית: יש קצת בצד אחד של הסקאלה וקצת בצד השני אבל בסוף הרוב נוטה לאמצע.

דעות פוליטיות הן דוגמא מצויינת להתפלגות נורמלית:

יש לנו קיצונים בכל צד, אבל הרוב מתכנסים למפלגות באיזור המרכז ויש לנו את המנדטים להוכיח זאת.

אבל מה יקרה אם במקום לבדוק דעות נבדוק מעשים? למשל, השתתפות בהפגנות.

לפתע, התמונה משתנה – נקבל התפלגות Power Law.

אז בואו ניתן תזכורת קצרה למהו Power Law , עליו דיברנו קצת בפרק הקודם:

התפלגות Power Lawנקראת כך משום שהמשוואה שמרכיבה אותו מכילה חזקה (או power באנגלית) מה שיהפוך את הגרף ללא ליניארי.


ניתן דוגמא ציורית יותר, לאלה מאיתנו שלא מתבגרים אלא רק מזדקנים:

אם התפלגות נורמלית נראית כמו נחש בריח שבלע פיל, הרי שגרף Power Law ייראה כמו ברכיוזאורוס.

ברכיוזאורוס, כמו שהסביר לי בני היקר, הוא הדינוזאור הכי גדול בעולם ויש לו צוואר ישר וארוך כמו ג'ירפה שמייצג מעט עמודות גבוהות בציר הY וזנב ארוך עוד יותר של עמודות מאד נמוכות שנמרח לאורך רוב ציר ה-X. הילד גם ציין שהברכיוזאורוס הוא צמחוני וחמוד ולכן נעשה בו שימוש רב בפרק זה.

אז בניגוד לדעות פוליטיות, עשייה פוליטית כמו הפגנות למשל, היא Power Law. עכשיו בואו נחשוב על זה יחד: בכמה ממאות ההפגנות שהיו בשנים האחרונות בישראל השתתפנו? אם התשובה תהיה בין 0 ל-2 לא צריך להרגיש רע. ההפגנה שמושכת הכי הרבה אנשים זה הפגנת אדישות.

אבל לצד אלה, יהיה מיעוט זעיר אך בולט מאד של מפגינים סדרתיים שנזהה אותם מופיעים בחדשות עם מגאפון וקול צרוד מחר בבוקר.

אם נשים את עם ישראל על ציר ה-X ונמיין לפי ציר ה-Y, שהוא כמות ההשתתפות בהפגנות, מהכי הרבה להכי מעט, נקבל מעט עמודות גבוהות שמציינות השתתפות בהפגנות, שיימצאו בראש הדינוזאור, והשאר יהיו הרבה מאד עמודות נמוכות מאד בגובה 0 עד 2 שזה הזנב הארוך של הדינוזאור או של הPOWER LAW -. לטוב או לרע, כשהזנב של הדינוזאור מיטלטל, זה לרוב בזכות הראש.


נקודה חשובה לגבי Power Law היא שהתנאי לקבל אותו זו דגימה בכמות מספקת של הדאטה. אם נדגום למשל רק את הגבהים של ילדי כיתה א', נקבל התפלגות נורמלית. אם נבדוק את הגבהים של כלל היצורים על כדור הארץ, מלוויתנים ועד חיידקים, נקבל Power Law, כפי שראינו בפרק "עולם קטן".

כבר בתחילת המאה ה-20 נמצאו מספר דוגמאות להתפלגות Power Law (אם כי נקראה בשמות אחרים) למשל פיזור האוכלוסיה בערים: העיר הגדולה ביותר תהיה גדולה פי 2 מהעיר השניה בגודלה ופי שלוש מהעיר השלישית בגודלה וכן הלאה. כך אם נעמיד את היישובים זה לצד זה על הגרף ונמיין לפי גודל, נראה מעט עמודות מאד גבוהות של הערים המרכזיות (ראש הדינוזאור) והרבה מאד עמודות קטנות שמייצגות יישובים קטנים שמהווים את ה"זנב הארוך".

נשמע קצת מצוץ מהאצבע? את הספקנים שבינינו אני משבח על הסקפטיות אבל נאלץ להפנות לנתוני הלשכה המרכזית לסטטיסטיקה:

נכון ל-2018, בירושלים כ-920 אלף תושבים שזה פי שניים מת"א שיש בה כ-450 אלף ופי שלושה מחיפה שיש בה כ-280 אלף תושבים.

פליקס אורבך, שגילה את התופעה הזו כבר לפני מאה שנה, לא היה סוציולוג אלא דווקא פיסיקאי ועל מה הקשר של התופעה הזו לפיסיקה נדבר בהמשך.


דוגמא מעט מאוחרת יותר היא חוק זיפף. ג'ורג' זיפף נחשב אבי הבלשנות החישובית וכבר בשנות ה-30 ניסח חוק דומה הנוגע לשכיחות מילים בספר.

החוק טוען שהמילה הנפוצה ביותר תופיע בספר פי שתיים מהמילה השנייה, פי שלושה יותר מהמילה השלישית בשכיחותה וכן הלאה. בעצם אפשר להגיד שמחצית מכל ספר מורכבת מאותן מאה-מאתיים מילים ושאר הספר מורכב ממילים שיחזרו רק פעם-פעמיים וייצרו את "הזנב הארוך" של ההתפלגות. בגלל זה, למשל, ספירת מילים פשוטה בטקסט כדי להבין במה הוא עוסק היא קצת נאיבית.

התפלגות מילים באנגלית

המילים הנפוצות יהיו מילות קישור לא אינדיקטיביות. זו אחת מהסיבות לשימוש באלגוריתם TFIDF עליו נדבר בפרק העוסק ב-best practice לחוקר הרשת.

אבל ההישג המשמעותי, והפחות מוכר של זיפף, היה שאת הבדיקה לחוק עשה עם המתמחים שלו על הספר יוליסס של ג'יימס ג'ויס ובכך הוא גם מחזיק את השיא של האיש שגרם להכי הרבה סטודנטים לסיים את הספר הזה. לא טריויאלי.



ככל שהשטח הכחול גדול יותר, כך גדול יותר האי שיוויון

התחום אולי הכי בולט ב-Power Law הוא התחום הכלכלי שבו תקוותיהם של השואפים לשוויון כלכלי מתנפצות פעם אחר פעם בעובדה שמעט אנשים מחזיקים ברוב ההון. בתחום זה נפוץ השימוש במה שנקרא "מדד ג'יני" או "מדד האי שיוויון". מדד זה משמש לתת ציון למרחק בין התפלגות הנתונים שהיא POWER LAW לבין התפלגות שווה, כלומר, ציון לכמה רחוקה הכלכלה משיוויון מוחלט, שבו יש לכל אחד אותה כמות של משאבים.

גם דפוסי מיקום ותנועה, שמעסיקים אפליקציות רבות, הם דוגמא קלאסית ל-Power Law:

זה אולי לא כ"כ אינטואיטיבי, אבל נתיבים של שדות תעופה הם Power Law. יש מעט שדות תעופה מרכזיים שיוצאים להרבה יעדים (LAX, לה גוארדיה וכד') אבל לרוב שדות התעופה בעולם יש יעדים בודדים.

כך נוצר גרף ובו מעט עמודות גבוהות של שדות תעופה עם הרבה יעדים וזנב ארוך של שדות תעופה עם יעד בודד.

בואו ניתן עוד דוגמא מעולם המיקום והתנועה: רוב יעדי התנועה של האזרחים בישראל הם...ובכן... בישראל. כלומר, אם ציר ה-X יהיה מדינות כל העולם, הרי שהעמודה הגבוהה בגרף תהיה של יעדים בישראל. בשאר היעדים בעולם תיראו ישראלים, בין אם תרצו ובין אם לא, אבל תתנחמו שמדובר בזנב הארוך.

גם יעדי התנועה של רוב תושבי ת"א הם ברובם בתוך ת"א ונשאר זנב ארוך של יעדים מחוץ לת.א שתל אביבים מגיעים אליהם. אני מניח להורים בשבת.

גם ברזולוציה של האדם הבודד: יש כשני יעדים בהם נמצא האדם רוב הזמן והרבה יעדים בהם האדם נמצא מעט.

שימו לב שאפשר להפוך את הגרף ועדיין לקבל Power Law, למה הכוונה?

במקום יעדים, נסתכל על מרחקים של תנועה, וכך נקבל עמודה אחת גבוהה של נסיעה ארוכה במיוחד ליעד אקזוטי והרבה מאד עמודות קטנות של תנועות קצרות באיזור מגורינו.

פעם ב.. אנחנו טסים במטוס ליעד מרוחק, אבל רוב התנועות שלנו הן קצרות וברגל.

תופעות נוספות בטבע שמהוות Power Law ניתן למצוא בהתפלגות רעידות אדמה, זרימת נהרות, אינטראקציה בין חלבונים בתא ומטאבוליזם של חיות שהוא פונקציה של גודל החיה וכבר הדגמנו שהוא Power Law. כשחושבים על ההתפלגות האנושית, יש אולי משהו עצוב ב-powerlaw. בהגדרה, רובנו נמצאים ב"זנב הארוך" של הדינוזאור והסיכויים לשנות זאת אינם לטובתנו.

יש לי ילד מאד מוכשר, אבל מבט על שיאים במשחק מחשב יכולה לייאש אותו. תוצאות במחשקי מחשב הן Power Law ומה הסיכוי שיקבל תוצאה שאפילו מתקרבת לשחקן המדורג מס' 1? בגלל זה שמחתי לגלות שיש לפחות תחום אחד בו אנו נמצאים בראש הדינוזאור.

אשתי היא ספרנית בבית אריאלה, אולי הספריה העירונית הגדולה בארץ. בסטטיסטיקות שעושה הספריה לכבוד ראש השנה יצא שבשנה האחרונה אשתי השאילה את כמות הספרים הגדולה ביותר בספריה, וכמו שאתם יכולים לנחש, הרוב השאילו ספר-שניים והיוו הזנב הארוך. אז מה הקשר אלי? מישהו צריך גם להחזיר את כל הספרים שאשתי השאילה ולכן אני כנראה מקום ראשון ב-Power Law כמחזיר הספרים מספר אחד בארץ.


אז איפה הבנת ה-Power Law תורמת לנו?

אם כבר דוגמאות מהחיים, אז הראשונה שקופצת לי היא דוגמת המדפים. כשעברנו לדירה החדשה, ובה כ-40 מדפים בארון, אמרתי לאשתי שאני מוותר מראש על חלוקת החצי-חצי הקלאסית ושהיא יכולה להשתלט על כל המדפים, ואני אשתמש רק בשניים (שכמובן ממוקמים במיקום הכי נוח. בכל זאת ויתרתי, לא?). כך יצא שאשתי משתמשת גם היא ב-2 מדפים בלבד כמעט כל הזמן ובשאר המדפים היא כמובן משתמשת פעם אחת או אף פעם. כך הנדסנו שלום בית בחסות הסטטיסטיקה.

הבנת ה-Power Law עוזרת לנו גם בתכנון נכון של גיימינג שהזכרנו לפני רגע. מכיוון שזה מייאש לראות שיאים של שחקנים אחרים שלעולם לא נגיע אליהם, אז נזכיר שככל שנגדיל את הדגימה של הנתונים נקבל Power Law. אז ההופכי הוא שככל שנקטין את הדגימה נקבל התפלגות נורמלית ושיאים שיש לנו סיכוי גבוה יותר להגיע אליהם. למשל, אם נראה רק את התוצאות של אלה שקרובים לנו, או הכי טוב, נקטין את הדגימה לעצמנו, נגביר את המוטיבציה שלנו לשחק כי נקבל שיאים שקל לנו יותר לשבור.

כשנרצה להבין מה הסיכוי שלנו להצליח בעולם העסקי של הסטארטאפים אז זה כבר עובדה ידועה שרק 1% מהחברות הופך ל-unicorn , כלומר, הופכות להצלחה מסחררת, ו-90% הסטארטאפים האחרים שנכשלים מהווים את הזנב הארוך של ה-Power Law. ואם כבר מדברים על "זנב ארוך" בעולם העסקים, אז חייבים להזכיר את כריס אנדרסון, שב-2004, פירסם מאמר שהפך לספר בשם "הזנב הארוך" והחדיר את המושג לתרבות הפופולרית ואחראי על הציור הזה: .

טענתו של אנדרסון היתה שיש כסף ב"זנב הארוך" של המוצרים, כלומר, מגוון רחב של מוצרי נישה, שכל אחד בפני עצמו נמכר מעט, אך ייסתכם לכמות כסף גדולה.

אנדרסון טען שבעידן של חנויות דיגיטליות, שלגודל הסחורה אין כמעט משמעות, הרי שיותר קל להחזיק מוצרי נישה שביחד מהווים חלק ניכר מהשוק. השאלה היא כמה ניכר.

הבעייתיות במסקנותיו של אנדרסון היא כתוצאה מהשיח פופולרי שאפילו אנדרסון-עצמו נסחף אליו וגרם לו להתרחק מהדאטא שהוא עצמו אסף.

אחת מהדוגמאות שמובאות בספר היא השוואה בין אמזון, הדיגיטלית, לבין בארנס אנד נובל, חנות ספרים בעולם הפיזיקלי. 30% מהמכירות של אמזון ב-2008, לפי הספר, הם של ספרים שאינם נמצאים בבארנס אנד נובל (שהחזיקו כ-100 אלף ספרים) . בארנס אנד נובלס לא החזיקו ספרים אלו מכיוון שהיו נישתיים מדי ולכן לא היתה להם כדאיות כלכלית להחזיק אותם, כלומר, הזנב הארוך של ספרי נישה, אחראי ל-30% מהמכירות באמזון.

30% נשמע מספר סביר, אבל בתרבות הפופולרית, וכנראה בעידוד אנדרסון עצמו, המספר נופח ל50% ואף יותר. יש לציין שבשום מקום בספר אין נתון שמצביע על כך שהרווחים מהזנב גדולים יותר מהראש, למעט בדוגמא בודדת שניתן להתווכח עליה האם החיתוך של הזנב הארוך נעשה במקום המתאים.

אבל יש עוד כמה בעיות ברעיונות העולים בספר:

נגיד ש-30% מכירות של מוצרי נישה זה מצוין, אבל מי חוץ מאמזון יכול להחזיק כזה מלאי של מוצרי נישה? האזרח הפשוט אולי נכלל בזנב הארוך אבל מכאן לשליטה בו הדרך ארוכה.

להפך, בעלי עסקים קטנים באמזון מוצאים את עצמם נרמסים ע"י המוצרים של אמזון עצמה.

בעיה נוספת היא שהמגמות העולמיות שאנדרסון מצביע עליהן "שיעבו" את הזנב הארוך ויהפכו את המוצרים הנישתיים לרווחיים יותר, משרתות גם את המובילים ב-Power Law. כלומר מגמות אלו אולי יאריכו את הזנב הארוך, אך לא בהכרח יעבו אותו. ובמקביל, הן יעצימו את המועצמים גם כך. למשל, גישה הולכת וגדלה לאינטרנט ללא ספק מקלה על גישה למוצרי נישה, אך במקביל מקלה על הגישה גם למוצרים פופולריים.

ולמרות כל מה שאמרתי, אם אתם מעל גיל 40 וזוכרים מה זה DVD אז הספר יספק קריאת שירותים מהנה.

אז למדנו שבניגוד לאינטואיציה שלנו, הרבה דברים בחיים הם Power Law. אבל זה לא נגמר. עכשו נמתח את האינטואיציה שלנו עוד קצת ונדבר על מה ה-Power Law עושה לרעיון של "ממוצע".

ראינו שממוצע בהתפלגות נורמלית משרת אותנו היטב ומספר לנו מה קורה בדאטה, למשל, ממוצע הגובה של בני אדם מאפשר לנו לבנות כסאות ב-mass production.

כנ"ל לגבי הבְּנות-דוד של הממוצע – סטיות התקן. הן יכולות לספר לנו מה חריג אצלנו בדאטה.

אבל אם הדאטא שלנו מתפלג Power Law (והוא אכן מתפלג Power Law), אז מה המשמעות של ממוצע?

נדמיין משרד ובו 30 עובדים המרוויחים בין 3000 ל-6000 דולר בחודש (בהתפלגות נורמלית). כשלפתע נכנס למשרד מיליארדר שמרוויח 100 מיליון דולר בחודש.

לפתע, ההתפלגות של המשכורות יוצרת Power Law והמשכורת הממוצעת של יושבי החדר עולה למעל 3.2 מיליון דולר.

איזה מהדמויות במשרד מתאר הממוצע? אף אחת.

השימוש בממוצע בהתפלגות נורמלית נובע מההנחה שהנתון הבודד של הממוצע מתאר את רוב הנתונים אך לא כך בהתפלגות "זנב ארוך". בהתפלגות כזו, לרוב-המכריע יהיה מתחת לממוצע ולמעטים, הרבה מעליו.

רובנו לא חולקים משרדים עם מיליארדרים אבל כן חולקים איתם לאום. כשמחשבים משכורת ממוצעת במדינה, צריכים לזכור שהדאטה שלנו לא מתפלג נורמלית.

בהקשר זה, זכורה לי כתבה מ-2019 על מאבקם של עובדי בנק הפועלים להעלאת שכרם. אחד מהכתבים הטיח באחד העובדים שהמשכורת הממוצעת שלהם היא מעל 30אלף שקל ולכן אין להם על מה להתלונן. העובד הכחיש ואמר שאף אחד שעובד איתו לא מקבל שכר גבוה שכזה. בלי לנקוט עמדה בנושא ובלי להיכנס לאיך מחשבים שכר, היכרות עם בעיית הממוצע בהתפלגות משכורות נותנת משקל לטענת העובד. איך אנחנו יודעים ששכר המנכלים לא שוקלל בממוצע והאמיר את הסכום משמעותית?

בעיה דומה בממוצע עולה גם בסטטיסטיקה העירונית. אם הערים היו מתפלגות נורמלית, ניו יורק על 8.5 מיליון תושביה לא היתה יכולה להתקיים כי זו סטיית תקן גדולה מדי להתפלגות ממוצעת.


אי אפשר לדבר על עולם הבעיה הזה מבלי להזכיר את הספר "ברבור שחור" של נסים טאלב. הספר "ברבור שחור", מוקדש בעיקרו לשני נושאים:

הנושא הראשון, והוא ממלא את רוב הספר, הוא גאונותו של נסים טאלב עצמו. הנושא השני הוא ההבדל בין התפלגות נורמלית-גיאוסיינית להתפלגות Power Law ולטעויות הנפוצות בהתייחסות שלנו לממוצע ולסטיית תקן.

הייתי מפנה אתכם לספר אבל נראה לי שתהנו יותר מהפודקאסט בנושא של ניצן דוד פוקס מאתר "המשחק הגדול" פרק 30.

אם נשים את טאלב בצד לרגע, ונתמקד בטיעונים שלו, יש בהם אמת מטרידה בנושאים שמעסיקים את קהילת הדאטא והם: זיהוי חריגות/anomaly detection ופרדיקציות.

מאמרים רבים בנושאים אלו מתבססים בצורה כזו או אחרת על התפלגות נורמלית, ממוצע וסטיית תקן.

אבל מכיוון שהדאטה שלנו (בוודאי בעולם הרשת) הוא Power Law, הרי שהממוצע לא מתאר את רוב התופעות ולכן סטיית התקן תייצר לנו הרבה false alarms. כמו כן, בתהליכי חיזוי, סטיית תקן לא תוכל לחזות אירועים גדולים שכן הם יהיו כה רחוקים מהממוצע, עד שייראו כמעט בלתי אפשריים אך הם הרבה פחות נדירים מכך ולמעשה מהווים תופעה נורמלית לחלוטין בדאטה (שהרי מתפלג Power Law).

ניקח לדוגמא הערכת סיכונים כנגד רעידות אדמה שכפי שכבר ציינו, מתפלגות Power Law, כלומר, יש הרבה רעידות אדמה קטנות ומעט גדולות.

אם ניערך לרעידת האדמה הממוצעת, היא כנראה אף פעם לא תגיע.

אנו צפויים להיתקל בהרבה רעידות אדמה קטנות (מתחת לממוצע), כך שברוב המקרים השקענו משאבים עודפים וזה בזבזני. כשניתקל ברעידה הגדולה, נגלה שהשקענו מעט מדי משאבים וזה הרסני. למרות שרעידת האדמה הגדולה היא נדירה, היא פחות נדירה ממה שסטיית התקן תגיד לנו והיא בוא תבוא שכן ככל שנגדיל את הדגימה, כלומר, נמתין יותר זמן, הנתונים ישקפו את ה-Power Law.

נמשיך בחלק הבא לדון ספציפית ב-Power Law בעולם הרשת אבל רגע, מה לגבי בעיית מונטי הול מתחילת הפרק?

אז כמו בכל ויכוח שהיה לי איתו, החבר שלי צדק. התשובה היא שעדיף לשנות את הבחירה המקורית מוילון מס' 1 לוילון מס' 3 שבו הסיכויים לזכייה בעז הם 2/3. אינטואיטיבי? ממש לא.


אז בואו נדבר על Power Law ברשת.

ה-Power Law לא אינטואיטיבי בכלל, ובמחקר הרשתות בפרט ולכן לא פלא שנעלם מעיני החוקרים תקופה ארוכה.

נזכיר שברוב המאה ה-20 הדאטה היה מוגבל וכמו שכבר למדנו, דגימה קטנה מדי של הרשת תגביר את הסיכוי לקבל התפלגות נורמלית ולעוות את הדאטה. לפיכך לא מפתיע שהדרך לחשוב על רשתות היתה באמצעות המודל של ארדוש ורני, עליו דיברנו בפרק "עולם קטן". המודל מניח שרשתות הן אקראיות ומתפלגות נורמלית: רשתות יוצרות מבנים "מבולגנים" ולכן נשמע הגיוני ש"יד המקרה" בנתה אותם כפי שבנתה. זאת למרות רמזים שהופיעו אפילו בדאטה המוגבל שהיה אז.

הרחבה על רמזים אלו נמצאת בפרקים הקודמים אז רק נזכיר בקצרה שתי דוגמאות: הדוגמא הראשונה היא של ג'ייקוב מורנו, פסיכולוג ומחנך, שבשנות ה-30 שירטט סוציוגרמות של קשרי חברות בכיתה. בגרפים שצייר היו מעט תלמידים שרבים רצו להיות חברים שלהם לעומת הרבה תלמידים ללא חברים או עם חבר אחד. מספר התלמידים הלא מקובלים היה גדול פי כמה וכמה מהמקובלים, כשהלא מקובלים, היוו את הזנב הארוך של ה-Power Law. יש להניח שאם היה מצייר גרף קשרי חברות של בתי ספר שלמים, היה מורנו מקבל זנב ארוך עוד יותר.

הדוגמא השניה היא התופעה הדומה שהופיעה גם בניסוי "העולם הקטן" או ניסוי "6 הצעדים" של סטנלי מילגרם, בשנות ה-60. מילגרם בדק כמה תחנות יצטרך לעבור מכתב שרשרת ממקור רנדומלי ליעד רנדומלי, דרך חברים משותפים. החלק הפחות מפורסם בניסוי היה התגלית שכמעט מחצית מהשרשראות עברו דרך אותם 3 אנשים, שהיוו רק אחוז אחד מהמעורבים בניסוי, כלומר, מעט אנשים ברשת שתפקידם גדול משמעותית משל שאר האנשים, ביחס של Power Law.

פריצת האינטרנט ורשתות הענק (ה- World Wide Web, למשל) הביאו להתפתחות משמעותית במחקר הרשתות ולהבנה כי מבנה הרשת אינו אקראי כפי שהיה נהוג לחשוב .


ב-1999 פורסם מאמר בשם: Emergence of scaling in Random Network

מאחורי הכותרת המלהיבה הזו עמדו 2 חוקרים (אלברט וברבאשי) שהגילויים שלהם שינו את הדרך בה אנו חושבים על רשתות.

אנצל את ההזדמנות ואמליץ על ספרו של ברבאשי "קישורים" שיצא גם בעברית. ספר מרתק וקריא מאד.

אז ברבאשי ואלברט ערכו מחקר על קישורים, או הלינקים, בין דפי האינטרנט. מה שברבאשי גילה הוא שישנם מעט מאד דפים באינטרנט שלהם יש הרבה קישורים לעומת זנב ארוך של דפים שלהם יש רק קישור אחד-שניים.

היום זה כבר ידוע שרוב האינטרנט מורכבת מדפים כאלה ומכאלה שאין להם קישור בכלל כשרובם נמצאים בחלק של האינטרנט הנקרא deep web או הרשת העמוקה, שלפי הערכות מכיל כ90% מהאינטרנט.

המושג deep web אולי כבר מוכר לרבים מהגולשים גם אם לא חשבו עליו כ-Power Law אבל מה לגבי האינטואיציה שלנו על רשת פייסבוק, הרשת החברתית הגדולה ביותר בעולם?

בשנים האחרונות יצא לי לתת מאות הרצאות בנושא ובכל הרצאה ביצעתי ניסוי קטן: ביקשתי מתנדבים בפורום ושאלתי כמה חברים יש להם בפייסבוק. לרוב התשובה היתה אי שם בין 200 ל-2000.

פה ושם היה חוטא שלא היה לו פייסבוק.

האינטואיציה של הקהל היתה שזה הממוצע, כלומר, שלרוב האנשים בפייסבוק יש בין 200 ל2000 חברים, כשיש מן הסתם מעט שיש להם אלפים רבים של חברים ויש מעט שיש להם מעט חברים.

על פניו, התפלגות נורמלית במיטבה.

כשאמרתי שפייסבוק למעשה מתפלגת Power Law, כלומר יש מעט אנשים עם אלפי חברים והרוב כנראה עם חבר אחד-שניים או בלי חבר בכלל, התגובות נעו בין תדהמה לבין סקפטיות בריאה.

לא אשקר, היו גם שניים שלושה שהיו אדישים.

אגב, כשאני אומר מעט אנשים בפייסבוק שיש להם אלפי חברים חשוב לזכור שזו רשת עם 2.5 מיליארד משתמשים פעילים, כן? אז מעט זה לא כ"כ מעט. הכוונה לאחוזים בודדים.

הסיבה שהנתון זה הוא לא אינטואיטיבי היא שאנחנו כמעט לא מכירים אף אחד מה"זנב הארוך" של פייסבוק. נראה שאחת הסיבות לכך היא כי לאותם אנשים יש ברשת רק חבר אחד או שניים או אין להם חבר בכלל.


רגע, רגע, אבל מה לגבי יוזרים פיקטיביים ובוטים? אולי הם אלה שמרכיבים את ה"זנב הארוך" ומייצרים מצג שווא שקרי של Power Law?


אז לאלה שטוענים כך אומר שה-Power Law היא תופעה כל כך רחבה שרואים אותה בכל כך הרבה רשתות, חברתיות ולא חברתיות, ציבוריות, ארגוניות או פרטיות, אנושיות ולא אנושיות כך שגם ברשתות בלי פרופילים פיקטיביים הזנב הארוך חי ונושם.

אבל אפילו עם פרופיליים פיקטיביים, מבחינה מספרית זה משנה?

בואו נבדוק. ניקח כדוגמא את אלן דג'נרס, השחקנית והקומיקאית האמריקאית, עם כ-150 מיליון עוקבים ברשתות החברתיות. מתחקיר שפורסם ב-2019, עלה שחמישים אחוז מהעוקבים שלה הם פיקטיביים.

זה המון. אבל עדיין יש לה עשרות מיליוני עוקבים, שלרובם-המכריע כנראה אין הרבה עוקבים.

ה-Power Law נשמר.

גם אם כל זה עדיין לא משכנע, אז בואו נפייס את האינטואיציה שלנו בנתון שבפייסבוק 1% מייצר תוכן, 9% מגיבים ו-90% לא מפרסמים כלום. נשמע יותר הגיוני? ה-Power Law הזה יותר אינטואיטיבי לנו כי רובנו מן הסתם ב-90%. אבל זו בדיוק אותה לוגיקה. רק שבמקום התפלגות קשרים הצגנו התפלגות של פעילות ברשת.

בשנים שיבואו אחרי מאמרו של ברבאשי, חוקרים רבים יציגו מחקרים אמפיריים של רשתות המחזקים את תיאורית ה-Power Law ולא רק כהתפלגות המייצגת את כמות הקשתות שיש לכל צומת אלא בפרמטרים רבים בהם נבדקת הרשת (התפלגות הפעילות ברשת, מדדי המרכזיות ברשת, עליהם נדבר בפרק הבא ועוד).

כלומר, ה-Power Law בא לידי ביטוי לא רק בכל רזולוציה אלא גם בכל מדד:

בין אם זה כמות הקשרים שיש לכל צומת או כל מדד אחר שנבחר, למשל, רמת הפעילות של כל צומת ברשת, עוצמת הקשרים בין הצמתים ברשת, גודל רכיבי הקשירות (או ה"איים ברשת") ועוד. כל המדדים האלו מתפלגים Power Law.

למשל, בדוגמא שנתנו של פייסבוק, לא רק כמות החברים שיש ליוזר מתפלגים Power Law אלא גם יוצרי התוכן.

אבל ברבאשי גילה דבר מה נוסף. של-Power Law ברשת יש תכונה מרתקת והיא היותו scale-free. כלומר, בכל scale או רזולוציה שנסתכל על הרשת, נקבל Power Law.

למה הכוונה?

נחזור לדוגמא שנתנו ל-Power Law בהקשר של ניתוח דפוסי מיקום ותנועה:

גם כשעלינו ברזולוציה מנתוני תנועה חובקי עולם, עבור דרך נתונים ברמת המדינה ורמת העיר עד לרזולוציה של האדם הבודד, בכל רזולוציה קיבלנו נתונים שמתפלגים Power Law.

לתכונה זו משמעויות נוספות שנרחיב עליהן בפרקים הבאים העוסקים בקהילות וברשתות דינאמיות.

אז כפי שניתן להבין מהדוגמאות עד כה, ההתפלגות אינה מאפיינת רשתות בלבד אך היא תופעה רשתית כה מובהקת עד כדי שנזכה אותה בתואר "חוק הרשת מס' 1".

הבנה של חוק זה היא כלי עוצמתי בידי ה-Data scientist שכן תופעה זו תהיה קיימת בכל רשת.