הרחבות לפרק 3: חוק הרשת מס' 1 - Power Law

אסף שפירא
10 בפבר׳ 2020
זמן קריאה 20 דקות

עודכן: 31 באוג׳ 2022

(ר' קישורים בטקסט)

אני אסף שפירא וזה נטפריקס – הפודקאסט העברי הראשון למדע הרשתות.

ה-Power Law הוא אולי התופעה הבסיסית והמופלאה ביותר ברשת, ולפיכך נעמיק בה, נבין את משמעויותיה, מה עושה אותה מופלאה כל כך, והכי חשוב: איך זה עוזר לי בחיים?

נושא זה יורכב משני חלקים:

חלק שהוא יותר מבוא שיסביר מדוע ה-Power Law לא אינטואיטיבי אך אנו מוקפים בו, ניתן לו הרבה דוגמאות וכמובן מה המשמעויות הנובעות ממנו.

החלק השני יתמקד ב-Power Law ברשתות, אך גם מדוע יש Power Law? מה עומד מאחורי התופעה? וכמובן, החלק המשמעותי ביותר: איך הבנת ה-Power Law עוזרת לנו בניתוח הרשת?

אז בואו נתחיל מזה שסטטיסטיקה היא לא אינטואיטיבית.

למשל אני זוכר את עצמי מתווכח עם חבר במשך 4 שעות על בעיית מונטי הול המפורסמת:

הבעיה קרויה על שם מנחה שעשועון טלוויזיה במהלכו מציגים בפני המשתתף 3 וילונות. מאחורי אחד הוילונות מסתתר פרס יקר ערך, נגיד עז עם פעמון, ומאחורי 2 הוילונות האחרים אין כלום.

נניח שהמשתתף בחר את וילון מס' 1. או אז מרים המנחה (שיודע היכן העז) דווקא את וילון מס' 2 ומגלה שאין מאחוריו כלום ופונה למשתתף האם ברצונו לשנות את בחירתו לוילון מס' 3.

מה אומרת האינטואיציה שלנו?

ההתפלגות שרובנו מכירים ועליה מתבססות מרבית האינטואיציות שלנו היא התפלגות נורמלית (מכונה גם התפלגות פעמון על פי צורתה, או התפלגות גיאוסיינית או פואסון). זה הרבה שמות להתפלגות אחת אבל מה שמרגיע אותנו זה שהיא נורמלית. מה כבר יכול להיות רע בנורמלי?

עוד משהו שתורם לשביעות הרצון הכללית מהתפלגות נורמלית זה הממוצע.

כשנשלח את ילדנו הרך שגובהו 1.15 סמ לכיתה א', אז לפי הסטטיסטיקות של משרד הבריאות, אנחנו לא נצטרך לחשוש שהוא יוקף בענקים מאיימים או שהכסא עליו ישב יהיה לו קטן מדי שכן הוא נמצא בדיוק בממוצע הגובה לגילו. יהיו כמה נמוכים יותר ויהיו כמה גבוהים יותר, אבל הרוב יהיו באיזור הגובה הזה.

כלומר, ממוצע ההתפלגות הנורמלית הוא אמנם נתון בודד אבל הוא מספר את הסיפור שמאחורי רוב הנתונים.

המציג אינו סטטיסטיקאי או פסיכולוג חברתי, אבל לתחושתי הסובייקטיבית, רובנו חושבים על העולם בצורה של התפלגות נורמלית: יש קצת בצד אחד של הסקאלה וקצת בצד השני אבל בסוף הרוב נוטה לאמצע.

דעות פוליטיות הן דוגמא מצויינת להתפלגות נורמלית:

יש לנו קיצונים בכל צד, אבל הרוב מתכנסים למפלגות באיזור המרכז ויש לנו את המנדטים להוכיח זאת.

אבל מה יקרה אם במקום לבדוק דעות נבדוק מעשים? למשל, השתתפות בהפגנות.

לפתע, התמונה משתנה – נקבל התפלגות Power Law.

אז בואו ניתן תזכורת קצרה למהו Power Law , עליו דיברנו קצת בפרק הקודם:

התפלגות Power Law נקראת כך משום שהמשוואה שמרכיבה אותו מכילה חזקה (או power באנגלית) מה שיהפוך את הגרף ללא ליניארי.

ניתן דוגמא ציורית יותר, לאלה מאיתנו שלא מתבגרים אלא רק מזדקנים:

אם התפלגות נורמלית נראית כמו נחש בריח שבלע פיל, הרי שגרף Power Law ייראה כמו ברכיוזאורוס.

ברכיוזאורוס, כמו שהסביר לי בני היקר, הוא הדינוזאור הכי גדול בעולם ויש לו צוואר ישר וארוך כמו ג'ירפה שמייצג מעט עמודות גבוהות בציר הY וזנב ארוך עוד יותר של עמודות מאד נמוכות שנמרח לאורך רוב ציר ה-X. הילד גם ציין שהברכיוזאורוס הוא צמחוני וחמוד ולכן נעשה בו שימוש רב בפרק זה.

אז בניגוד לדעות פוליטיות, עשייה פוליטית כמו הפגנות למשל, היא Power Law. עכשיו בואו נחשוב על זה יחד: בכמה ממאות ההפגנות שהיו בשנים האחרונות בישראל השתתפנו? אם התשובה תהיה בין 0 ל-2 לא צריך להרגיש רע. ההפגנה שמושכת הכי הרבה אנשים זה הפגנת אדישות.

אבל לצד אלה, יהיה מיעוט זעיר אך בולט מאד של מפגינים סדרתיים שנזהה אותם מופיעים בחדשות עם מגאפון וקול צרוד מחר בבוקר.

אם נשים את עם ישראל על ציר ה-X ונמיין לפי ציר ה-Y, שהוא כמות ההשתתפות בהפגנות, מהכי הרבה להכי מעט, נקבל מעט עמודות גבוהות שמציינות השתתפות בהפגנות, שיימצאו בראש הדינוזאור, והשאר יהיו הרבה מאד עמודות נמוכות מאד בגובה 0 עד 2 שזה הזנב הארוך של הדינוזאור או של הPOWER LAW -. לטוב או לרע, כשהזנב של הדינוזאור מיטלטל, זה לרוב בזכות הראש.

נקודה חשובה לגבי Power Law היא שהתנאי לקבל אותו זו דגימה בכמות מספקת של הדאטה. אם נדגום למשל רק את הגבהים של ילדי כיתה א', נקבל התפלגות נורמלית. אם נבדוק את הגבהים של כלל היצורים על כדור הארץ, מלוויתנים ועד חיידקים, נקבל Power Law, כפי שראינו בפרק "עולם קטן".

כבר בתחילת המאה ה-20 נמצאו מספר דוגמאות להתפלגות Power Law (אם כי נקראה בשמות אחרים) למשל פיזור האוכלוסיה בערים: העיר הגדולה ביותר תהיה גדולה פי 2 מהעיר השניה בגודלה ופי שלוש מהעיר השלישית בגודלה וכן הלאה. כך אם נעמיד את היישובים זה לצד זה על הגרף ונמיין לפי גודל, נראה מעט עמודות מאד גבוהות של הערים המרכזיות (ראש הדינוזאור) והרבה מאד עמודות קטנות שמייצגות יישובים קטנים שמהווים את ה"זנב הארוך".

נשמע קצת מצוץ מהאצבע? את הספקנים שבינינו אני משבח על הסקפטיות אבל נאלץ להפנות לנתוני הלשכה המרכזית לסטטיסטיקה:

נכון ל-2018, בירושלים כ-920 אלף תושבים שזה פי שניים מת"א שיש בה כ-450 אלף ופי שלושה מחיפה שיש בה כ-280 אלף תושבים.

פליקס אורבך, שגילה את התופעה הזו כבר לפני מאה שנה, לא היה סוציולוג אלא דווקא פיסיקאי ועל מה הקשר של התופעה הזו לפיסיקה נדבר בהמשך.

דוגמא מעט מאוחרת יותר היא חוק זיפף. ג'ורג' זיפף נחשב אבי הבלשנות החישובית וכבר בשנות ה-30 ניסח חוק דומה הנוגע לשכיחות מילים בספר.

החוק טוען שהמילה הנפוצה ביותר תופיע בספר פי שתיים מהמילה השנייה, פי שלושה יותר מהמילה השלישית בשכיחותה וכן הלאה. בעצם אפשר להגיד שמחצית מכל ספר מורכבת מאותן מאה-מאתיים מילים ושאר הספר מורכב ממילים שיחזרו רק פעם-פעמיים וייצרו את "הזנב הארוך" של ההתפלגות. בגלל זה, למשל, ספירת מילים פשוטה בטקסט כדי להבין במה הוא עוסק היא קצת נאיבית.

ree — התפלגות המילים באנגלית (2017 ,by Radboud University)

המילים הנפוצות יהיו מילות קישור לא אינדיקטיביות. זו אחת מהסיבות לשימוש באלגוריתם TFIDF עליו נדבר בפרק העוסק ב-best practice לחוקר הרשת.

אבל ההישג המשמעותי, והפחות מוכר של זיפף, היה שאת הבדיקה לחוק עשה עם המתמחים שלו על הספר יוליסס של ג'יימס ג'ויס ובכך הוא גם מחזיק את השיא של האיש שגרם להכי הרבה סטודנטים לסיים את הספר הזה. לא טריויאלי.

ree — ככל שהשטח הכחול גדול יותר, כך גדול יותר האי שיוויון

התחום אולי הכי בולט ב-Power Law הוא התחום הכלכלי שבו תקוותיהם של השואפים לשוויון כלכלי מתנפצות פעם אחר פעם בעובדה שמעט אנשים מחזיקים ברוב ההון. בתחום זה נפוץ השימוש במה שנקרא "מדד ג'יני" או "מדד האי שיוויון". מדד זה משמש לתת ציון למרחק בין התפלגות הנתונים שהיא POWER LAW לבין התפלגות שווה, כלומר, ציון לכמה רחוקה הכלכלה משיוויון מוחלט, שבו יש לכל אחד אותה כמות של משאבים.

גם דפוסי מיקום ותנועה, שמעסיקים אפליקציות רבות, הם דוגמא קלאסית ל-Power Law:

זה אולי לא כ"כ אינטואיטיבי, אבל נתיבים של שדות תעופה הם Power Law. יש מעט שדות תעופה מרכזיים שיוצאים להרבה יעדים (LAX, לה גוארדיה וכד') אבל לרוב שדות התעופה בעולם יש יעדים בודדים.

כך נוצר גרף ובו מעט עמודות גבוהות של שדות תעופה עם הרבה יעדים וזנב ארוך של שדות תעופה עם יעד בודד.

בואו ניתן עוד דוגמא מעולם המיקום והתנועה: רוב יעדי התנועה של האזרחים בישראל הם...ובכן... בישראל. כלומר, אם ציר ה-X יהיה מדינות כל העולם, הרי שהעמודה הגבוהה בגרף תהיה של יעדים בישראל. בשאר היעדים בעולם תיראו ישראלים, בין אם תרצו ובין אם לא, אבל תתנחמו שמדובר בזנב הארוך.

גם יעדי התנועה של רוב תושבי ת"א הם ברובם בתוך ת"א ונשאר זנב ארוך של יעדים מחוץ לת.א שתל אביבים מגיעים אליהם. אני מניח להורים בשבת.

גם ברזולוציה של האדם הבודד: יש כשני יעדים בהם נמצא האדם רוב הזמן והרבה יעדים בהם האדם נמצא מעט.

שימו לב שאפשר להפוך את הגרף ועדיין לקבל Power Law, למה הכוונה?

במקום יעדים, נסתכל על מרחקים של תנועה, וכך נקבל עמודה אחת גבוהה של נסיעה ארוכה במיוחד ליעד אקזוטי והרבה מאד עמודות קטנות של תנועות קצרות באיזור מגורינו.

פעם ב.. אנחנו טסים במטוס ליעד מרוחק, אבל רוב התנועות שלנו הן קצרות וברגל.

תופעות נוספות בטבע שמהוות Power Law ניתן למצוא בהתפלגות רעידות אדמה, זרימת נהרות, אינטראקציה בין חלבונים בתא ומטאבוליזם של חיות שהוא פונקציה של גודל החיה וכבר הדגמנו שהוא Power Law. כשחושבים על ההתפלגות האנושית, יש אולי משהו עצוב ב-powerlaw. בהגדרה, רובנו נמצאים ב"זנב הארוך" של הדינוזאור והסיכויים לשנות זאת אינם לטובתנו.

יש לי ילד מאד מוכשר, אבל מבט על שיאים במשחק מחשב יכולה לייאש אותו. תוצאות במחשקי מחשב הן Power Law ומה הסיכוי שיקבל תוצאה שאפילו מתקרבת לשחקן המדורג מס' 1? בגלל זה שמחתי לגלות שיש לפחות תחום אחד בו אנו נמצאים בראש הדינוזאור.

אשתי היא ספרנית בבית אריאלה, אולי הספריה העירונית הגדולה בארץ. בסטטיסטיקות שעושה הספריה לכבוד ראש השנה יצא שבשנה האחרונה אשתי השאילה את כמות הספרים הגדולה ביותר בספריה, וכמו שאתם יכולים לנחש, הרוב השאילו ספר-שניים והיוו הזנב הארוך. אז מה הקשר אלי? מישהו צריך גם להחזיר את כל הספרים שאשתי השאילה ולכן אני כנראה מקום ראשון ב-Power Law כמחזיר הספרים מספר אחד בארץ.

אז איפה הבנת ה-Power Law תורמת לנו?

אם כבר דוגמאות מהחיים, אז הראשונה שקופצת לי היא דוגמת המדפים. כשעברנו לדירה החדשה, ובה כ-40 מדפים בארון, אמרתי לאשתי שאני מוותר מראש על חלוקת החצי-חצי הקלאסית ושהיא יכולה להשתלט על כל המדפים, ואני אשתמש רק בשניים (שכמובן ממוקמים במיקום הכי נוח. בכל זאת ויתרתי, לא?). כך יצא שאשתי משתמשת גם היא ב-2 מדפים בלבד כמעט כל הזמן ובשאר המדפים היא כמובן משתמשת פעם אחת או אף פעם. כך הנדסנו שלום בית בחסות הסטטיסטיקה.

הבנת ה-Power Law עוזרת לנו גם בתכנון נכון של גיימינג שהזכרנו לפני רגע. מכיוון שזה מייאש לראות שיאים של שחקנים אחרים שלעולם לא נגיע אליהם, אז נזכיר שככל שנגדיל את הדגימה של הנתונים נקבל Power Law. אז ההופכי הוא שככל שנקטין את הדגימה נקבל התפלגות נורמלית ושיאים שיש לנו סיכוי גבוה יותר להגיע אליהם. למשל, אם נראה רק את התוצאות של אלה שקרובים לנו, או הכי טוב, נקטין את הדגימה לעצמנו, נגביר את המוטיבציה שלנו לשחק כי נקבל שיאים שקל לנו יותר לשבור.

כשנרצה להבין מה הסיכוי שלנו להצליח בעולם העסקי של הסטארטאפים אז זה כבר עובדה ידועה שרק 1% מהחברות הופך ל-unicorn , כלומר, הופכות להצלחה מסחררת, ו-90% הסטארטאפים האחרים שנכשלים מהווים את הזנב הארוך של ה-Power Law. ואם כבר מדברים על "זנב ארוך" בעולם העסקים, אז חייבים להזכיר את כריס אנדרסון, שב-2004, פירסם מאמר שהפך לספר בשם "הזנב הארוך" והחדיר את המושג לתרבות הפופולרית ואחראי על הציור הזה: .

טענתו של אנדרסון היתה שיש כסף ב"זנב הארוך" של המוצרים, כלומר, מגוון רחב של מוצרי נישה, שכל אחד בפני עצמו נמכר מעט, אך ייסתכם לכמות כסף גדולה.

אנדרסון טען שבעידן של חנויות דיגיטליות, שלגודל הסחורה אין כמעט משמעות, הרי שיותר קל להחזיק מוצרי נישה שביחד מהווים חלק ניכר מהשוק. השאלה היא כמה ניכר.

הבעייתיות במסקנותיו של אנדרסון היא כתוצאה מהשיח פופולרי שאפילו אנדרסון-עצמו נסחף אליו וגרם לו להתרחק מהדאטא שהוא עצמו אסף.

אחת מהדוגמאות שמובאות בספר היא השוואה בין אמזון, הדיגיטלית, לבין בארנס אנד נובל, חנות ספרים בעולם הפיזיקלי. 30% מהמכירות של אמזון ב-2008, לפי הספר, הם של ספרים שאינם נמצאים בבארנס אנד נובל (שהחזיקו כ-100 אלף ספרים) . בארנס אנד נובלס לא החזיקו ספרים אלו מכיוון שהיו נישתיים מדי ולכן לא היתה להם כדאיות כלכלית להחזיק אותם, כלומר, הזנב הארוך של ספרי נישה, אחראי ל-30% מהמכירות באמזון.

30% נשמע מספר סביר, אבל בתרבות הפופולרית, וכנראה בעידוד אנדרסון עצמו, המספר נופח ל50% ואף יותר. יש לציין שבשום מקום בספר אין נתון שמצביע על כך שהרווחים מהזנב גדולים יותר מהראש, למעט בדוגמא בודדת שניתן להתווכח עליה האם החיתוך של הזנב הארוך נעשה במקום המתאים.

אבל יש עוד כמה בעיות ברעיונות העולים בספר:

נגיד ש-30% מכירות של מוצרי נישה זה מצוין, אבל מי חוץ מאמזון יכול להחזיק כזה מלאי של מוצרי נישה? האזרח הפשוט אולי נכלל בזנב הארוך אבל מכאן לשליטה בו הדרך ארוכה.

להפך, בעלי עסקים קטנים באמזון מוצאים את עצמם נרמסים ע"י המוצרים של אמזון עצמה.

בעיה נוספת היא שהמגמות העולמיות שאנדרסון מצביע עליהן "שיעבו" את הזנב הארוך ויהפכו את המוצרים הנישתיים לרווחיים יותר, משרתות גם את המובילים ב-Power Law. כלומר מגמות אלו אולי יאריכו את הזנב הארוך, אך לא בהכרח יעבו אותו. ובמקביל, הן יעצימו את המועצמים גם כך. למשל, גישה הולכת וגדלה לאינטרנט ללא ספק מקלה על גישה למוצרי נישה, אך במקביל מקלה על הגישה גם למוצרים פופולריים.

ולמרות כל מה שאמרתי, אם אתם מעל גיל 40 וזוכרים מה זה DVD אז הספר יספק קריאת שירותים מהנה.

אז למדנו שבניגוד לאינטואיציה שלנו, הרבה דברים בחיים הם Power Law. אבל זה לא נגמר. עכשו נמתח את האינטואיציה שלנו עוד קצת ונדבר על מה ה-Power Law עושה לרעיון של "ממוצע".

ראינו שממוצע בהתפלגות נורמלית משרת אותנו היטב ומספר לנו מה קורה בדאטה, למשל, ממוצע הגובה של בני אדם מאפשר לנו לבנות כסאות ב-mass production.

כנ"ל לגבי הבְּנות-דוד של הממוצע – סטיות התקן. הן יכולות לספר לנו מה חריג אצלנו בדאטה.

אבל אם הדאטא שלנו מתפלג Power Law (והוא אכן מתפלג Power Law), אז מה המשמעות של ממוצע?

נדמיין משרד ובו 30 עובדים המרוויחים בין 3000 ל-6000 דולר בחודש (בהתפלגות נורמלית). כשלפתע נכנס למשרד מיליארדר שמרוויח 100 מיליון דולר בחודש.

לפתע, ההתפלגות של המשכורות יוצרת Power Law והמשכורת הממוצעת של יושבי החדר עולה למעל 3.2 מיליון דולר.

איזה מהדמויות במשרד מתאר הממוצע? אף אחת.

השימוש בממוצע בהתפלגות נורמלית נובע מההנחה שהנתון הבודד של הממוצע מתאר את רוב הנתונים אך לא כך בהתפלגות "זנב ארוך". בהתפלגות כזו, לרוב-המכריע יהיה מתחת לממוצע ולמעטים, הרבה מעליו.

רובנו לא חולקים משרדים עם מיליארדרים אבל כן חולקים איתם לאום. כשמחשבים משכורת ממוצעת במדינה, צריכים לזכור שהדאטה שלנו לא מתפלג נורמלית.

בהקשר זה, זכורה לי כתבה מ-2019 על מאבקם של עובדי בנק הפועלים להעלאת שכרם. אחד מהכתבים הטיח באחד העובדים שהמשכורת הממוצעת שלהם היא מעל 30אלף שקל ולכן אין להם על מה להתלונן. העובד הכחיש ואמר שאף אחד שעובד איתו לא מקבל שכר גבוה שכזה. בלי לנקוט עמדה בנושא ובלי להיכנס לאיך מחשבים שכר, היכרות עם בעיית הממוצע בהתפלגות משכורות נותנת משקל לטענת העובד. איך אנחנו יודעים ששכר המנכלים לא שוקלל בממוצע והאמיר את הסכום משמעותית?

בעיה דומה בממוצע עולה גם בסטטיסטיקה העירונית. אם הערים היו מתפלגות נורמלית, ניו יורק על 8.5 מיליון תושביה לא היתה יכולה להתקיים כי זו סטיית תקן גדולה מדי להתפלגות ממוצעת.

אי אפשר לדבר על עולם הבעיה הזה מבלי להזכיר את הספר "ברבור שחור" של נסים טאלב. הספר "ברבור שחור", מוקדש בעיקרו לשני נושאים:

הנושא הראשון, והוא ממלא את רוב הספר, הוא גאונותו של נסים טאלב עצמו. הנושא השני הוא ההבדל בין התפלגות נורמלית-גיאוסיינית להתפלגות Power Law ולטעויות הנפוצות בהתייחסות שלנו לממוצע ולסטיית תקן.

הייתי מפנה אתכם לספר אבל נראה לי שתהנו יותר מהפודקאסט בנושא של ניצן דוד פוקס מאתר "המשחק הגדול" פרק 30.

אם נשים את טאלב בצד לרגע, ונתמקד בטיעונים שלו, יש בהם אמת מטרידה בנושאים שמעסיקים את קהילת הדאטא והם: זיהוי חריגות/anomaly detection ופרדיקציות.

מאמרים רבים בנושאים אלו מתבססים בצורה כזו או אחרת על התפלגות נורמלית, ממוצע וסטיית תקן.

אבל מכיוון שהדאטה שלנו (בוודאי בעולם הרשת) הוא Power Law, הרי שהממוצע לא מתאר את רוב התופעות ולכן סטיית התקן תייצר לנו הרבה false alarms. כמו כן, בתהליכי חיזוי, סטיית תקן לא תוכל לחזות אירועים גדולים שכן הם יהיו כה רחוקים מהממוצע, עד שייראו כמעט בלתי אפשריים אך הם הרבה פחות נדירים מכך ולמעשה מהווים תופעה נורמלית לחלוטין בדאטה (שהרי מתפלג Power Law).

ניקח לדוגמא הערכת סיכונים כנגד רעידות אדמה שכפי שכבר ציינו, מתפלגות Power Law, כלומר, יש הרבה רעידות אדמה קטנות ומעט גדולות.

אם ניערך לרעידת האדמה הממוצעת, היא כנראה אף פעם לא תגיע.

אנו צפויים להיתקל בהרבה רעידות אדמה קטנות (מתחת לממוצע), כך שברוב המקרים השקענו משאבים עודפים וזה בזבזני. כשניתקל ברעידה הגדולה, נגלה שהשקענו מעט מדי משאבים וזה הרסני. למרות שרעידת האדמה הגדולה היא נדירה, היא פחות נדירה ממה שסטיית התקן תגיד לנו והיא בוא תבוא שכן ככל שנגדיל את הדגימה, כלומר, נמתין יותר זמן, הנתונים ישקפו את ה-Power Law.

נמשיך בחלק הבא לדון ספציפית ב-Power Law בעולם הרשת אבל רגע, מה לגבי בעיית מונטי הול מתחילת הפרק?

אז כמו בכל ויכוח שהיה לי איתו, החבר שלי צדק. התשובה היא שעדיף לשנות את הבחירה המקורית מוילון מס' 1 לוילון מס' 3 שבו הסיכויים לזכייה בעז הם 2/3. אינטואיטיבי? ממש לא.

אז בואו נדבר על Power Law ברשת.

ה-Power Law לא אינטואיטיבי בכלל, ובמחקר הרשתות בפרט ולכן לא פלא שנעלם מעיני החוקרים תקופה ארוכה.

נזכיר שברוב המאה ה-20 הדאטה היה מוגבל וכמו שכבר למדנו, דגימה קטנה מדי של הרשת תגביר את הסיכוי לקבל התפלגות נורמלית ולעוות את הדאטה. לפיכך לא מפתיע שהדרך לחשוב על רשתות היתה באמצעות המודל של ארדוש ורני, עליו דיברנו בפרק "עולם קטן". המודל מניח שרשתות הן אקראיות ומתפלגות נורמלית: רשתות יוצרות מבנים "מבולגנים" ולכן נשמע הגיוני ש"יד המקרה" בנתה אותם כפי שבנתה. זאת למרות רמזים שהופיעו אפילו בדאטה המוגבל שהיה אז.

הרחבה על רמזים אלו נמצאת בפרקים הקודמים אז רק נזכיר בקצרה שתי דוגמאות: הדוגמא הראשונה היא של ג'ייקוב מורנו, פסיכולוג ומחנך, שבשנות ה-30 שירטט סוציוגרמות של קשרי חברות בכיתה. בגרפים שצייר היו מעט תלמידים שרבים רצו להיות חברים שלהם לעומת הרבה תלמידים ללא חברים או עם חבר אחד. מספר התלמידים הלא מקובלים היה גדול פי כמה וכמה מהמקובלים, כשהלא מקובלים, היוו את הזנב הארוך של ה-Power Law. יש להניח שאם היה מצייר גרף קשרי חברות של בתי ספר שלמים, היה מורנו מקבל זנב ארוך עוד יותר.

הדוגמא השניה היא התופעה הדומה שהופיעה גם בניסוי "העולם הקטן" או ניסוי "6 הצעדים" של סטנלי מילגרם, בשנות ה-60. מילגרם בדק כמה תחנות יצטרך לעבור מכתב שרשרת ממקור רנדומלי ליעד רנדומלי, דרך חברים משותפים. החלק הפחות מפורסם בניסוי היה התגלית שכמעט מחצית מהשרשראות עברו דרך אותם 3 אנשים, שהיוו רק אחוז אחד מהמעורבים בניסוי, כלומר, מעט אנשים ברשת שתפקידם גדול משמעותית משל שאר האנשים, ביחס של Power Law.

פריצת האינטרנט ורשתות הענק (ה- World Wide Web, למשל) הביאו להתפתחות משמעותית במחקר הרשתות ולהבנה כי מבנה הרשת אינו אקראי כפי שהיה נהוג לחשוב .

ב-1999 פורסם מאמר בשם: Emergence of scaling in Random Network

מאחורי הכותרת המלהיבה הזו עמדו 2 חוקרים (אלברט וברבאשי) שהגילויים שלהם שינו את הדרך בה אנו חושבים על רשתות.

אנצל את ההזדמנות ואמליץ על ספרו של ברבאשי "קישורים" שיצא גם בעברית. ספר מרתק וקריא מאד.

אז ברבאשי ואלברט ערכו מחקר על קישורים, או הלינקים, בין דפי האינטרנט. מה שברבאשי גילה הוא שישנם מעט מאד דפים באינטרנט שלהם יש הרבה קישורים לעומת זנב ארוך של דפים שלהם יש רק קישור אחד-שניים.

היום זה כבר ידוע שרוב האינטרנט מורכבת מדפים כאלה ומכאלה שאין להם קישור בכלל כשרובם נמצאים בחלק של האינטרנט הנקרא deep web או הרשת העמוקה, שלפי הערכות מכיל כ90% מהאינטרנט.

המושג deep web אולי כבר מוכר לרבים מהגולשים גם אם לא חשבו עליו כ-Power Law אבל מה לגבי האינטואיציה שלנו על רשת פייסבוק, הרשת החברתית הגדולה ביותר בעולם?

בשנים האחרונות יצא לי לתת מאות הרצאות בנושא ובכל הרצאה ביצעתי ניסוי קטן: ביקשתי מתנדבים בפורום ושאלתי כמה חברים יש להם בפייסבוק. לרוב התשובה היתה אי שם בין 200 ל-2000.

פה ושם היה חוטא שלא היה לו פייסבוק.

האינטואיציה של הקהל היתה שזה הממוצע, כלומר, שלרוב האנשים בפייסבוק יש בין 200 ל2000 חברים, כשיש מן הסתם מעט שיש להם אלפים רבים של חברים ויש מעט שיש להם מעט חברים.

על פניו, התפלגות נורמלית במיטבה.

כשאמרתי שפייסבוק למעשה מתפלגת Power Law, כלומר יש מעט אנשים עם אלפי חברים והרוב כנראה עם חבר אחד-שניים או בלי חבר בכלל, התגובות נעו בין תדהמה לבין סקפטיות בריאה.

לא אשקר, היו גם שניים שלושה שהיו אדישים.

אגב, כשאני אומר מעט אנשים בפייסבוק שיש להם אלפי חברים חשוב לזכור שזו רשת עם 2.5 מיליארד משתמשים פעילים, כן? אז מעט זה לא כ"כ מעט. הכוונה לאחוזים בודדים.

הסיבה שהנתון זה הוא לא אינטואיטיבי היא שאנחנו כמעט לא מכירים אף אחד מה"זנב הארוך" של פייסבוק. נראה שאחת הסיבות לכך היא כי לאותם אנשים יש ברשת רק חבר אחד או שניים או אין להם חבר בכלל.

רגע, רגע, אבל מה לגבי יוזרים פיקטיביים ובוטים? אולי הם אלה שמרכיבים את ה"זנב הארוך" ומייצרים מצג שווא שקרי של Power Law?

אז לאלה שטוענים כך אומר שה-Power Law היא תופעה כל כך רחבה שרואים אותה בכל כך הרבה רשתות, חברתיות ולא חברתיות, ציבוריות, ארגוניות או פרטיות, אנושיות ולא אנושיות כך שגם ברשתות בלי פרופילים פיקטיביים הזנב הארוך חי ונושם.

אבל אפילו עם פרופיליים פיקטיביים, מבחינה מספרית זה משנה?

בואו נבדוק. ניקח כדוגמא את אלן דג'נרס, השחקנית והקומיקאית האמריקאית, עם כ-150 מיליון עוקבים ברשתות החברתיות. מתחקיר שפורסם ב-2019, עלה שחמישים אחוז מהעוקבים שלה הם פיקטיביים.

זה המון. אבל עדיין יש לה עשרות מיליוני עוקבים, שלרובם-המכריע כנראה אין הרבה עוקבים.

ה-Power Law נשמר.

גם אם כל זה עדיין לא משכנע, אז בואו נפייס את האינטואיציה שלנו בנתון שבפייסבוק 1% מייצר תוכן, 9% מגיבים ו-90% לא מפרסמים כלום. נשמע יותר הגיוני? ה-Power Law הזה יותר אינטואיטיבי לנו כי רובנו מן הסתם ב-90%. אבל זו בדיוק אותה לוגיקה. רק שבמקום התפלגות קשרים הצגנו התפלגות של פעילות ברשת.

בשנים שיבואו אחרי מאמרו של ברבאשי, חוקרים רבים יציגו מחקרים אמפיריים של רשתות המחזקים את תיאורית ה-Power Law ולא רק כהתפלגות המייצגת את כמות הקשתות שיש לכל צומת אלא בפרמטרים רבים בהם נבדקת הרשת (התפלגות הפעילות ברשת, מדדי המרכזיות ברשת, עליהם נדבר בפרק הבא ועוד).

כלומר, ה-Power Law בא לידי ביטוי לא רק בכל רזולוציה אלא גם בכל מדד:

בין אם זה כמות הקשרים שיש לכל צומת או כל מדד אחר שנבחר, למשל, רמת הפעילות של כל צומת ברשת, עוצמת הקשרים בין הצמתים ברשת, גודל רכיבי הקשירות (או ה"איים ברשת") ועוד. כל המדדים האלו מתפלגים Power Law.

למשל, בדוגמא שנתנו של פייסבוק, לא רק כמות החברים שיש ליוזר מתפלגים Power Law אלא גם יוצרי התוכן.

אבל ברבאשי גילה דבר מה נוסף. של-Power Law ברשת יש תכונה מרתקת והיא היותו scale-free. כלומר, בכל scale או רזולוציה שנסתכל על הרשת, נקבל Power Law.

למה הכוונה?

נחזור לדוגמא שנתנו ל-Power Law בהקשר של ניתוח דפוסי מיקום ותנועה:

גם כשעלינו ברזולוציה מנתוני תנועה חובקי עולם, עבור דרך נתונים ברמת המדינה ורמת העיר עד לרזולוציה של האדם הבודד, בכל רזולוציה קיבלנו נתונים שמתפלגים Power Law.

לתכונה זו משמעויות נוספות שנרחיב עליהן בפרקים הבאים העוסקים בקהילות וברשתות דינאמיות.

אז כפי שניתן להבין מהדוגמאות עד כה, ההתפלגות אינה מאפיינת רשתות בלבד אך היא תופעה רשתית כה מובהקת עד כדי שנזכה אותה בתואר "חוק הרשת מס' 1".

הבנה של חוק זה היא כלי עוצמתי בידי ה-Data scientist שכן תופעה זו תהיה קיימת בכל רשת.

לא משנה אם נחקור פייסבוק, טוויטר, רשת טלפונים, או קשרים בין אתרים באינטרנט.

לא משנה אם נחקור רשת גדולה או קטנה, רשת של יום או שבוע, רשת במצב שיגרה או חרום, בכל מצב נקבל התפלגות "זנב ארוך".

אז בואו נבחן את עצמנו וננסה ליישם את החוק על אחת מהרשתות הכיפיות ביותר והיא רשת הביטקוין:

ביטקוין, למי שלא היה פה בעשר שנים האחרונות, הוא מטבע דיגיטלי, והסחר בו מייצר לנו רשת (מי סוחר עם מי וכמה).

ה-claim2fame של ביטקוין הוא שמדובר במטבע חברתי. הוא אינו קורבן לגחמות של ממשלות או בנקים מרכזיים ולכן הוא מבוזר או de-centralized מה שנקרא, ומייצג את "רצון העם".

בפועל, רשת היא רשת וביטקוין היא רשת. וכמו בכל רשת – נקבל Power Law. אז איך זה עוזר לנו להבין מה קורה שם?

נתחיל בהבדל בין ביטקוין למטבע "רגיל" (מטבע שמאחוריו עומדת מדינה ומכונה פיאט):

ערך מטבע רגיל מושפע מממשלות ובנקים מרכזים שבתורם מושפעים מממשלות ובנקים מרכזיים אחרים שמושפעים מהשוק וכו וכו'. לטוב ולרע (אבל כנראה לטוב) ,מערכת מורכבת זו מונעת מגורמי ממשל להחליט בקפריזיות על שינויים קיצוניים במטבע.

לעומת זאת, מי מקבל את ההחלטות בביטקוין? לפי הברושור מדובר בציבור הרחב, אבל לפי חוקי הרשת, הסיפור הוא אחר לגמרי. Power Law אמרנו?

גם ברשת ביטקוין יש מעט מאד חשבונות שחולשים על מרבית הטרנזאקציות. נכון ל-2013, מדובר בחשבונות בודדים ממש, דוגמת בורסת ביטקוין, חברות לכריית ביטקוין (מרוסיה וסין) וכמובן, תעשיית הימורים.

לאור ריכוז כה גבוה של שליטה, האם עדיין ניתן להגיד שביטקוין הוא מטבע מבוזר?

ומה לגבי ליברה, המטבע הדיגיטלי החדש של פייסבוק? אני אומר רוצו קנו ברגע שאפשר.

טוב, אז שמנו לב שרשתות אנושיות מתעצבות כ-Power Law אבל גם רשתות נוספות בטבע כמו למשל רשת הנוירונים במוח ורשת כלי הדם ועוד. זה נראה יותר מצירוף מקרים. זה בוודאי לא אקראי. אז מה הסיבה לכך? לפני שננסה לענות על שאלה זו נדגים את ההיגיון האבולוציוני מאחורי ה-Power Law והוא היתרונות שהוא מספק לרשת. יתרונות אלו הם בעיקר יעילות ועמידות.

מבנה בתצורת Power Law הוא חסכני יותר ודוגמא טובה לכך היא מערכת כבישים.

מכיוון שרוב התנועה היא מקומית, מערכת הכבישים בתוך העיר תהיה מסועפת מאד ומורכבת מהרבה כבישים (או רחובות) קטנים.

התנועה בין ערים היא דלילה יותר, ולכן תנוקז למעט כבישים ארוכים ומרכזיים.

קיבלנו Power Law: מעט כבישים ארוכים בינ-עירוניים והרבה כבישים קצרים פנים-עירוניים.

כל התפלגות אחרת תהיה לא חסכונית.

כך, רשת כוכב, רשת שבמרכזה צומת מרכזי ושאר הצמתים מחוברים אליה, היא כנראה הרשת החסכונית ביותר.

אבל מה לגבי עמידות הרשת?

אינטואיטיבית זה נשמע שרשת כוכב מאד פגיעה. נפילה של הצומת המרכזית תפיל את רוב אם לא את כל הרשת.

ובכן מבחינה אבולוציונית, רשת זו דווקא מייצרת עמידות גבוהה יותר כנגד מפגעים אקראיים.

ניקח לדוגמא את רשת הנוירונים (הרשת העצבית) במוח. הנוירונים מחוברים ברשת והתפלגות הקשרים בה היא Power Law. כך גם רשת כלי הדם בגופנו. היעילות ב-Power Law מובנת, אבל איפה העמידות?

רשת רנדומלית או אקראית, כמו שתיארו אותה ארדוש ורני (כלומר, רשת עם התפלגות פעמון) תתפרק במהירות רבה למספר רכיבי קשירות ("איים" ברשת) לאחר מס' לא גבוה של פגיעות רנדומאליות.

דווקא ברשת שמתפלגת Power Law (כמו שמתפלגות רשתות אמיתיות) הסיכוי לנזק משמעותי לרשת מפגיעות אקראיות הוא נמוך יותר שכן צמתים מרכזיות הן נדירות, והסיכוי לפגוע בהן באופן אקראי הוא נמוך.

למשל, אם רשת כלי הדם שלנו לא היתה Power Law, הרי שכל שריטה מקרית היתה מדממת הרבה יותר.

לצד זאת, פגיעה מכוונת בלב היא קטלנית.

המסקנה המתבקשת כמובן היא שפגיעות מושכלות, שאינן אקראיות, יכולות למוטט את הרשת בקלות רבה. ואכן, זה יתרון משמעותי מאד שמחקר הרשתות יכול לספק לצרכי הגנה או תקיפה ברשת.

ניקח לדוגמא את ה-C-elegans. זהו שמה של תולעת באורך של כמילימטר והיא כנראה החיה הקטנה ביותר המוכרת עם רשת עצבית. יתרונה למחקר הוא שכמות הנוירונים בה הוא קטן (כמה מאות) ובמאמץ שנמשך 20 שנה, וזכה בנובל, כל רשת הנוירונים שלה מופתה. אמרנו רשת נוירונים, אמרנו Power LawPower Law.

ואכן, פגיעה בנוירונים בזנב הארוך של ה-C-elegans לא הביאה לשינויים משמעותיים בהתנהגות שלה. לעומת זאת, פגיעה בנוירון מרכזי, שלו הכי הרבה קשרים לנוירונים אחרים, השפיעה מהותית על התולעת, למשל על יכולת התנועה שלה.

בכדי לאתר צמתים אלו, נידרש לשימוש באלגוריתמיקת SNA, המכונה "מדדי מרכזיות" (Centrality Measures).

מדדים אלו מאפשרים לנו למצוא את מרכזי הכובד של הרשתות ודרכם "לשלוט" ברשת, להבין מה קורה בה, לפרק אותה וכו'. ישנם עשרות, אם לא מאות, אלגוריתמים לזיהוי "רכזות" ברשת, אך נעסוק בהם בפרק בנושא מדדי מרכזיות.

אז הבנו את ההיגיון ברשת Power Law, אז עכשיו ננסה להסביר איך הוא נוצר:

הרבה מהדוגמאות שנתנו ל-Power Law הן אנושיות (התנהגות ברשת, פיזור אוכלוסיה בערים, הרגלי תנועה, חלוקת מדפים בבית) אבל הרבה דוגמאות לקוחות מעולם שאינו מותנה בהתנהגות אנושית למשל, רעידות אדמה, זרימת נהרות, גודל בע"ח, כלי הדם, נוירונים במוח, אינטראקציות חלבונים ועוד.

נזכיר את פליקס אורבך, שכפיזיקאי לפני מאה שנה, זיהה שגודל הערים מציית ל-Power Law. למה דווקא פיסיקה? החיבור של עולם הרשת לפיסיקה הוא לא טריויאלי כפי שהעיד פעם פרופסור חוקר רשתות מאוניברסיטת ירושלים, שיישאר עלום שם, שסיפר:

"איך אני יודע שאני פיסיקאי? כשמטיחים בי במסדרון שמה שאני עושה זה לא פיסיקה.

אם הייתי אגרונום לא היו אומרים לי את זה."

אז הדבר מעלה את השאלה: אם ה-Power Law לקוח מעולם הפיסיקה, האם התופעות האנושיות שצויינו עד כה הן תופעות שנובעות מהתנהגות אנושית או שהן פיסיקליות?

אם ה-Power Law נובע מהתנהגות, הרי שהתנהגות לכאורה ניתן לשנות.

חוקים פיסיקליים קצת פחות. אם זה פיסיקלי, אז האם לנו כבני אדם יש בכלל יכולת בחירה?

התחום שחוקר תופעות אלה נקרא Social physics . מהותו היא להיעזר בחוקים המוכרים מתחום הפיסיקה, וה-Power Law בינהם, בכדי לבדוק את יישומם על החברה.

אייזיק אסימוב, אולי סופר המד"ב המפורסם ביותר, הציג בסדרת ספריו "המוסד" ארגון האמון על ביצוע מחקר פסיכו-היסטורי כשפסיכו-היסטוריה היא היכולת לצפות התנהגות עתידית של מיליארדי פרטים באמצעות סטטיסטיקה.

אמנם מד"ב, אבל ה-Power Law, כמו שראינו, מאפשר פרדיקציה לא רעה של התפלגות הנתונים האנושיים. אז יש לנו בחירה או אין בחירה?

אם המשכתם לשמוע זה אומר שאין לכם בחירה ולכן נמשיך.

המסקנה של ברבאשי ממחקרו פורץ הדרך היתה שהסיבה ל-Power Law היא שרשתות נבנות לפי מודל של Preferential Attachment (התחברות מועדפת), כלומר, קשת לא נוצרת בין שני צמתים באופן אקראי אלא שצמתים מעדיפות להתחבר לצמתים היותר מקושרות.

ההסבר האינטואיטיבי לכך הוא האימרה "העשירים מתעשרים" (The rich get richer) שכן קל יותר למי שיש לו הון, כלכלי או חברתי, להשיג הון נוסף ובמקרה של הרשת, יותר קשתות/קשרים.

הסבר פיסיקלי אפשרי ל-Power Law הוא שכמו שזרימה שואפת למינימום חיכוך, כך ניתן להסביר את ה"זנב ארוך" כצמתים שמוציאים מינימום אנרגיה ובדומה ל"הטיית ברירת המחדל", כך גם החיבור לצומת מרכזי מייצג את השאיפה למינימום חיכוך.

ברירת המחדל שלנו היא לרוב לא לעשות כלום. כשאנחנו כן פועלים, הכי קל לחבור למשהו שהרבה עושים (למשל, לחבור לצומת מרכזית) וכך להשקיע מינימום אנרגיה בהכי מעט חיכוך.

לדוגמא: יש הרבה דברים שאני לא יודע אבל ברירת המחדל שלי אומרת לא לחפש הכל באינטרנט. שב תנוח. כשאין לי ברירה ואני כן צריך לברר פרטים על משהו, אז הכי קל לי להיכנס לויקיפדיה מאשר לעשות מחקר עצמאי כי זה מה שכולם עושים. אגב, כמובן שגם תרומת ערכים לויקיפדיה היא Power Law. יהיו מעט שיתרמו להרבה ערכים והרוב יתרמו לערך-שניים בודדים או לא יתרמו בכלל.

גם בדוגמא שנתנו בתחילת הפרק לגבי ההבדל בין דעות פוליטיות להפגנות פוליטיות:

דעות לא עולות אנרגיה ולכן יתפלגו נורמלית. נוכחות בהפגנה דורשת מאמץ ואנרגיה ולכן ייתפלגו Power Law. ברירת המחדל היא לא להשתתף.

כך גם ניתן להסביר את אי ההצלחה בניסויים דוגמת ניסויי מילגרם, עליהם דיברנו בפרק בנושא "העולם הקטן". הניסוי של מילגרם, ושיחזורים רבים נוספים, רצו לבדוק את קוטר הרשת ע"י בדיקת האורך של שרשראות מכתבים בין יעדים רנדומליים. מה שעלה בכל הניסויים האלה זה שרובן המכריע של השרשראות נקטע או אפילו לא התחיל. ברירת המחדל היא אי השתתפות. כיוון שמילגרם חשד שזה יהיה המצב, הוא נקט שני אמצעים לעודד השתתפות בניסוי המפורסם שלו: ראשית, הוא פעל לגייס לניסוי אנשים חברותיים במיוחד ע"י מודעות בעיתון שפנו לחתך אוכלוסיה שכזה.

שנית, הוא השקיע רבות בעיצוב המעטפות ששלח לנסיינים כך שייראו מרשימות ויעודדו אותם לקחת חלק בניסוי. כך למשל הוא שם דגש על שימוש בסמל של אוניברסיטת הארוורד על המעטפה וכלל בתוכה מחברות מרשימות למראה כך שלאנשים תהיה תחושה שהם לוקחים חלק במאמץ אקדמאי מכובד.

למרות מאמציו של מילגרם, גם מי שכבר ענה למודעה, השקיע כברירת מחדל מאמץ מינימלי והניסוי הצליח באחוזים בודדים בלבד. אך כנראה שבזכות מאמציו, זה היה כנראה שיעור ההצלחה הגבוה ביותר שנחל כזה ניסוי. שאר הניסויים שתיארנו בקושי חצו את האחוז הבודד אם בכלל.

אז בחזרה לרעיון ה-PA של ברבאשי, יש בו בעיה. הבעיה באמירה "העשירים מתעשרים" היא שאינה מסבירה מדוע ישנם מקרים בהם "The rich get poorer" (העשירים אינם בהכרח עשירים לנצח).

כאן נכנסת לתמונה ד"ר אוסי מוקרין מאוניברסיטת חיפה, שהציעה בשנים האחרונות את תזת

ה-Trending Preferential Attachment (או: TPA), צמתים מעדיפים להתקשר לצמתים "טרנדיים", ולאו דווקא לצמתים מרכזיים (hubs). הכוונה בצמתים "טרנדיים" היא לצומת שצובר יותר קשרים בעת האחרונה, גם אם אינו בהכרח הצומת המקושר ביותר באותה עת.

המחקר האמפירי נעשה על רשתות רבות ומגוונות, תוך שליטה, במובן הסטטיסטי, על המרכזיות ההתחלתית של הצמתים ברשת. למה הכוונה? קצת בפשטות, כל רשת חולקה למספר מקטעי זמן תוך התעלמות ממרכזיות הצמתים שבמקטע הראשון. מתצפית על הנתונים עלה שכל מקטע בו נוספו יותר קשרים לצומת, כך הדבר הגדיל את סיכוייה לקבל יותר קשרים במקטע הבא, ללא קשר למרכזיותה ההתחלתית.

מכאן נלמד שהרשת אינה סטאטית ומי שהיה מרכזי בעבר לא בהכרח יהיה מרכזי בעתיד. טרנד מתחיל, נגמר ויכול גם לחזור (כמו בחיים...).

העוצמה בתזה זו שהיא על פניו חוק רשת חדש ואוניברסלי ולכן ישים על כל רשת. זיהוי הטרנדים נראה ככיוון מבטיח שיאפשר לזהות מגמות מתהוות ברשת, למשל, התהוות של מרכזי כובד או פעילויות ברשת.

יישום אפשרי נוסף הוא זיהוי מקצב (או Tempo) הרשת: המחקר של ד"ר מוקרין גם הראה שיש רשתות בהן הטרנדים מתחלפים כל הזמן ויש כאלה שהתחלופה בהן היא איטית יותר. קצב תחלופת הטרנדים יכול להעיד על מקצב הרשת ועל כך נרחיב בפרק העוסק בניתוח דינאמי של רשתות

מילה אחרונה לפני סיכום: עוצמת התגלית והתכונות הקסומות של ה-Power Law, הפכו מושג זה בעולם הרשתות למילה מעט טעונה.

כ- 20 שנה אחרי תגליתו של ברבאשי, כתב חוקר רשת בשם קלוזט מאמר ובו מחקר אמפירי שמראה כי רשתות רבות מראות רק "סימנים חלשים" של התפלגות Power Law. המאמר הצית דיון סוער בנושא בטוויטר וזיעזע לפחות עשרה אנשים ברחבי העולם (:

לפיכך אני מציע לא להתרגש כי ניתן לסכם את הדיון כך: התפלגות Power Law "טהורה" (שיש בה קשר מתמטי הדוק בין העמודות כמו שראינו אצל אורבך וזיפף) היא אכן אירוע נדיר-יחסית. אבל כלל התופעות שצוינו כאן מופיעות גם בהתפלגויות הקרובות ל-Power Law, למשל שהן Scale-Free, וכמובן, "הזנב הארוך" של ההתפלגות, כלומר, ישנם גורמים מעטים ברשת שהינם מקושרים מאד ורוב הרשת מורכבת מצמתים שלהם יש מעט קשתות. לפיכך יותר מדויק לקרוא להתפלגות זו "זנב ארוך" אבל POWER LAW כבר תפס אז נשתמש בשני המושגים ויסלח לי קלוזט.

אז לסיכום:

התעמקנו ב-Power Law והדגמנו אותו על דאטא-סטים רבים. ראינו שהוא תופעה רשתית מובהקת בכל רשת, בכל מדד ובכל מימד ושהוא מייצר לנו מרכזי כובד ברשת. ניתחנו את ההיגיון מאחוריו והסיבות האפשריות להיווצרו.

ראינו שה-Power Law וחוקי הרשת מאפשרים לחוקר לנקוט בגישה מונעת-נתונים או Data-Drivenשיתרונה בכך שאינה תלויה באינטואיציות או ניסיון קודם ומשוחררת מדעות קדומות.

עכשיו שאנחנו מבינים שבכל רשת ישנם מרכזי כובד, בזכות ה-Power Law, נלמד בפרק הבא כיצד לאתר אותם באמצעות מדדי מרכזיות.

רוצים.ות להרחיב את קהילת מדע הרשתות בישראל? ככל שתדרגו יותר, כך הפודקאסט יהיה חשוף לאנשים רבים יותר.

דרגו את הפודקאסט בספוטיפיי או באפל-פודקאסטס ו/או כיתבו ביקורת. ניתן לדרג גם בפודקאסט-אדיקט (בטאב של ה-reviews). מותר ומומלץ להעלות פוסט ולתייג את נטפריקס בפייסבוק/טוויטר/אינסטגרם או לינקדאין ושוב, פוסטים יצירתיים במיוחד יושמעו בפרקים הבאים.

ואם עוד לא עשיתם.ן לייק בדף של נטפריקס בפייסבוק, זה הזמן. אתרים עם יותר לייקים, מקבלים יותר חשיפה.

לפניות/הערות/הארות/הצעות ועוד: שלחו מייל!

ולא לשכוח לעשות Subscribe לפודקאסט באפליקציה החביבה עליכם.ן.

נתראה בפרק הבא של נטפריקס (:

#NetworkScience #SNA #SocialNetworkAnalysis #GraphTheory #DataScience #SocialPhysics #תורת_הגרפים #Facebook

3件のコメント

אסף שפירא

2021年7月03日

למאמר מפורט על חילוקי הדעות המהותיים בין החוקרים בנושא ה-Power Law: https://journals.sagepub.com/doi/10.1177/2053951720949577

יש לציין שחוץ מלכתוב את המאמר, הכותב גם כתב את Gephi, אחת מהתוכנות הפופולריות לניתוח רשתות (:

2020年4月28日

שאלה מצויינת והאשמה בי –

ניסיתי לפשט את הנושא כי רציתי להתמקד ברשתות power law.

אז הסבר קצר על הרנדומיות של רשתות ER:

המודל קובע בהגרלה ש: צומת מקבל קשר או לא מקבל קשר (לא נקבע מראש כמה קשתות יהיו לכל צומת). כלומר, יכול להיות שצומת מסויימת תחבור לצומת שאין לה קשר או שיש לה כבר קשרים מהגרלות קודמות. כך, בתהליך רנדומי, מתקבלת ההתפלגות (הבינומית, לא רציתי לסבך).

david87

לא הבנתי למה לפי ארדוש ורני רשת רנדומלית צריכה לקבל התפלגות פעמון. אם הרשת היא באמת רנדומלית - היינו מצפים לקבל התפלגות שטוחה לחלוטין, שבה השכיחות של כל ערך זהה לחלוטין לשכיחות של כל הערכים האחרים בהתפלגות. התפלגות פעמון היא לא באמת התפלגות רנדומלית - היא התפלגות שבה יש סיכוי גבוה מאוד לקבל את הערך הממוצע של ההתפלגות (או ערך שקרוב אליו) וסיכוי נמוך לקבל ערך שרחוק ממנו. אז למה ארדוש ורני מצפים לקבל התפלגות נורמלית ולא התפלגות שטוחה?