• אסף שפירא

הרחבות לפרק 10: "והכדור ברשת!": ניתוח נתונים ורשתות בכדורגל

עודכן ב: לפני 15 שעות

(ר' קישורים בטקסט)

מה מתרחש, אני אסף שפירא וזה נטפריקס


אולי זה קצת מוזר להתחיל עם זה, אבל אני חייב גילוי נאות: אני כבר לא אוהד כדורגל.

גילי לנדאו מהפועל ת"א גמז את הקריירה שלי כאוהד כשלקח את האליפות ממכבי חיפה ב-1986 בגול שייזכר לדראון עולם. שברון הלב הרחיק אותי מעולם הכדורגל ומעולם הספורט בכלל עד ששנים אחר כך, גיליתי את העולם המופלא של הפוטבול האמריקאי ואת קבוצת הגרין ביי פאקרס שמצליחה לרגש ולעצבן כל פעם מחדש. כנראה שיש לי משיכה לחולצות ירוקות וזו אולי הסיבה שגם למדתי אסלאם. אבל אני לא לבד.

בפודקאסט "עושים ספורט-קאסט", עלתה השאלה, מדוע כדורגל הוא האחרון לאמץ שינויים טכנולוגיים, למשל טכנולוגיית ה-VAR. VAR או Video Assistant Referee היא טכנולוגיה שמאפשרת לבצע בקרה על החלטת השופט ע"י שיחזור וידאו של האירוע. משהו שקיים שנים רבות בטניס ובפוטבול למשל ואילו בכדורגל, רק ב-2018 צורפו שופטי VAR רשמית ע"י התאחדות הכדורגל הבינלאומית.

המסקנה הלא טריוויאלית של המנחים הייתה שהסיבה שעומדת מאחורי הפיגור הטכנולוגי היא ש... כדורגל זה דבר משעמם. זה 90 דקות שלא קורה בהן הרבה. אם ניקח למשל משחק פוטבול אמריקאי שנמשך ברוטו 3 שעות ונעשה לו תקציר משחק, התקציר ייקח כ-40 דקות. אם נעשה תקציר דומה למשחק כדורגל, נקבל משהו כמו 2 דקות למשחק רגיל, או 5 דקות למשחק שתספרו עליו לנכדים. זה אומר שיש לנו כ-90 דקות שצריך למלא במשהו, והמשהו הזה, הוא טעויות שיפוט. טעויות שיפוט מאפשרות ריגוש ומגדילות את המעורבות של הקהל בד בבד עם הגדלת המעורבות של משפחתו של השופט.

אבל מה לגבי אימוץ של מחקר הדאטה בכדורגל?


צ'ארלס ריפ מאנגליה היה כנראה בין הראשונים שעשה ניתוח דאטה למשחק כדורגל, עוד משנות החמישים. עם עיפרון ומחברת, ובלי תואר אקדמאי, הוא אסף בעצמו את הנתונים והגיע למסקנות שפורסמו ב-1968 והן:

  • בממוצע, נדרשות כעשר בעיטות לשער כדי לייצר גול

  • השתלטות על כדור במחצית המגרש של היריב משפיע מאד על סיכוי ההבקעה

  • והכי חשוב: 80% מהשערים הם תוצאה של 3 מסירות ומטה

לפיכך, הטיף ריפ לכדורגל מאד התקפי שדוגל במסירות ארוכות. למה ארוכות? כדי להקטין את כמות המסירות במהלכי הקבוצה כך שסיכויי ההבקעה יעלו.

עד כאן לכאורה, מאניבול במיטבו. גילוי תופעה בדאטה ויישום שלה במציאות לשיפור ביצועים.


רגע - זו ההזדמנות לנפות ברגע זה את מי שלא ראה את הסרט מאניבול.


מי שלא ראה, שייקח צעד אחד אחורה וירוץ לעשות השלמות. סרט מעולה בכל קנה מידה, שמהווה השראה לכל מי שעסק ועוסק בנתונים (ומבוסס על ספרו המפורסם של מייקל לואיס).

תקציר הסרט, לשני אלה שמעדיפים פודקאסט על סרט עם בראד פיט, הוא הניסיון האמיתי של קבוצת הבייסבול של אוקלנד ("אתלטיקס") לעשות יותר עם פחות. הקבוצה מצטיירת כקבוצה עניה, אנדרדוג לכל הדעות והמנכ"ל שלה, בראד פיט בתפקד בילי בין, מקבל החלטה דרמטית: להשתמש בנתונים כבסיס לקבלת החלטות במקום להסתמך על הערכות איכותניות של מומחים, במטרה להביא יותר ניצחונות עם תקציב מוגבל. מכיוון שהדמות הראשית היא בראד פיט, אז אתם כבר יכולים לנחש שהסינדרלה של הבייסבול האמריקאי הצליחה כנגד כל הסיכויים להגיע למקום מכובד בליגה, לעומת קבוצות שהשקיעו הרבה יותר.

עד כאן – סיפור הצלחה מסחרר. רק בעיה אחת: לא כל כך מדוייק.


טיפה'לה היסטוריה: בין השנים 1988-1990, לפני הגעתו של המנכ"ל האגדי, האתלטיקס הופיעו 3 פעמים בגמר (ולקחו פעמיים). וכדי להבין מה זה להגיע לגמר בעונה של בייסבול, זה אומר שהקבוצה שיחקה יותר מ-170 משחקים. לא מעט. וכדי להמחיש כמה זה לא היה סתם מזל, אז גם בערך בתקופה הזו, המשכורות של האתלטיקס הגיעו לשיא בליגה. אבל כשהתקציב נחתך, גם הביצועים החלו לרדת. מאז ועד היום, האתלטיקס הם באופן כמעט קבוע, בשני העשירונים התחתונים של תקציב, ביחס לקבוצות אחרות. ב-6 השנים שחלפו מעידן הזהב של הקבוצה, לקבוצה היה מאזן נמוך כשרק בשליש מהעונות הם סיימו עם יותר נצחונות מהפסדים. ואז נכנס לתמונה ה-GM החדש בשם בראד פיט, או בילי בין, גיבור הסרט מאניבול ו... בשורה התחתונה, לא הרבה השתנה.

אמנם מאזן ההפסדים-נצחונות בעונה של הקבוצה השתפר מאז ועד היום ועומד על כ-50%, אבל בכל השנים האלה, ומדובר בכיותר מעשרים שנה, האתלטיקס לא הצליחו כמעט לעבור את הסיבוב הראשון של הפלייאופ.. למעשה, הם הפסידו לקבוצה עם תקציב זהה לשלהם.

מה שנכון הוא שבעקבות האתלטיקס, קבוצות בבייסבול עושות שימוש עצום בדאטה. אז למה מהפכת הנתונים שטפה את עולם הבייסבול, אם השיפור הוא לא כזה דרמטי? כי בכל זאת, נראה שיפור.


בבייסבול גם מאד קל לאסוף נתונים ויותר חשוב, לעשות בהם שימוש.

מכיוון שכל קבוצה משחקת לפחות 162 משחקים בעונה, מצטברים הרבה מאד נתונים. טיבו הסטאטי יחסית של המשחק והעובדה שהעימות בין הקבוצות מתרחש בעיקר בין שני שחקנים, המגיש והחובט, מקל על ניתוח הנתונים והוצאת המסקנות.


גם בכדורסל היה וייב גדול של מהפיכת דאטה, אבל לפני שניכנס אליו, חייבים לדבר על הפיל בחדר:

זריקות סבתא.


זריקות סבתא הוכחו פעם אחרי פעם כבר לפני עשרות שנים כדרך הטובה ביותר להגדיל משמעותית את אחוז הקליעה מעונשין בכדורסל. ולא סתם.

בזריקה רגילה, תנועת הזריקה מתחילה עם הרגליים, הגוף, הזרועות והידיים, ברצף מסובך של תנועות.

זריקת סבתא, לעומת זאת, עושה שימוש בתנועה חלקה אחת. תנועה אחת הרבה יותר קלה מארבע.

בנוסף, בזריקת סבתא בדרך כלל הקשת גבוהה יותר מה שאומר שהכדור מגיע מזווית תלולה יותר, כלומר, החלון שבו יכול להיכנס הכדור גדול יותר.

ודבר אחרון, זריקות סבתא מעניקות לכדור סיבוב אחורי כך שגם אם הוא פוגע בטבעת, יש לו יותר סיכוי לקפוץ פנימה מאשר החוצה.

אז למה אנחנו לא זורקים זריקות סבתא מהעונשין? מאותה סיבה שאנחנו לא הולכים עם סבתא לשחק כדורסל. זה לא נראה טוב ואנחנו מתביישים.

אז חוץ מכשלון ההטמעה של מחקר הנתונים הנ"ל, מהפיכת הדאטה בכדורסל הביאה תובנות שהיום כבר כל ילד מכיר, כמו למשל שהקליעות המשתלמות ביותר בכדורסל הן מתחת לסל ומקו ה-3, ואכן, הייתה עלייה גדולה בזריקות ל-3 בשנים האחרונות.

אז מה הבעיה? שכל ילד מכיר את זה. זו הסיבה שהקבוצה השנייה תנסה למנוע בדיוק את הזריקות האלה.

כלומר, יש לנו כאן בעיה מסדר גודל שני. הניתוח שלנו משפיע על הפעולות במשחק, אבל הפעולות שלנו משפיעות על הפעולות של הצד השני, ולכן חוזרות להשפיע על הפעולות שלנו וכן הלאה, מה שיכול לפגוע בניתוח הראשוני.


וזה מביא אותנו לכדורגל. בכדורגל של ליגת העל, כל קבוצה משחקת רק 26 משחקים לעומת ה-160 בבייסבול או לפחות 82 ב-NBA. בנוסף, בניגוד לבייסבול או כדורסל שבהם יש שלב שבו אותן קבוצות משחקות זו נגד זו שוב ושוב, בכדורגל זה קורה לעיתים הרבה יותר נדירות.

אם זה לא מספיק, אז בכדורגל יש גם הרבה פחות מהלכים מוצלחים. בכדורסל, למשל, לא כזה נדיר לראות תוצאה שכללה 100 סלים במשחק.

בכדורגל, משחק עם 10 גולים זה נושא שיחה לשנה שלמה. למעשה, כ-80% מהמהלכים ההתקפיים לא מגיעים בכלל לאזור השער והסיכוי להבקיע גול עומד על כאחוז בודד.


כל העובדות האלה מצביעות על תסכול כפול: קודם כל, קשה יותר להוציא מסקנות ממשחק כדורגל ושנית, שלהיות אוהד כדורגל זו חוויה מתסכלת.

נוסיף לזה שגם כמות האינטראקציות והכאוס במשחק גדולים יותר כי המגרש יותר גדול ויש עליו יותר מפי 2 שחקנים.

לכן לא פלא שבייסבול מוביל את עולם הדאטה, אחריו הכדורסל, וכדורגל נגרר מאחור.


אבל אם כבר מדברים על ענפי ספורט ודאטה, אז הענף עם הדיסוננס הכי גדול בנושא הוא פוטבול אמריקאי. בפוטבול, כמות הנתונים שנאספת ומוצגת גם לצופים בבית היא אדירה. לא פעם אפשר לראות סטטיסטיקות רצות על המסך בסגנון: "זו כמות המסירות הגדולה ביותר שעשתה הקבוצה במשחק נגד שיקגו, במחצית הראשונה, מאז 2005." יופי של אבחנה. מה עושים איתה? מאד קשה להוציא ממנה מסקנות רלוונטיות בגלל שכל קבוצה משחקת רק כ-16 משחקים בעונה, וההרכבים בה משתנים ממהלך למהלך ובוודאי מעונה לעונה. יש כל כך הרבה תנודה של שחקנים בין הקבוצות שזה כמו שסיינפלד אמר, אנחנו כבר לא אוהדים קבוצות, אנחנו אוהדים חולצות. אז למה כל העיסוק שם בדאטה? זה לא סוד, ואפילו באופן מודע, חלק מהמידע שמוצג לקהל בבית הוא לשם שעשוע ויצירת מעורבות. לכן פוטבול הוא ענף שכולו בוננזה לאנליסטים - כמו אנטרקטיקה. אתה יכול להגיע לשם אבל לא בטוח שתרצה להישאר.

אז הפתרון בהרבה מקרים כמו אלה הן סטטיסטיקות שניתן לבצע ברמת הפרט לשיפור ביצועי הפרט אבל פעם ב.. ניתן למצוא איזשהו נתון שמשנה את המשחק, כמו למשל החזרת כדור בפוטבול.

מהלך החזרת כדור בפוטבול קורה כשקבוצה א' מבצעת בעיטת פתיחה. לקבוצה ב' יש החלטה שהיא צריכה לקבל: האם לנסות לתפוס את הכדור ולרוץ לצד השני כדי לנסות להשיג כמה שיותר יארדים או במידה ואפשר, לתת לכדור הנבעט לעבור אותה ולהגיע ל-endzone שלה ולקבל את הכדור בחזרה בקו ה25 יארד, כלומר, לקבל 25 יארד מתנה.

בעבר, חוקי הליגה איפשרו לקבל את הכדור ב-20 יארד, והדבר עודד קבוצות לנסות את מזלן.

הצרה היא, שכשתי הקבוצות שועטות זו לעבר זו משני קצווי המגרש, התוצאה דומה לזו של שני פטישים שמכים אותו מסמר. כדי להימנע מפציעות הראש המתבקשות מהאירוע, הליגה שינתה את החוקים והעניקה לקבוצה שמוותרת על החזרת הכדור עוד 5 יארד נוספים, כלומר, להתחיל מקו ה-25 יארד.

לקח לקבוצות קצת זמן להתרגל לשינוי, אבל כיום, רוב הקבוצות לא ינסו להחזיר את הכדור, כי הסטטיסטיקה מראה שהסיכוי של התופס להריץ את הכדור מעבר לקו 25 היארד במהלך שכזה הוא נמוך מאד, לעומת 25 יארד מובטחים, ללא מאמץ.


אז גם בכדורגל חוקרים רבים ניסו את מזלם בעקבותיו של צ'ארלס ריפ האנגלי בכדי למצוא תובנות שימושיות ומה שהם גילו זה שכדי לנצח משחק צריך לבעוט הרבה לשער ולדייק ככל הניתן, להחזיק כמה שיותר זמן בכדור, למסור במדוייק ואולי הכי חשוב, לשחק בבית נגד קבוצה רעה יותר... מפתיע? לא כל כך.

אבל כמו שקרה גם בפוטבול, פעם ב... ניתן למצוא סטטיסטיקות מועילות והמקבילה הכי דומה לכך בכדורגל זה ה-setups או המצבים הנייחים: אלו מצבים סטאטיים שנוצרים כתוצאה מחוקי המשחק, כשהכוונה לבעיטות עונשין, קרן או הוצאת חוץ. המצב האידיאלי לתוקף הוא כמובן בעיטת העונשין מ-11מ', שם הסיכוי להבקעה הוא 70%.

לבעיטות עונשין אחרות או קרן הסיכויים עומדים על כ-3%. נשמע מעט, אבל כבר דיברנו על כך שהסיכוי להבקיע במשחק הוא רק אחוז בודד, ולכן, מדובר פה במצב משופר. כיוון שקיימות טענות במחקר שכ-30% מהשערים מובקעים ממצבים אלו, וגם בגלל הפשטות היחסית של המצבים האלה, כלומר, הם מתחילים מנקודה סטאטית ומאפשרים היערכות מוקדמת, הרבה מהמחקר בנושא כדורגל בשנים האחרונות התמקד בכיצד לבצע אופטימיזציה של אותם מהלכים. אז אחרי כל ההקדמה הזו, למה צריך ניתוח רשתי? אפשר בכלל? מה הוא ייתן?

אז למה רשת? קודם כל, כי היא שם. כדורגל הוא משחק רשתי, ואיפה שיש רשת, חוקרים.

מה שנקרא בלשון המוסכים, פותחים – רואים, אם היינו יודעים מראש מה נקבל, לא היה צריך בכלל מחקר. אבל בנימה רצינית יותר, כבר בפרק על המודיעין דיברנו על כך שרשת למערכת היא כמו מפה לשטח, כלומר, רשת היא מייצגת טובה של המערכת. למה? כי קבוצת כדורגל היא לא רק אוסף של שחקנים. השחקנים תלויים זה בזה, ומערכת התלויות האלה באה לידי ביטוי ברשת.

בפרק הקודם דיברנו על רשתות מורכבות, ואולי תופתעו לגלות, אבל משחק כדורגל הוא רשת מורכבת וכשחושבים על זה ככה, פתאום הכל נראה מעניין יותר, ופה שוב אני לא לבד:

מכל סוגי הספורט, ניתוח רשתי כנראה מיושם הכי הרבה על משחקי כדורגל ודרך מחקרים אלו נלמד

גם על מדדי רשת, מדדי מרכזיות ושיטות מחקר חדשות.


והדבר הראשון שנלמד זה איך, בזכות החשיבה הרשתית, נחשוף מדוע מסקנותיו של צ'ארלס ריפ מתחילת הפרק היו שגויות. תזכורת: ריפ היה הראשון לנתח משחקי כדורגל והגיע למסקנה שבגלל שרוב השערים מובקעים במהלכים של 3 מסירות ומטה, בדגש על ומטה, יש לבצע מסירות ארוכות כדי למקסם הזדמנויות הבקעה.

על המסר הזה הוא חזר הרבה בהתייחסויותיו לכדורגל האנגלי, ואני אישית פחות שולט בחומר, אבל קיימות טענות שתורתו השפיעה על שיטת המשחק ואולי, בלי קשר, אבל אנגליה לקחה את הגביע העולמי שנתיים לפני פרסום המאמר של ריפ, ומאז הפרסום, כמעט ולא מצליחה לעבור את הרבע גמר בגביע העולם {ר' הערה 1]. למה?

לא יודע, אבל מה שאני כן יודע זה שיש בעיה בדרך שבה מר ריפ הגיע למסקנות שלו. יכולים לנחש?

באמת צריכים רמז? דינוזאור


נכון, מהלכי המסירות במשחק כדורגל מתפלגים power law או זנב ארוך. כלומר, יהיו מעט מהלכים שיהיו בהם הרבה מסירות, והרבה מהלכים של 3 מסירות ומטה. למעשה, רוב המסירות בכדורגל הן של 3 מסירות ומטה. ככה זה כדורגל, משחק הפכפך. אם כך, רק הגיוני שרוב השערים יהיו תוצאה של מיעוט מסירות, וזה עוד מבלי להתייחס לבעיטות מהקרן, פנדלים וכד'.

רק כ-20% מהמהלכים יהיו של 4 מסירות ומעלה.

כלומר, זה נכון שמבחינה כמותית, יותר שערים הובקעו ממהלכים שכללו מעט מסירות, אבל זה לא אומר שבהכרח הם היו יותר אפקטיביים, אם נתייחס לחלקם היחסי של ההבקעות ממהלכים עם יותר מסירות. יתרון נוסף של מבט רשתי הוא שהוא מאפשר להבין איך למקסם את יכולות הפרט בהקשר של הקבוצה וגם איך הקבוצה כמכלול יכולה להשתפר. וכמובן, גם ההופכי, איך להתמודד מול הקבוצה היריבה ולמצוא את נקודות התורפה שלה.

לכל מי שרואה כדורגל יש אינטואיציה כזו או אחרת לגבי המשחק, למשל, לא נדיר לשמוע משפטים כמו: "זו קבוצה שהמשחק הגנה שלה חלש" או "איזה יופי של מערך התקפי", אבל תחושות אלו ניתן לתרגם לנתונים באמצעות הרשת, וקרקע של נתונים היא יציבה יותר מאינטואיציות ותחושות.

כנראה שהניסיון הראשון לנתח רשתית משחק כדורגל היה של Gould & Gatrell שבמחקר ב- 1979 ניתחו את משחק האליפות באנגליה של מנצסטר יונייטד-ליברפול. המאמר לא קיבל את הכבוד שמגיע לו אלא רק 30 שנה אחר כך. מאז 2010, ובעיקר בזכות הטכנולוגיות שקשורות בתיעוד המשחק, הייתה קפיצה משמעותית בכמות המאמרים על SNA בכדורגל, וגם קפיצה גדולה בכמות המשחקים המנותחים.

לכן נתרכז במחקרים שבוצעו על סדר גודל משמעותי של משחקים, למשל, מחקרים שבדקו אלפי משחקים או משחקים בליגות שלמות. אבל כמו בכל טיפול בנושא שהוא חדשני, ניתן במה גם למאמרים חדשניים שלא נבדקו על ביגדאטה, כמובן כל עוד הם תומכים בתזה שלנו.

אז איך מנתחים רשתית משחק כדורגל? ההבנייה של המשחק כרשת היא די אינטואיטיבית: השחקנים הם הצמתים והמסירות ביניהם הן הקשתות או הקשרים. לפעמים, מסירות הן לא רק מסירות. מסירות הן קשר. וקשרים יכולים ללמד אותנו דברים על שיתוף פעולה, חלוקת הנטל, תרומה למאמץ, יעילות, מועילות וסינרגיה.


המרכיב הבסיסי של ניתוח הרשת שנקבל יהיה למצוא את מרכזי הכובד ברשת. מי הם אותם שחקנים מרכזיים ולמה. אז נחזור שניה על שלושת מדדי המרכזיות העיקריים, עליהם דיברנו בפרק 4:


המדד הראשון, דרגה או Degree, הוא המדד הבסיסי ביותר למרכזיות ברשת ומשמעותו כמות הקשרים שיש לשחקן.

ברשת מכוונת, או directed, כשלכיוון הקשרים יש משמעות, אפשר לחשב גם in-degree או out-degree, כלומר, כמה מסירות הוא קיבל (דרגה נכנסת) וכמה מסר (דרגה יוצאת).


המדד השני, Closenness הוא מדד של קירבה ברשת, כלומר, כמה הצומת היא ב"לב" הרשת, מה שהופך אותה למרכזית, תרתי משמע. המשמעות של מדד זה במשחק היא כמה קל להגיע או למסור כדור לשחקן.


והמדד השלישי הוא Betweenness והוא מדד של קישוריות או יותר נכון גישוריות ברשת, כלומר, כמה צומת מגשר בין חלקי הרשת ומהווה צוואר בקבוק בין חלקים במגרש.


אז בואו נתרגם את המדדים לכדורגל:

השחקן עם הדרגה הגבוהה יהיה השחקן שמקבל/מוסר הכי הרבה פעמים את כדור. הבעיה עם מדד זה הוא שהרשת נהיית כל כך צפופה בכדורגל שהמדד מאבד קצת ממשמעותו ולכן עדיף להסתכל על כיווניות הקשר: כמה השחקן מסר וכמה קיבל מסירות. אם מסר הרבה, זה שחקן קבוצתי טוב ואם קיבל הרבה סימן שסומכים עליו או שהוא מצליח להנגיש את עצמו לכדור.

השחקן עם ה-closenness הגבוה הוא שחקן שמצליח למקם את עצמו במקום הנכון במגרש ולהוביל את הכדור למי שצריך אותו.

השחקן עם ה-betweenness הגבוה הוא השחקן שדרכו עוברים רוב הכדורים, בסבירות גבוהה, בין ההגנה להתקפה, ולכן הוא פיבוט משמעותי בקבוצה.

אבל יש לנו בעיה עם מדדי ה-betweenness וה-closenness שלנו.

מדדי רשת אלו יוצאים מתוך ההנחה שהכדור יעבור לפי המסלול הקצר ביותר, אבל זה לא בהכרח כך בכדורגל. יכול להיות שבשביל לעקוף או להטעות את ההגנה, נעשה שימוש בכמה שחקנים או צמתים ברשת שהם אולי לא הכי יעילים במובן המתמטי אבל משרתים היטב את מטרת העברת הכדור. יותר מזה, יכול להיות שהמסלול יחזור על עצמו מספר פעמים, כמו למשל במקרה של דאבל פס, דבר שבוודאי אינו עונה להגדרה של "המסלול-הקצר-ביותר".

ולכן כנראה מומלץ לעשות שימוש ב-random walks, או שיטוט רנדומי.

משפחת אלגוריתמים זו מבוססת על הרעיון של random walk, כלומר, שוטטות ברשת, לאורך הקשתות שלה, כדי לאפיין את הזרימה של הרשת. אפשר להשתמש בה כדי למצוא מרכזי כובד, קהילות ועוד ויתרונה שהיא יכולה לעשות שימוש גם בכיווניות הקשר, כלומר, האלגוריתם המשוטט שלנו יכול לנוע לפי כיוון הקשרים.

אז איך זה עובד?

האלגוריתם מתחיל בצומת רנדומלי ובוחר בהתפלגות אחידה לאיזה צומת שכן להמשיך. התפלגות אחידה זהה להטלת קוביה. הסיכוי להמשיך לכל צומת שכן הוא שווה.

במקרה של רשת מכוונת, האלגוריתם יתקדם לפי כיוון הקשר. במקרה של רשת לא מכוונת, כל צומת שכן הוא לגיטימי לשיטוט. ב-15% מהפעמים, האלגוריתם יעשה טלפורטיזציה לצומת רנדומי אחר וימשיך את מסעו משם. הסיבה לטלפורטיזציה היא כדי לוודא שהשיטוט לא ייתקע כשיגיע למבוי סתום ברשת.

ברשת ממושקלת, כלומר, ברשת שבה הקשתות או הקשרים אינם בהכרח שווים ויש קשרים חזקים יותר מאחרים, ניתן להתחשב גם בנתון זה כדי לתעדף שוטטות לאורך צירים ראשיים או קשרים חזקים, כדי לקבל תמונה טובה יותר של הזרימה.

בהקשר של מדדי מרכזיות למשל, אם נשוטט באופן רנדומלי ברשת לאורך הקשתות שלה, נבדוק מה הסיכוי שנגיע לצומת שלנו? אם הסיכוי גבוה, סימן שהצומת הוא מרכזי שכן הרבה מהדרכים מגיעות אליו.

כך בעצם אנחנו עוקפים את בעיית המסלולים הקצרים ביותר, ונותנים משקל גם לזרמים חילופיים ברשת.

אז בואו נעשה סיכום קצר:

אמרנו שמדדי המרכזיות שלנו יכולים למצוא לנו את השחקנים החשובים בקבוצה שלנו ובקבוצה היריבה וכך להצביע על חוזקות ותורפות. ראינו שהמדדים הקלאסיים עליהם דיברנו בפרק 4 לא תמיד נותנים לנו את מה שאנחנו מחפשים ולכן כדאי לעשות שימוש ב-random walk או שיטוט ברשת, שלא מניח שהכדור חייב לעבור בצורה הכי יעילה תיאורטית.

אז מי הכי מרכזי? מי מרכז הכובד שלנו בקבוצה?

כבר למדנו בפרק 4 שיש קורולציה גבוהה בין המדדים ולכן לא נופתע לגלות שהם לרוב יתגלמו בשחקן בודד:

רוצים לנחש מי?

עז עם פעמון יוגרל בין הפותרים נכונה.


קשר מרכזי מוביל כמעט בכל המדדים. בממוצע.

זה לא אמור להפתיע אותנו כי הקשר המרכזי, כשמו כן הוא, מרכזי. המדדים שלנו יראו שהוא לא רק במרכז הפיזי של המגרש אלא גם בלב הרשת הלוגית של המסירות.

אבל המדדים, כמו המשחק עצמו, אינם בהכרח קבועים:


ממחקר של שחקני הצמרת בקבוצת אתלטיקו מדריד, ניתן לראות שמדדי המרכזיות של שחקנים יכולים להשתנות בין משחק למשחק בהתאם, למשל, לרמת הקבוצה נגדה הם משחקים.

יש שחקנים שמדדי המרכזיות שלהם עולים כשהם משחקים מול קבוצה טובה ויורדים מול קבוצה פחות טובה וההפך. כלומר, יש שחקנים שכנראה משתעממים מול קבוצה חלשה ומחפשים את מה שהלוחם הספרטני בסרט "300" ביקש: יריב שייתן להם מוות מפואר.

דרך נוספת להסתכל על מדדי המרכזיות היא לא דרך העיניים של השחקנים או הצמתים, אלא דרך המסירות או הקשרים. כלומר, לא לחפש מיהו השחקן המרכזי אלא מהו הקשר המרכזי. למשל, ניתן לעשות שימוש במדד edge connectivity או קישוריות הקשתות, בכדי לראות מה מינימום הקשתות שאם נסיר אותן, הרשת תתפרק. במילים אחרות, אלו מינימום מסירות נצטרך ליירט כדי לפגוע בזרימת המשחק של היריב.

כך נוכל לאתר את הקשר שמהווה את צוואר הבקבוק המשמעותי ביותר ברשת היריבה ולנסות לנטרל אותו, כלומר, זו דרך למקד את המאמצים לפגוע ברשת היריבה לא דרך שחקן בודד אלא דרך דפוס מסירה של אותו שחקן.

עד כה, דיברנו על רשת שבנויה ממסירות בלבד. מה שזה אומר זה שהקבוצה שחקרנו הייתה חייבת להיות עם הכדור כדי לנתח אותה. ומה אם נהפוך את נקודת המבט? מאמר מ2019 עם כותרת מעליבה בשם "החולייה החלשה" או the weakest link" בדק בדיוק את זה: הרשת שנוצרת ממסירות כושלות. מסירה כושלת היא מסירה שלא הגיעה ליעדה, אבל ידוע מי היה היעד, כלומר, ניתן לייצר קשר.

כל המדדים שהכרנו יושמו על הרשת, אבל המשמעות שלהם התהפכה: ככל שהקשר חזק יותר, משמעו שחוסר ההצלחה להעביר את הכדור גדולה יותר. כך מרכזי הכובד באותה רשת מצביעים על נקודות התורפה של הקבוצה, ואיפה היא צריכה להשתפר ומהווה משלימה לתמונה של רשת המסירות המוצלחות.


אז אמרנו שקשרים יקבלו ציון מרכזיות גבוה. מה שמעניין הוא שהחלוצים לרוב יהיו אלה שיקבלו מדדי מרכזיות יחסית נמוכים. למה? כי עד כאן, כל ההתייחסויות לקבוצת הכדורגל היו לרשת הלוגית, כלומר, רשת שמנותקת מהפריסה בשטח וממטרת המשחק, שהיא, בואו לא נשכח, להבקיע גול.

המטרה של כדורגל היא לא מסירות. אנחנו בונים על החלוצים שיכריעו את המשחק בבעיטות לשער, כלומר, שיעשו שימוש בכל המסירות האלה. ולכן, ישנם מחקרים שהוסיפו לרשת השחקנים עוד צומת. את שער היריב (ור' תמונה בהמשך הפרק).


במחקר מעניין בנושא, אחד מהמדדים שהוצעו למדידת שחקן היא flow centrality או מרכזיות זרימה. בהינתן שהיעד הוא השער, והשער הוא צומת ברשת, אז ה-betweenness של כל שחקן, ביחס לשער של היריב, הוא מדד המרכזיות זרימה שלו. במילים אחרות, כמה המהלך היה תלוי ביכולתו של השחקן להעביר את הכדור לכיוון השער.

הבעיה עם בעיטות לשער ובוודאי שערים, זה שהם לא קורים הרבה. אז כדי להרחיב את הדגימה, אנחנו יכולים לבדוק את המרכזיות של שחקנים במהלכים מוצלחים, ולא רק במהלכים של בעיטות או הבקעות.

איך נגדיר מהלך מוצלח? מהלך שהגיע לרחבת היריב. משם, האם הכדור נכנס או לא תלוי בגורמים שכבר פחות בשליטתנו. אז כמה מהמהלכים יהיו מוצלחים? ניחשתם נכון. 20% מהמהלכים יצליחו ו-80% לא.

ועדיין, הצלחנו להפוך את ה-power law של הבקעת שער (סיכוי של אחוז בודד) לחוק 80/20 (סיכוי של 20 אחוז). אז מה מביא את אותם מהלכים מוצלחים?

המחקר מראה שכנראה המהלך המוצלח ביותר יתחיל במתקפת נגד, כלומר חטיפת כדור ועלייה להתקפה. היתרון של מהלך כזה הוא שהוא מוציא מאיזון את הקבוצה היריבה.

המשמעות היא שסימון נקודות התורפה של היריב עליהם דיברנו קודם, יכולות לא רק לשבור התקפה אלא סטטיסטית לסייע לנו לפתח התקפת-נגד מוצלחת מהצד שלנו.

המהלך המוצלח השני הוא כנראה זה שיכלול חמש מסירות ויותר, כלומר, מהלכים רשתיים, שזה להזכיר לכם, בדיוק ההפך ממה שהטיף לו בזמנו צ'ארלס ריפ, חלוץ האנליטיקה של הכדורגל.

ואיפה התפקידנים שלנו באותם מהלכים מוצלחים? אז כשמסתכלים על מהלכים, ולא על בעיטות לשער,

מחקר על הליגה הגרמנית מצא שהחלוצים מעורבים במהלכים המוצלחים אבל לא מייצרים אותם. הקשרים ההתקפיים היו מעורבים במחצית מהמהלכים המוצלחים. שחקני הגנה, לא פלא כנראה, היו הכי מעורבים במהלכים הפחות מוצלחים.

קשרים חיצוניים בלטו דווקא כשהכדור היה במחצית המגרש שלהם, כלומר, היו גורמים מרכזיים במהלכים מוצלחים שהחלו מרחוק.

תשומת לב שכשבדקנו מהלכים התקפיים הדבר הצריך ניתוח נפרד של כל מהלך וכאן נכנסנו לתחום היותר דינאמי של הרשת. עד כה, הסתכלנו על כלל המשחק כדי להוציא תובנות. אבל האגרגציה הזו של הנתונים גרמה לנו לאבד את ההקשר של המהלכים. יכול להיות שהרשת שיצרנו לא מתארת נכון את מהלכי המשחק. זה ש-א' התמסר עם ב' בחצי הראשון של המשחק, לא אומר, וש-ב' התמסר עם ג' בחצי השני של המשחק, לא אומר שא' מסר לב' שמסר לג'.

ולכן היתרון של ניתוח מהלכים התקפים הוא במתן הקשר.


אז לסיכום חלק זה, אנחנו מבינים שמסירות הן כלי משמעותי בסיכויי ההצלחה.

ככל ששחקנים מעורבים בהם יותר, הם משמעותיים יותר להצלחה של הקבוצה, ומדד של

ה-randomwalk betweenness שדיברנו עליו קודם שנבדוק אותו על מהלכי ההתקפה, יאפשר לנו למצוא את השחקן שכנראה תרם הכי הרבה להצלחת אותו מהלך. מה שנקרא בכדורגלנית: "play-maker".

אבל עכשיו בואו נעלה רמה ונסתכל על מה מדדי המרכזיות נותנים לנו ברמת הקבוצה, כלומר במאקרו.

אז למדנו כבר מפרק 3 ופרק 4 שמדדי המרכזיות ברשתות אמיתיות מתפלגים power law, או זנב ארוך, כלומר, יהיו מעט כאלה עם מדדים גבוהים והרוב המכריע עם מדדים נמוכים מאד.

בכדורגל, זה עובד טיפה אחרת. למה?

כדורגל הוא יציר מלאכותי של חוקים שרירותיים שאנחנו מכירים עוד מילדות. למשל, לא ניתן להוסיף עוד צמתים או שחקנים מעבר ל-11. מותר להתמסר רק בשטח נתון. כשהגדולים תופסים את המגרש- הקטנים צריכים לעוף וכמובן, חוק מס' 1 של הכדורגל: "אחים, אחים, במגרש שוכחים" ועוד.

עם כל ההגבלות האלה, רשת המסירות הרגילה שלנו נעשית צפופה יותר ויותר ו"הזנב הארוך" מתחיל לאבד קצת מצורתו. עדיין יש מובילים במדדים וכאלה שפחות, אבל ההבדלים נעשים פחות קיצוניים ממה שאנחנו נראה ברשתות שאין להן את המגבלות האלה. ה-power law לא עוזב אותנו לגמרי, והוא קיים מתחת לפני השטח, אבל נדבר על זה בהמשך, כשנדבר על משמעות המרחב בניתוח הרשתי.


אז מה נותנת לנו התובנה שה-power law במסירות הוא חלש? היא מאפשרת לנו לראות כמה מדדי המרכזיות שלנו מתחלקים בצורה שווה. למה זה טוב?

ככל שהמדדים בין חברי הקבוצה שווים יותר, זה כנראה אומר שהקבוצה עובדת בצורה יותר מתואמת ומכילה פחות ופחות צווארי בקבוק.

השיטה הנפוצה היא לבדוק את רמת השיוויון במדד הדרגה. פעולה זו נעשית ע"י בדיקה של הדרגה הגבוהה ביותר ביחס לשאר החברים בקהילה חלקי יחס פרופורציונאלי של מס' הצמתים ברשת. תוצאה של 0 היא שיחס הדרגות הוא שווה. לכולם יש אותה כמות קשרים. תוצאה שמתקרבת ל-1 מציינת שהרשת ריכוזית מאד.

דרך נוספת לחשב פיזור של מדדי מרכזיות היא Heterogeneity או הטרוגניות כלומר מגוון. במקום לחשב את המרכזיות ביחס לגורם אחד המוביל, המדד מחשב את המרחק של כלל הצמתים מהממוצע. ככל שהציון נמוך יותר, כך הרשת פחות ריכוזית. יש לציין שלרוב נצפה לקבל תוצאות נמוכות במדדים אלו, כלומר, נצפה לראות קירבה לשיוויון בוודאי במדד הדרגה, שכן מצב הקיצון, שבו רק שחקן אחד או שניים מתמסרים כמו שהיה כששיחקנו מתחת לבית כשהייתי קטן, הוא מצב נדיר בליגות המקצועיות. אז דיברנו על איך סיכום כלל מדדי המרכזיות של כל השחקנים בקבוצה תורמים לנו להבנת הקבוצה, אז בואו נדבר עכשיו על מדדי הרשת כולה, כלומר, ניתן מבט-על על המדדים הכלל-רשתיים שלנו. מאמר היסוד בסוגיית מדדי הרשת בעולם הכדורגל הוא מאמרו של Grund, חוקר SNA, שמשום מה, מאמר זה שלו מצוטט פי 7 ממאמרו בנושא רשתות מסחר בירידי אמנויות. זוכרים שדיברנו על כמה קשה לנתח דאטה של משחק כדורגל? אז איפה שאנחנו ראינו שחור בעיניים, גראנד, שעוסק במחקר ארגונים, רואה את חצי הכוס המלאה.

אם בעבר היינו רוצים לדעת מי ינצח בקרב, היינו מצביעים על זה שיכול להניע יותר כוחות לנקודת ההכרעה. לרוב זה היה אומר שלמי שיש צבא גדול יותר – ינצח. או כמו שחבר שלי מהצבא היה אומר, לקרב סכינים – תביא קרוקודיל.

איך אפשר להשוות למי יש צבא טוב יותר אם צבא אחד גדול מהשני או אם לאחד יש סכין ולשני יש קרוקודיל?

בכדורגל, לטוב ולרע, על שתי הקבוצות חלים אותם חוקים, למשל, אותה כמות שחקנים, מה שעושה את הנתונים בין הרשתות לברי השוואה. בנוסף, קל למדוד תפוקות שכן התוצאות הן כמעט בינאריות (נצחו או הפסידו, עם חריג של תיקו). התזה שגראנד בדק היא תזה מעולם ה-ONA , organizational network analysis או מחקר רשתי של ארגונים. היתרון של הסתכלות רשתית על ארגונים ומערכות הוא שהדבר מאפשר מבט על המערכת כמכלול, כלומר, לבחון את השלם שגדול מסך חלקיו. נושא מרתק אגב, שמעסיק רבות מנהלים, מפקדים ויועצים ארגוניים ונקדיש לו פרק בנפרד.

אז התזה איתה יצא גראנד לדרך אומרת שקבוצות שמקיימות הרבה קשרים בתוכן, כלומר, צפופות, מתפקדות טוב יותר, כי אין בהן צווארי בקבוק שמונעים העברת אינפורמציה, וריבוי הקשרים מאפשר סיעורי מוחות.

מאמרו מ-2012 ניתח 760 משחקים בליגה האנגלית של 23 קבוצות שכולל כמעט 300,000 מסירות. בין הגילויים שלו, מה שגראנד מצא הוא שבממוצע, קבוצות עושות כ-180 מסירות במשחק, כלומר, קצת מעל 4 מסירות בדקה, בהנחה שהכדור נמצא אצלן כחצי מהזמן, ושקבוצה מבקיעה 1ורבע גולים למשחק.


אבל עיקר המחקר עסק בניתוח צפיפות הרשת או מדד ה-density.

מדד זה בודק כמה הרשת ממצה את פוטנציאל הקשרים שלה והוא קל יחסית לחישוב: פשוט נחלק את מספר הקשרים הקיימים במספר הקשרים הפוטנציאלים של הרשת. ככל שהתוצאה גבוהה יותר, כך הרשת צפופה יותר.

רשת בצפיפות מלאה, כלומר קליקה, או גרף שלם, תקבל ציון 1.


ומבדיקתו של גראנד עלה שהתזה נכונה: ככל שהרשת צפופה יותר, כלומר יש בה הרבה מסירות בין גורמים שונים, כך סיכויי ההצלחה של הקבוצה עולים.

כלומר, שוב ההפך מהמסקנה של צ'ארלס ריפ שהזכרנו קודם שטען למשחק התקפי עם כמה שפחות מסירות.

הנתונים האלה של גראנד השתחזרו במחקרים רבים שבאו אחריו.