054-5237040

  • אמירה ידועה טוענת כי הדרך הטובה ביותר לחזות את העתיד היא ליצור אותו. גישות אחרות, דטרמיניסטיות יותר, טוענות כי העתיד קבוע מראש ("הכל מכתוב") ושניתן להשתמש באמצעים שונים על מנת לחזות אותו ולהתכונן אליו כיאות. כך או כך, רבים מסכימים כי לשיפור הידיעה שלנו אודות העתיד בתחומים שונים יש חשיבות רבה מאוד. במאמר הבא אציג שני מודלים סטטיסטיים שמסייעים לנו לצמצם את האי הוודאות לגבי ניבוי העתיד ולהשתמש בנתונים מספריים על מנת לנבא בצורה טובה יותר ערכים של משתנה אחר. המודלים שיוצגו להלן הינם הרגרסיה הלינארית והרגרסיה הלוגיסטית. לפני שנתחיל, חשוב לציין כי בפועל, משתמשים פעמים רבות במודלים כאלו על מנת לנתח בצורה מקיפה יותר קשרים בין משתנים, ולא בהכרח על מנת לנבא ערכים של משתנים. כמו בכל מודל סטטיסטי, גם במודלים הסטטיסטיים שיוצגו כאן, יש להמיר את המשתנים באמצעותם אנו מתכוונים לנבא (להלן המשתנים המסבירים) וכן את המשתנים אותם אנו רוצים לנבא (להלן המשתנה המוסבר) לכדי משתנים מספריים מדידים.

     

    רגרסיה לינארית

    ברגרסיה לינארית נשתמש כאשר המשתנה המוסבר, אותו אנו מבקשים לנבא הינו בסולם מדידה כמותי (כלומר כזה שניתן להמיר אותו לסקאלה מספרית בת 5 ערכים לפחות). בנוסף לכך, חשוב לבחון שהקשר בין כל אחד מהמשתנים המסבירים (בנפרד) לבין המשתנה המסביר יכול להיות מתואר באמצעות קו ישר (כלומר לינארי). דוגמא לכך יכולה להיות: ניבוי שביעות הרצון של עובד מהארגון (המשתנה המוסבר בסולם עולה של 0-100) באמצעות מספר הקשרים החברתיים בעבודה (המשתנה המסביר הראשון) והשכר שלו (המשתנה המסביר השני). בניית קו הרגרסיה לניבוי שביעות הרצון נעשה באמצעות בחינת קשרי פירסון בין המשתנים המסבירים לבין המשתנה המסביר. לרגרסיה הלינארית שני תוצרים עיקריים: הראשון הינו משוואת ניבוי מהצורה: Y=b0+b1x1+b2x2, כאשר Y מייצג את הציון המנובא (ולאו דווקא האמיתי) במשתנה המסביר, b0 מייצג את הקבוע של המשוואה (כלומר מהו ציון ה-Y המנובא בהינתן שערכי המשתנים המסבירים הינם אפס) ו-b1 מייצג את התרומה לערכים המנובאים של Y כאשר X1 גדל ביחידה אחת, וכל שאר המשתנים המסבירים קבועים במודל. בדוגמא שלנו, למשל אם קו הניבוי הינו Y=3+10*friends+20*salary. ניתן לראות כי הרמה ההתחלתית של שביעות הרצון במודל הינה 3, כאשר היא עולה ב-10 על כל חבר נוסף בעבודה ועולה ב-20 על כל שקל נוסף במשכורת. השני הינו טיב הניבוי של המודל כפי שמיוצג על ידי הגודל R², ומשמעותו איזה אחוז מ-Y מוסבר באמצעות שימוש במשתנים x1 ו-x2. ככל שאחוז השונות המוסברת גבוה יותר, וכן המודל מובהק (כלומר pvalue נמוך מ-0.05) אזי ניתן לומר שמודל הרגרסיה שבנינו נוח להכללה לאוכלוסיה.

     

    רגרסיה לוגיסטית

    כאמור, אחד התנאים לרגרסיה לינארית הינו שהמשתנה המוסבר הינו בסולם כמותי. אולם מה נעשה אם המשתנה המוסבר הינו בסולם קטגוריאלי בעל שני ערכים בלבד? נשתמש במודל של רגרסיה לוגיסטית. למשל, אנו רוצים לנבא כוונת רכישה של iPad (ירכוש [1]/לא ירכוש [0] - המשתנה המוסבר) על פי גיל הלקוח (המשתנה המסביר הראשון) ועל פי מין הלקוח (גבר [1] /אישה [0] – המשתנה המסביר השני). מכיוון שבמודל זה לא מתקיימת הנחת הלינאריות בקשר מכיוון שהמשתנה המוסבר איננו כמותי, מודל הרגרסיה הלוגיסטית נשען על חישוב סיכויים לערך 1 של המשתנה המוסבר, סיכויים המכונים Odds Ratios או בקיצור OR. OR משמש כמקדמי המשתנים המסבירים ברגרסיה הלוגיסטית, כלומר לכל אחד מהמשתנים המסבירים מוצמד OR שונה שהפרשנות נעשית בהשוואה לערך 1. למה הכוונה? אם למשל OR של גיל הרכישה הינו 0.5, פירוש הדבר שכל שנה נוספת בגיל הלקוח מגדילה את הסיכוי לרכישה פי 0.5 (כלומר בפועל מקטינה אותו פי 2). אם למשל OR של מין הלקוח הינו 3, פירוש הדבר שלגברים (שערכם ברגרסיה 1) יש סיכוי גדול פי 3 לרכוש iPad בהשוואה לנשים. OR השווה ל-1, פירושו כי המשתנה המסביר אינו תורם בפועל לניבוי המשתנה המוסבר (כיוון שמכפילים את ערכו ב-1). OR נמוך מאחד פוגע בניבוי רכישה, ולעומת זאת OR גבוה מאחד תורם לניבוי רכישה (בהנחה ומקדמים אלו מובהקים מבחינה סטטיסטית).

    במאמר זה סקרנו את עיקרי השימוש והפרשנות של שני מודלים מרכזיים בניבוי סטטיסטי – הרגרסיה הלינארית, המשמשת אותנו כאשר המשתנה המוסבר הינו כמותי, והרגרסיה הלוגיסטית, המשמשת אותנו כאשר המשתנה המוסבר הינו קטגוריאלי.