054-5237040

  • אחת ההחלטות החשובות ביותר בעת ניתוח הנתונים ובחינה סטטיסטית של השערות המחקר שלכם, הינה באיזה מבחן סטטיסטי להשתמש?. במאמר זה נציג את המבחנים הסטטיסטיים הבסיסיים, אך עם זאת גם הפופולאריים ביותר לשימוש ובאילו תנאים יש להשתמש בהם.

    שתי השאלות המרכזיות שעליכם להידרש אליהן בכדי להחליט באיזה מבחן סטטיסטי להשתמש הינן:

    1. מהי שאלת המחקר?

    2. מהם סולמות המדידה של המשתנים בהשערת המחקר?

    ישנם למעשה ארבעה סוגים עיקריים של שאלות מחקר ותוך כדי הצגתן, נראה את המבחנים הסטטיסטיים המרכזיים. 

    הסוג הראשון של שאלת מחקר הינו: "האם הקבוצות נבדלות זו מזו במשתנה תלוי?". לדוגמא, אתם משערים כי חשבון הטלפון החודשי הממוצע של תושבי תל אביב הינו גבוה יותר מזה של תושבי ירושלים. בהשערה שבה ישנן שתי קבוצות בלבד (כמו בדוגמא שלנו - תל אביבים מול ירושלמים) ייעשה שימוש במבחן t למדגמים בלתי תלויים (באם המשתנה התלוי נמדד בסולם רווח/מנה) או במבחן ווילקוקסון למדגמים בלתי תלויים (באם המשתנה התלוי נמדד בסולם אורדינאלי). 

    ייתכנו כמובן גם מקרים שבהם יהיו שלוש קבוצות ואף יותר ואז נוכל לשער רק על הבדל כללי בין הקבוצות. למשל, נשער שקיים הבדל בממוצע חשבון הטלפון החודשי בין תושבי תל אביב, תושבי ירושלים ותושבי חיפה. במקרה זה ייעשה שימוש במבחן ניתוח שונות (Analysis of Variance; ANOVA) (באם המשתנה התלוי נמדד בסולם רווח/מנה) או במבחן קרוסקאל-וואליס (באם המשתנה התלוי נמדד בסולם אורדינאלי).

    סוג נוסף שכיח של שאלת מחקר הינו: "האם הטיפול יעיל?". בשאלה זו המונח "טיפול" מתייחס למעשה לכל סוג של מניפולציה שמפעיל החוקר, או שהתרחשה באופן טבעי במציאות, ורוצים לבדוק באם מניפולציה זו יצרה שינוי. לדוגמא, אתם בוחנים באם דיאטה חדשה, המתבססת על אכילת אוכל אורגני בלבד, הינה אפקטיבית. במקרה זה, תמדדו את המשתנה התלוי (כלומר משקל הנבדקים) לפני הדיאטה ולאחריה. 

    למעשה, זהו מקרה פרטי (ושונה!!!) של השערה על שתי קבוצות שראינו קודם, רק שבמקרה זה שתי הקבוצות הינן תלויות האחת בשנייה מכיוון שהן מייצגות מדידה חוזרת של המשתנה התלוי לפני המניפולציה ולאחריה בקרב אותם הנבדקים. בכדי לבחון שאלה זו, יש להשתמש במבחן t למדגמים תלויים (באם המשתנה התלוי נמדד בסולם רווח/מנה) או במבחן ווילקוקסון למדגמים תלויים (באם המשתנה התלוי נמדד בסולם אורדינאלי). חשוב מאוד לשים לב באם המדידות אכן התרחשו בקרב אותם הנבדקים, או לחילופין בוצעה התאמה (matching) בין נבדקים דומים בשתי קבוצות, כי רק אז יש הצדקה סטטיסטית להשתמש במבחן זה.

    הסוג השלישי של שאלת מחקר מדבר על קשר בין משתנים ודן בשאלה: "האם קיים קשר/קורלציה/מתאם בין המשתנים?". למעשה, זו אחת השאלות התיאורטיות הנפוצות ביותר בעולם המחקר, ויש הטוענים כי כל שאלה מחקרית (כמעט) ניתנת לביטוי בהגדרת קשר בין המשתנים. ישנם מדדי קשר רבים ומגוונים, אך כאן נעמוד על המרכזיים שבהם. 

    נתחיל עם שני משתנים בלבד. כאשר אתם מבקשים לחקור האם קיים קשר בין שני משתנים שנמדדו בסולם שמי (קטגוריאלי) (למשל הקשר בין מגדר לבין עישון), אזי עדיף להשתמש במבחן חי בריבוע, המבטא את הקשר באמצעות מדד Cramer V. מדד זה ייתן לנו את עוצמת הקשר  בין 0 (אין קשר) ל-1 (קשר מושלם). 

    לעומת זאת, באם שני המשתנים הינם בסולם רווח/מנה (למשל הקשר בין גובה האדם לבין משקלו), אזי ייעשה שימוש במבחן פירסון, אשר מניח קשר לינארי בין המשתנים. קשר זה ניתן לביטוי במשפט "ככל שהאדם גבוה יותר, הוא שוקל משקל רב יותר" (קשר חיובי), או לחילופין "ככל שהאדם גבוה יותר, הוא שוקל משקל נמוך יותר" (קשר שלילי). בנוסף לכך עוצמת הקשר תבוא לידי ביטוי בערך המוחלט של הקשר בין 0 (אין קשר) ל-1 (קשר מושלם חיובי/שלילי, תלוי בסימן). 

    כאשר אנו רוצים למדוד קשר בין משתנה תלוי אחד לבין כמה משתנים בלתי תלויים, והקשר בין המשתנה התלוי לבין המשתנים הבלתי תלויים הינו לינארי, נשתמש ברגרסיה לינארית מרובה, אך על כך במאמר נפרד.

    הסוג הרביעי של שאלת מחקר (ובאופן יחסי הכי פחות שכיח) הינו: " האם המדגם לקוח מאוכלוסיה מסוימת?". נניח, למשל, שאתם מבצעים מחקר על נהגים והשערת המחקר שלכם הינה: "זמן התגובה של נהגים שיכורים נמוך יותר מזמן התגובה של כלל הנהגים". במקרה זה אתם משערים שלמעשה זמן התגובה של הנהגים השיכורים שייך להתפלגות שונה מזה של זמן התגובה באוכלוסיית הנהגים הכללית. 

    נתחיל עם מקרה שבו המשתנה התלוי נמדד בסולם רווח/מנה (למשל זמן תגובה). במקרה זה ייעשה שימוש במבחן z למדגם בודד, באם השונות של המשתנה התלוי באוכלוסייה הכללית ידועה (פחות סביר), או במבחן t למדגם בודד באם שונות זו אינה ידועה. בשני המבחנים הללו ממוצע המשתנה באוכלוסיה (הקרוי תוחלת) ידוע ומניחים כי המשתנה התלוי מתפלג נורמאלית. 

    ניתן לוותר על ההנחה האחרונה באם מספר התצפיות גבוה מ- 30 (על פי משפט הגבול המרכזי). לעומת זאת, אם המשתנה נמדד על פי שכיחות (למשל אחוז תאונות הדרכים שבהם היו מעורבים נהגים שיכורים מכלל תאונות הדרכים במדגם) אזי ייעשה שימוש במבחן הבינום המשווה בין פרופורציה במדגם לעומת פרופורציה באוכלוסייה.