סטטיסטיקה למתקדמים

בדיקת השערות כאשר סטיית התקן לא ידועה

דוגמא

ידוע שגובהם של ילדים בני 10 מתפלג נורמלית עם תוחלת של 120 ס"מ (μ=120) ועם סטיית תקן שאינה ידועה.
חוקר רפואי טוען שפיתח תרופה להגבהת הילדים בצורה משמעותית, ולראיה הוא הביא מדגם של 4 ילדים שקיבלו את התרופה. הגבהים של הילדים שבמדגם (בס"מ) היו: 129, 132, 125, 134.
האם, ברמת מובהקות של 5%, צודק החוקר בטענתו, והתרופה אכן מגביהה את הילדים?

 

פתרון

  1. השערת ה-0 היא שהתרופה לא מגביהה ותוחלת הגובה של ילדים שקיבלו את הטיפול היא 120 ס"מ (כמו התוחלת המקורית).
  2. ההשערה הנגדית היא שהתרופה מגביהה, ותוחלת הגובה של ילדים שקיבלו את הטיפול גדול מ-120 ס"מ. מכאן ניתן לדעת שיהיה קו אדום אחד מימין לתוחלת.
  3. נמצא את הערך המתאים בטבלה t:
    מכיוון שגודל המדגם הוא 4, אז מספר דרגות החופש הוא 3. מכיוון שיש למקם קו אדום אחד מימין לתוחלת ורמת המובהקות המבוקשת היא 5%, הטור המתאים בטבלה t, הוא טור (2)‚. הערך הנמצא בטור (2‚) בשורה של 3 דרגות חופש הוא 2.353.
    מכאן, שהקו האדום ימוקם 2.353 טעויות תקן מעל התוחלת (שהיא 120 ס"מ).
  4. נחשב את הממוצע: `(129+132+125+134)/4=520/4=130` 
    נסמל את משתנה הבסיס ב-G1 , ואת משתנה הממוצע ב-G4.
  5. נחשב את טעות התקן של משתנה הבסיס (G1):

    הגובה של כל ילד

    הגובה הממוצע

    ההפרש מהממוצע

    ריבוע ההפרש

    129

    130

    1-

    1

    132

    130

    2

    4

    125

    130

    5-

    25

    134

    130

    4

    16

    השונות (של משתנה הבסיס) תהיה: `(1+4+25+16)/(4-1)=46/3=15.33`  
    טעות התקן של משתנה הבסיס היא שורש השונות שלו:  `hatSigma_(G_1)=sqrt(15.33)=3.92`

  6. נמצא את טעות התקן של משתנה הממוצע: `hatSigma_(G_4)=(hatSigma_(G_1))/sqrt(4)=3.92/sqrt(4)=3.92/2=1.96`
  7. מיקום הקו האדום יהיה בערך של 124.61

    טעות התקן מטבלה t הממוצע
    124.61 1.96 = 2.353 * 120 +

    התחום הסביר מכיל את כל הערכים הקטנים מ-124.61 ס"מ. התחום החריג מכיל את כל הערכים הגדולים מ-124.61 ס"מ.

  8. נבדוק באיזה תחום נמצא הממוצע, ונקבל החלטה: הממוצע שהתקבל במדגם הוא 130 ס"מ והוא נמצא באזור החריג. לכן אנו דוחים את השערת ה-0, וטוענים שההשערה הנגדית היא הנכונה, והחוקר צודק (הטיפול מגביה את התלמידים).

 

לסיכום

לבדיקת השערות יש לבצע את הפעולות הבאות:

  1. להגדיר את השערת ה-0 (אין סטייה מהתוחלת של המצב המקורי).
  2. להגדיר את ההשערה הנגדית (התוחלת עלתה, התוחלת ירדה, התוחלת השתנתה כלפי מעלה או כלפי מטה), ולקבוע כמה קווים אדומים יהיו ובאיזה צד של התוחלת.
  3. למצוא את הערך הרלוונטי בטבלה t, לפי רמת המובהקות הנדרשת, מספר הקווים האדומים, ומספר דרגות החופש (גודל המדגם פחות 1).
  4. לחשב את ממוצע המדגם.
  5. לחשב את טעות התקן של משתנה הבסיס.
  6. לחשב את טעות התקן של משתנה הממוצע (ע"י חלוקת טעות התקן של משנה הבסיס בשורש של גודל המדגם).
  7. להגדיר את מיקומם של הקווים האדומים: התוחלת המקורית שבהשערת ה-0 ועוד או פחות המכפלה של הערך המתאים מטבלה t (שמצאנו בסעיף 3) עם טעות התקן של משתנה הממוצע (שמצאנו בסעיף 6).
  8. לפי הקווים האדומים להגדיר את התחום הסביר ואת התחום החריג, לבדוק באיזה תחום נמצא הממוצע (שמצאנו בסעיף 4). אם הממוצע בתחום החריג – דוחים את השערת ה-0, אם הממוצע נמצא בתחום הסביר מקבלים את השערת ה-0.

דוגמה

משך החיים של עכבר מתפלג נורמלית עם תוחלת של 30 יום, ועם סטיית תקן לא ידועה.
חוקר טוען שפיתח תוסף מזון שמאריך את חיי העכברים.
על בסיס מדגם שכלל 11 עכברים שקיבלו את התוסף התקבל כי ממוצע משך החיים הוא 35 יום וטעות התקן של משתנה הבסיס היא 3 ימים.
נדרש לבדוק ברמת מובהקות של 10% האם התוסף יעיל?

פתרון

השערת ה-0 היא שהתוחלת של משך חייו של עכבר שקיבל תוסף מזון היא 30.
ההשערה הנגדית היא שהתוחלת של משך חייו של עכבר שקיבל תוסף מזון גדולה מ-30. יהיה קו אדום אחד מימין ל-30.
הנתון הרלוונטי בטבלה t הוא 1.372 (שורה 10 – כי יש 10 דרגות חופש, טור 1 - כי מדובר בקו אדום אחד וברמת מובהקות של 10%).

טעות התקן של משתנה הבסיס נתונה (3 ימים), טעות התקן של משתנה הממוצע היא `[3/sqrt(11)]=0.9` 

מיקום הקו האדום יהיה בערך של 121.23

טעות התקן מטבלה t הממוצע
31.23 0.9 = 1.372 * 30 +

התחום החריג מכיל את כל הערכים שגדולים מ-31.23 ימים. הממוצע (35 ימים) נמצא בתחום זה, ולכן דוחים את השערת ה-0, ומקבלים את ההשערה הנגדית. תוסף המזון מאריך את משך חיי העכברים.

בדיקת השערות כאשר סטיית התקן לא ידועה530בדיקת השערות כאשר סטיית התקן לא ידועה