סטטיסטיקה למתחילים

מדוע מדדי המרכז אינם מספיקים לתאור התפלגות?

נתבונן ב - 3 מדגמים הנתונים כרשימות של ערכים (אפשר להניח שהם ציונים של תלמידים, למשל):

  • מדגם א': 7 7 7 7 7 7 7
  • מדגם ב': 10 10 7 7 7 4 4
  • מדגם ג': 8 7 7 7 7 7 6

לשלושת המדגמים הנ"ל יש אותו שכיח (7) אותו חציון (7) ואותו ממוצע (7), אז מה בכל זאת שונה בין המדגמים הנ"ל? הרי קל לראות שהם לא זהים באופיים. השוני הוא בפיזור שלהם. אם נתווה את דיאגרמת המקלות של כל מדגם נקבל:

מדוע מדדי המרכז אינם מספיקים לתאור התפלגות?

מדגם א' לא מפוזר כלל, הוא מרוכז במקום אחד. מדגם ב' הוא המדגם המפוזר ביותר מבין השלושה, יש ערכים שרחוקים מהמרכז שמופיעים במדגם בכמות משמעותית. מדגם ג' הוא בעל פיזור בינוני, הערכים מרוכזים סביב המרכז.

נתבונן בדוגמאות נוספות:
יכולים להיות מדגמים שמדדי המרכז שלהם שונים אבל יש להם בדיוק אותו פיזור.

נדגים באמצעות משתנים רציפים:
נעשה מדגם על גובהם (בס"מ) של תושבים בעיר מסויימת. נדגמו 100 איש. התקבלו התוצאות הבאות:

הערכים

(גובה)

השכיחות

השכיחות היחסית

רוחב המחלקה

הצפיפות

140-150

10

10%

10

1

150-160

20

20%

10

2

160-170

40

40%

10

4

170-180

20

20%

10

2

180-190

10

10%

10

1

סה"כ

100

100%

 

 

 בעיר אחרת נעשה מדגם על משקלם (בק"ג) של התושבים . מספר הנדגמים היה 500.

להלן טבלת השכיחויות:

הערכים

(משקל)

השכיחות

השכיחות היחסית

רוחב המחלקה

הצפיפות

50-60

50

10%

10

1

60-70

100

20%

10

2

70-80

200

40%

10

4

80-90

100

20%

10

2

90-100

50

10%

10

1

סה"כ

500

100%

 

 

נתבונן בהיסטוגרמות של שתי המדגמים:

 ההיסטוגרמה של הגבהים:

ההיסטוגרמה של הגבהים:

ההיסטוגרמה של המשקלים:

ההיסטוגרמה של המשקלים

קל לראות כי הפיזור זהה אך הערכים שסביבם המדגם מפוזר שונים: 165 במדגם של הגבהים ו - 75 במדגם של המשקלים.

מדוע מדדי המרכז אינם מספיקים לתאור התפלגות?559מדוע מדדי המרכז אינם מספיקים לתאור התפלגות?