Třídy histogramu: informace a příklady

Ve skutečnosti neexistuje pravidlo, kolik tříd by mělo být. O počtu tříd je třeba zvážit několik věcí. Pokud by existovala pouze jedna třída, všechna data by spadala do této třídy. Náš histogram by byl jednoduše jediným obdélníkem s výškou danou počtem prvků v naší sadě dat. To by nebylo velmi užitečné nebo užitečný histogram.

V opačném případě bychom mohli mít spoustu tříd. Výsledkem by bylo množství barů, z nichž žádný by pravděpodobně nebyl příliš vysoký. Pomocí tohoto typu histogramu by bylo velmi obtížné určit jakékoli rozlišovací charakteristiky od údajů.

Abychom zabránili těmto dvěma extrémům, musíme použít pravidlo pro stanovení počtu tříd pro histogram. Pokud máme relativně malou sadu dat, obvykle používáme pouze kolem pěti tříd. Pokud je sada dat relativně velká, pak používáme kolem 20 tříd.

Znovu zdůrazňme, že se jedná o pravidlo, nikoli o absolutní statistický princip. Mohou existovat dobré důvody pro různé počty tříd pro data. Níže uvádíme příklad tohoto.

Než uvážíme několik příkladů, uvidíme, jak určit, jaké třídy ve skutečnosti jsou. Tento proces začínáme hledáním

instagram viewer
rozsah našich dat. Jinými slovy, odečteme nejnižší datovou hodnotu od nejvyšší datové hodnoty.

Když je sada dat relativně malá, rozdělíme rozsah pěti. Kvocient je šířka tříd pro náš histogram. V tomto procesu budeme pravděpodobně muset udělat nějaké zaokrouhlování, což znamená, že celkový počet tříd nemusí být pět.

Když je sada dat relativně velká, rozdělíme rozsah 20. Stejně jako dříve nám tento problém s dělením dává šířku tříd pro náš histogram. Také, jak jsme viděli dříve, naše zaokrouhlování může mít za následek mírně více nebo mírně méně než 20 tříd.

V jednom z velkých nebo malých případů datových sad vytvoříme první třídu, která začíná v bodě o něco menším než nejmenší hodnota dat. Musíme to udělat tak, aby první hodnota dat spadala do první třídy. Ostatní následné třídy jsou určeny šířkou, která byla nastavena při rozdělení rozsahu. Víme, že jsme v poslední třídě, když tato nejvyšší hodnota dat obsahuje tato třída.

Pro příklad určíme vhodnou šířku třídy a třídy pro sadu dat: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3, 9.0, 9.2, 11.1, 11.2, 14.4, 15.5, 15.5, 16.7, 18.9, 19.2.

Vidíme, že v naší sadě je 27 datových bodů. Toto je relativně malá sada, a tak rozdělíme rozsah pěti. Rozsah je 19,2 - 1,1 = 18,1. Dělíme 18,1 / 5 = 3,62. To znamená, že by byla vhodná šířka třídy 4. Naše nejmenší hodnota dat je 1,1, takže první třídu začínáme v bodě menším než toto. Protože naše data sestávají z kladných čísel, mělo by smysl, aby se první třída pohybovala od 0 do 4.

Jako příklad lze uvést, že existuje test s více možnostmi výběru, který obsahuje 35 otázek, a test absolvuje 1 000 studentů na střední škole. Chceme vytvořit histogram ukazující počet studentů, kteří v testu dosáhli určitého skóre. Vidíme, že 35/5 = 7 a 35/35 = 1,75. Navzdory našemu pravidlu, který nám dává volby tříd šířky 2 nebo 7, které se mají použít pro náš histogram, může být lepší mít třídy šířky 1. Tyto třídy by odpovídaly každé otázce, na kterou student při testu odpověděl správně. První z nich by byl vystředěn na 0 a poslední by byl vystředěn na 35.