chi-kvadrát test kondice je užitečné porovnat a teoretický model na pozorovaná data. Tento test je typem obecnějšího testu chí-kvadrát. Stejně jako u jakéhokoli jiného tématu v matematice nebo statistice může být užitečné projít příkladem, abychom pochopili, co se děje, příkladem testu chi-kvadra dobrého fit.
Zvažte standardní balení mléčných čokolád M & Ms. Existuje šest různých barev: červená, oranžová, žlutá, zelená, modrá a hnědá. Předpokládejme, že jsme zvědaví na distribuci těchto barev a zeptejte se, vyskytuje se všech šest barev ve stejném poměru? To je typ otázky, na kterou lze odpovědět testem vhodnosti.
Nastavení
Začneme tím, že si všimneme nastavení a proč je zkouška dobrého stavu vhodná. Naše proměnná barvy je kategorická. Existuje šest úrovní této proměnné, což odpovídá šesti možným barvám. Budeme předpokládat, že M & Ms, které počítáme, budou jednoduchým náhodným vzorkem z populace všech M & Ms.
Nulové a alternativní hypotézy
nulové a alternativní hypotézy pro naši zkoušku vhodnosti fit odrážejte předpoklad, který děláme o populaci. Protože testujeme, zda se barvy vyskytují ve stejných proporcích, bude naší nulovou hypotézou, že všechny barvy se vyskytují ve stejném poměru. Více formálně, pokud
str1 je podíl populace červených cukrovinek, str2 je podíl populace pomerančových bonbónů a tak dále, pak je nulová hypotéza str1 = str2 =... = str6 = 1/6.Alternativní hypotéza je taková, že alespoň jeden z populačních proporcí není roven 1/6.
Skutečné a očekávané počty
Skutečný počet je počet cukrovinek pro každou ze šesti barev. Očekávaný počet se týká toho, co bychom očekávali, kdyby byla neplatná hypotéza pravdivá. Necháme to n být velikost našeho vzorku. Očekávaný počet červených bonbónů je str1 n nebo n/6. Ve skutečnosti je v tomto příkladu očekávaný počet cukrovinek pro každou ze šesti barev jednoduše n krát stri, nebo n/6.
Chi-square Statistic for Goodness of Fit
Nyní vypočteme statistiku chi-kvadrát pro konkrétní příklad. Předpokládejme, že máme jednoduchý náhodný vzorek 600 bonbónů M&M s následující distribucí:
- 212 z bonbónů jsou modré.
- 147 bonbónů je oranžové.
- 103 bonbónů je zelené.
- 50 bonbónů je červené.
- 46 bonbónů je žluté.
- 42 bonbónů je hnědé.
Pokud by byla nulová hypotéza pravdivá, očekávané počty pro každou z těchto barev by byly (1/6) x 600 = 100. Nyní to použijeme při výpočtu statistiky chi-square.
Vypočítáme příspěvek do naší statistiky z každé barvy. Každá je ve tvaru (Skutečná - Očekávaná)2/Expected.:
- Pro modrou máme (212 - 100)2/100 = 125.44
- Pro pomeranče máme (147 - 100)2/100 = 22.09
- Pro zelenou máme (103 - 100)2/100 = 0.09
- Pro červenou máme (50 - 100)2/100 = 25
- Pro žluté máme (46 - 100)2/100 = 29.16
- Pro hnědé máme (42 - 100)2/100 = 33.64
Všechny tyto příspěvky pak spočítáme a stanovíme, že naše statistika čtverců je 125,44 + 22,09 + 0,09 + 25 + 29,16 + 33,64 = 235,42.
Stupně svobody
Počet stupně svobody pro test správnosti fit je prostě jeden menší než počet úrovní naší proměnné. Protože tam bylo šest barev, máme 6 - 1 = 5 stupňů volnosti.
Chi-náměstí tabulka a P-hodnota
Statistika chi-square 235.42, kterou jsme vypočítali, odpovídá konkrétnímu umístění na chi-square rozdělení s pěti stupni volnosti. Nyní potřebujeme p-hodnota, určuje pravděpodobnost získání statistiky testu alespoň tak extrémně, jako je 235,42, za předpokladu, že nulová hypotéza je pravdivá.
Pro tento výpočet lze použít Microsoft Excel. Zjistili jsme, že naše statistika testu s pěti stupni volnosti má p-hodnotu 7,29 x 10-49. Toto je extrémně malá p-hodnota.
Pravidlo rozhodnutí
Rozhodujeme se, zda zamítnout nulovou hypotézu na základě velikosti p-hodnoty. Protože máme velmi nepatrnou p-hodnotu, odmítáme nulovou hypotézu. Došli jsme k závěru, že M & Ms nejsou rovnoměrně rozděleny mezi šest různých barev. Ke stanovení intervalu spolehlivosti pro podíl populace jedné konkrétní barvy lze použít následnou analýzu.