Počet stupně svobody pro nezávislost dvou kategorických proměnných je dána jednoduchým vzorcem: (r - 1)(C - 1). Tady r je počet řádků a C je počet sloupců v obousměrný stůl hodnot kategorické proměnné. Čtěte dále, abyste se dozvěděli více o tomto tématu a pochopili, proč tento vzorec uvádí správné číslo.
Pozadí
Jeden krok v procesu mnoha testy hypotéz je určení počtu stupňů volnosti. Toto číslo je důležité, protože pro rozdělení pravděpodobnosti které zahrnují rodinu distribucí, jako je distribuce chi-náměstí, počet stupňů svoboda určuje přesnou distribuci od rodiny, kterou bychom měli používat v naší hypotéze test.
Stupně svobody představují počet svobodných rozhodnutí, která můžeme v dané situaci učinit. Jedním z testů hypotéz, které vyžadují, abychom určili stupně svobody, je chi-náměstí test nezávislosti dvou kategorických proměnných.
Testy nezávislosti a obousměrných tabulek
Test nezávislosti chi-square vyžaduje, abychom vytvořili obousměrnou tabulku, známou také jako pohotovostní tabulka. Tento typ tabulky má
r řádky a C sloupce představující r úrovně jedné kategorické proměnné a C úrovně jiné kategorické proměnné. Pokud tedy nepočítáme řádek a sloupec, ve kterém zaznamenáváme součty, existuje celkem rc buňky v obousměrné tabulce.Chí-kvadrát test nezávislosti nám umožňuje testovat hypotézu, že kategorický proměnné jsou na sobě nezávislé. Jak jsme zmínili výše, r řádky a C sloupce v tabulce nám (r - 1)(C - 1) stupně volnosti. Ale nemusí být okamžitě jasné, proč je to správný počet stupňů volnosti.
Počet stupňů svobody
Chcete-li zjistit, proč (r - 1)(C - 1) je správné číslo, tuto situaci podrobněji prozkoumáme. Předpokládejme, že známe mezní součty pro každou z úrovní našich kategorických proměnných. Jinými slovy, známe celkový součet pro každý řádek a součet pro každý sloupec. V první řadě jsou C sloupce v naší tabulce, takže jsou C buňky. Jakmile známe hodnoty všech kromě jedné z těchto buněk, pak protože známe celkový počet všech buněk, je určování hodnoty zbývající buňky jednoduchým algebraickým problémem. Kdybychom vyplňovali tyto buňky našeho stolu, mohli bychom vstoupit C - 1 z nich volně, ale pak zbývající buňka je určena součtem řádku. Tak tam jsou C - 1 stupeň volnosti pro první řadu.
Tímto způsobem pokračujeme pro další řádek a jsou tam znovu C - 1 stupeň volnosti. Tento proces pokračuje, dokud se nedostaneme do předposlední řady. Každý z řádků kromě posledního přispívá C - celkem 1 stupeň volnosti. V době, kdy máme všechny kromě posledního řádku, pak protože známe sloupcový součet, můžeme určit všechny položky v posledním řádku. To nám dává r - 1 řádky s C - 1 stupeň volnosti v každém z nich, celkem (r - 1)(C - 1) stupně volnosti.
Příklad
Vidíme to na následujícím příkladu. Předpokládejme, že máme obousměrnou tabulku se dvěma kategoriálními proměnnými. Jedna proměnná má tři úrovně a druhá má dvě. Dále předpokládejme, že známe součty řádků a sloupců pro tuto tabulku:
Úroveň A | Úroveň B | Celkový | |
Úroveň 1 | 100 | ||
Úroveň 2 | 200 | ||
Úroveň 3 | 300 | ||
Celkový | 200 | 400 | 600 |
Vzorec předpovídá, že existují (3-1) (2-1) = 2 stupně volnosti. Vidíme to takto. Předpokládejme, že vyplníme horní levou buňku číslem 80. Tím se automaticky určí celý první řádek záznamů:
Úroveň A | Úroveň B | Celkový | |
Úroveň 1 | 80 | 20 | 100 |
Úroveň 2 | 200 | ||
Úroveň 3 | 300 | ||
Celkový | 200 | 400 | 600 |
Pokud nyní víme, že první položka ve druhém řádku je 50, vyplní se zbytek tabulky, protože známe celkový součet každého řádku a sloupce:
Úroveň A | Úroveň B | Celkový | |
Úroveň 1 | 80 | 20 | 100 |
Úroveň 2 | 50 | 150 | 200 |
Úroveň 3 | 70 | 230 | 300 |
Celkový | 200 | 400 | 600 |
Tabulka je zcela vyplněna, ale měli jsme pouze dvě bezplatné volby. Jakmile byly tyto hodnoty známy, byl zbytek tabulky zcela určen.
I když obvykle nepotřebujeme vědět, proč existuje tolik stupňů svobody, je dobré vědět, že skutečně uplatňujeme koncept stupňů svobody na novou situaci.