Stupně svobody za nezávislost ve dvousměrné tabulce

Počet stupně svobody pro nezávislost dvou kategorických proměnných je dána jednoduchým vzorcem: (r - 1)(C - 1). Tady r je počet řádků a C je počet sloupců v obousměrný stůl hodnot kategorické proměnné. Čtěte dále, abyste se dozvěděli více o tomto tématu a pochopili, proč tento vzorec uvádí správné číslo.

Pozadí

Jeden krok v procesu mnoha testy hypotéz je určení počtu stupňů volnosti. Toto číslo je důležité, protože pro rozdělení pravděpodobnosti které zahrnují rodinu distribucí, jako je distribuce chi-náměstí, počet stupňů svoboda určuje přesnou distribuci od rodiny, kterou bychom měli používat v naší hypotéze test.

Stupně svobody představují počet svobodných rozhodnutí, která můžeme v dané situaci učinit. Jedním z testů hypotéz, které vyžadují, abychom určili stupně svobody, je chi-náměstí test nezávislosti dvou kategorických proměnných.

Testy nezávislosti a obousměrných tabulek

Test nezávislosti chi-square vyžaduje, abychom vytvořili obousměrnou tabulku, známou také jako pohotovostní tabulka. Tento typ tabulky má

instagram viewer
r řádky a C sloupce představující r úrovně jedné kategorické proměnné a C úrovně jiné kategorické proměnné. Pokud tedy nepočítáme řádek a sloupec, ve kterém zaznamenáváme součty, existuje celkem rc buňky v obousměrné tabulce.

Chí-kvadrát test nezávislosti nám umožňuje testovat hypotézu, že kategorický proměnné jsou na sobě nezávislé. Jak jsme zmínili výše, r řádky a C sloupce v tabulce nám (r - 1)(C - 1) stupně volnosti. Ale nemusí být okamžitě jasné, proč je to správný počet stupňů volnosti.

Počet stupňů svobody

Chcete-li zjistit, proč (r - 1)(C - 1) je správné číslo, tuto situaci podrobněji prozkoumáme. Předpokládejme, že známe mezní součty pro každou z úrovní našich kategorických proměnných. Jinými slovy, známe celkový součet pro každý řádek a součet pro každý sloupec. V první řadě jsou C sloupce v naší tabulce, takže jsou C buňky. Jakmile známe hodnoty všech kromě jedné z těchto buněk, pak protože známe celkový počet všech buněk, je určování hodnoty zbývající buňky jednoduchým algebraickým problémem. Kdybychom vyplňovali tyto buňky našeho stolu, mohli bychom vstoupit C - 1 z nich volně, ale pak zbývající buňka je určena součtem řádku. Tak tam jsou C - 1 stupeň volnosti pro první řadu.

Tímto způsobem pokračujeme pro další řádek a jsou tam znovu C - 1 stupeň volnosti. Tento proces pokračuje, dokud se nedostaneme do předposlední řady. Každý z řádků kromě posledního přispívá C - celkem 1 stupeň volnosti. V době, kdy máme všechny kromě posledního řádku, pak protože známe sloupcový součet, můžeme určit všechny položky v posledním řádku. To nám dává r - 1 řádky s C - 1 stupeň volnosti v každém z nich, celkem (r - 1)(C - 1) stupně volnosti.

Příklad

Vidíme to na následujícím příkladu. Předpokládejme, že máme obousměrnou tabulku se dvěma kategoriálními proměnnými. Jedna proměnná má tři úrovně a druhá má dvě. Dále předpokládejme, že známe součty řádků a sloupců pro tuto tabulku:

Úroveň A Úroveň B Celkový
Úroveň 1 100
Úroveň 2 200
Úroveň 3 300
Celkový 200 400 600

Vzorec předpovídá, že existují (3-1) (2-1) = 2 stupně volnosti. Vidíme to takto. Předpokládejme, že vyplníme horní levou buňku číslem 80. Tím se automaticky určí celý první řádek záznamů:

Úroveň A Úroveň B Celkový
Úroveň 1 80 20 100
Úroveň 2 200
Úroveň 3 300
Celkový 200 400 600

Pokud nyní víme, že první položka ve druhém řádku je 50, vyplní se zbytek tabulky, protože známe celkový součet každého řádku a sloupce:

Úroveň A Úroveň B Celkový
Úroveň 1 80 20 100
Úroveň 2 50 150 200
Úroveň 3 70 230 300
Celkový 200 400 600

Tabulka je zcela vyplněna, ale měli jsme pouze dvě bezplatné volby. Jakmile byly tyto hodnoty známy, byl zbytek tabulky zcela určen.

I když obvykle nepotřebujeme vědět, proč existuje tolik stupňů svobody, je dobré vědět, že skutečně uplatňujeme koncept stupňů svobody na novou situaci.