Rozdíl v populaci naznačuje, jak rozložit soubor dat. Bohužel je obvykle nemožné přesně vědět, co je tento parametr populace. K vykompenzování našeho nedostatku znalostí používáme téma zvané inferenciální statistiky intervaly spolehlivosti. Uvidíme příklad, jak vypočítat interval spolehlivosti pro rozptyl populace.
Vzorec intervalu spolehlivosti
Vzorec pro (1 - α) interval spolehlivosti o rozptylu populace. Je dán následujícím řetězcem nerovností:
[ (n - 1)s2] / B < σ2 < [ (n - 1)s2] / A.
Tady n je velikost vzorku, s2 je rozptyl vzorku. Číslo A je bod distribuce chi-square s n -1 stupňů volnosti, při které přesně α / 2 plochy pod křivkou je nalevo od A. Podobným způsobem číslo B je bod stejného chí-kvadrátového rozdělení s přesně α / 2 plochy pod křivkou vpravo od B.
Předvolby
Začneme datovou sadou s 10 hodnotami. Tato sada datových hodnot byla získána jednoduchým náhodným vzorkem:
97, 75, 124, 106, 120, 131, 94, 97,96, 102
Bylo by třeba provést nějakou průzkumnou analýzu údajů, aby se ukázalo, že neexistují žádné odlehlé hodnoty. Vytvořením a
stonek a list vidíme, že tato data jsou pravděpodobně z distribuce, která je přibližně normálně distribuována. To znamená, že můžeme přistoupit k nalezení 95% intervalu spolehlivosti pro rozptyl populace.Ukázková odchylka
Musíme odhadnout rozptyl populace s rozptylem vzorku, označeným jako s2. Začneme tedy výpočtem této statistiky. V zásadě průměrujeme součet čtverců odchylek od střední hodnoty. Tato částka by se však neměla dělit touto částkou n dělíme to n - 1.
Zjistili jsme, že průměr vzorku je 104,2. S použitím tohoto máme součet druhých odchylek od střední hodnoty dané:
(97 – 104.2)2 + (75 – 104.3)2 +... + (96 – 104.2)2 + (102 – 104.2)2 = 2495.6
Dělíme tuto částku 10 - 1 = 9, abychom získali vzorek rozptylu 277.
Distribuce Chi-Square
Nyní se obrátíme na naši distribuci chi-square. Protože máme 10 datových hodnot, máme 9 stupně svobody. Protože chceme středních 95% naší distribuce, potřebujeme 2,5% v každém z obou ocasů. Konzultujeme tabulku chi-square nebo software a zjistíme, že hodnoty tabulek 2.7004 a 19.023 uzavírají 95% plochy distribuce. Tato čísla jsou A a B, resp.
Nyní máme vše, co potřebujeme, a jsme připraveni sestavit náš interval spolehlivosti. Vzorec pro levý koncový bod je [(n - 1)s2] / B. To znamená, že náš levý koncový bod je:
(9 x 277) / 19,023 = 133
Správný koncový bod je nalezen nahrazením B s A:
(9 x 277) / 2,7004 = 923
Jsme si tedy 95% jistí, že rozptyl populace leží mezi 133 a 923.
Standardní odchylka populace
Jelikož je standardní odchylka druhou odmocninou rozptylu, lze tuto metodu použít k vytvoření intervalu spolehlivosti pro standardní odchylku populace. Vše, co bychom museli udělat, je vzít čtvercové kořeny koncových bodů. Výsledkem by byl 95% interval spolehlivosti pro standardní odchylka.