Intervaly spolehlivosti jsou součástí inferenciální statistika. Základní myšlenkou tohoto tématu je odhadnout hodnotu neznámé populace parametr pomocí statistického vzorku. Můžeme nejen odhadnout hodnotu parametru, ale můžeme také přizpůsobit naše metody k odhadu rozdílu mezi dvěma souvisejícími parametry. Například bychom mohli chtít najít rozdíl v procentech mužské americké hlasovací populace, která podporuje určitý právní předpis, ve srovnání s ženské hlasovací populací.
Uvidíme, jak provést tento typ výpočtu vytvořením intervalu spolehlivosti pro rozdíl dvou proporcí populace. V tomto procesu prozkoumáme některé teorie za tímto výpočtem. Uvidíme některé podobnosti v tom, jak konstruujeme a interval spolehlivosti pro jednu část populace a také interval spolehlivosti pro rozdíl dvou průměrů populace.
Obecné údaje
Než se podíváme na konkrétní vzorec, který použijeme, podívejme se na celkový rámec, do kterého tento typ intervalu spolehlivosti zapadá. Forma typu intervalu spolehlivosti, na který se podíváme, je dána následujícím vzorcem:
Odhad +/- Rozpětí chyby
Mnoho intervalů spolehlivosti je tohoto typu. Musíme počítat dvě čísla. První z těchto hodnot je odhad parametru. Druhou hodnotou je rozpětí chyby. Tato míra chyb odpovídá skutečnosti, že máme odhad. Interval spolehlivosti nám poskytuje rozsah možných hodnot pro náš neznámý parametr.
Podmínky
Před výpočtem bychom se měli ujistit, že jsou splněny všechny podmínky. Abychom našli interval spolehlivosti pro rozdíl dvou proporcí populace, musíme se ujistit, že platí následující:
- Máme dva jednoduché náhodné vzorky z velkých populací. Výraz „velký“ zde znamená, že populace je nejméně 20krát větší než velikost vzorku. Velikost vzorků bude označena n1 a n2.
- Naši jednotlivci byli vybráni nezávisle na sobě.
- V každém našem vzorku je nejméně deset úspěchů a deset selhání.
Pokud poslední položka v seznamu není splněna, může být způsob, jak to obejít. Můžeme upravit plus-čtyři interval spolehlivosti konstrukce a získat robustní výsledky. Jak postupujeme, předpokládáme, že byly splněny všechny výše uvedené podmínky.
Vzorky a podíly obyvatelstva
Nyní jsme připraveni sestavit náš interval spolehlivosti. Začneme odhadem rozdílu mezi proporcemi naší populace. Oba tyto podíly obyvatelstva se odhadují podle podílu vzorku. Tyto proporce vzorků jsou statistiky, které se zjistí vydělením počtu úspěchů v každém vzorku a poté vydělením příslušnou velikostí vzorku.
První podíl populace je označen str1. Pokud je počet úspěchů v našem vzorku z této populace k1, pak máme poměr vzorku k1 / n1.
Tuto statistiku označujeme p̂1. Tento symbol jsme četli jako „p1- „“ protože to vypadá jako symbol p1 s kloboukem nahoře.
Podobným způsobem můžeme vypočítat podíl vzorku z naší druhé populace. Parametr z této populace je str2. Pokud je počet úspěchů v našem vzorku z této populace k2a náš poměr vzorků je p̂2 = k2 / n2.
Tyto dvě statistiky se staly první částí našeho intervalu spolehlivosti. Odhad str1 je p̂1. Odhad str2 je p̂2. Takže odhad rozdílu str1 - str2 je p̂1 - p̂2.
Distribuce vzorkování rozdílu vzorků
Dále musíme získat vzorec pro rozpětí chyb. K tomu budeme nejprve zvážit Distribuce vzorků p̂1 . Toto je binomické rozdělení s pravděpodobností úspěchu str1 a n1 zkoušky. Průměr tohoto rozdělení je poměr str1. Standardní odchylka tohoto typu náhodné proměnné má rozptyl str1 (1 - str1 )/n1.
Distribuce vzorkování p̂2 je podobný jako u p̂1 . Jednoduše změňte všechny indexy z 1 na 2 a máme binomické rozdělení se střední hodnotou p2 a rozptyl str2 (1 - str2 )/n2.
Nyní potřebujeme několik výsledků z matematických statistik, abychom mohli určit distribuci vzorkování p̂1 - p̂2. Průměr této distribuce je str1 - str2. Vzhledem k tomu, že odchylky se sčítají, vidíme, že rozptyl distribuce vzorků je str1 (1 - str1 )/n1 + str2 (1 - str2 )/n2. Standardní odchylka distribuce je druhá odmocnina tohoto vzorce.
Musíme provést několik úprav. První je, že vzorec pro standardní odchylku p̂1 - p̂2 používá neznámé parametry str1 a str2. Pokud bychom tyto hodnoty skutečně znali, pak by to vůbec nebyl zajímavý statistický problém. Nemuseli bychom odhadovat rozdíl mezi str1 a str2.. Místo toho bychom mohli jednoduše spočítat přesný rozdíl.
Tento problém lze vyřešit výpočtem standardní chyby namísto standardní odchylky. Vše, co musíme udělat, je nahradit proporce populace vzorky proporcemi. Standardní chyby se počítají z statistik namísto parametrů. Standardní chyba je užitečná, protože účinně odhaduje standardní odchylku. To pro nás znamená, že už nemusíme znát hodnotu parametrů str1 a str2. .Protože jsou tyto proporce vzorků známé, je standardní chyba dána druhou odmocninou následujícího výrazu:
p̂1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.
Druhou položkou, kterou musíme řešit, je konkrétní forma distribuce vzorků. Ukázalo se, že můžeme použít normální rozdělení k přibližné distribuci vzorkování p̂1 - p̂2. Důvod je poněkud technický, ale je uveden v dalším odstavci.
Oba p̂1 a p̂2 mít distribuci vzorkování, která je binomická. Každá z těchto binomických distribucí může být docela dobře aproximována normální distribucí. Tak p̂1 - p̂2 je náhodná proměnná. Je tvořena jako lineární kombinace dvou náhodných proměnných. Každý z nich je aproximován normálním rozložením. Proto je vzorkovací distribuce p̂1 - p̂2 je také normálně distribuován.
Vzorec intervalu spolehlivosti
Nyní máme vše, co potřebujeme k sestavení našeho intervalu spolehlivosti. Odhad je (p̂1 - p̂2) a míra chyb je z * [p̂1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5. Hodnota, kterou zadáme z * je dána úrovní důvěry C. Běžně používané hodnoty pro z * jsou 1,645 pro 90% spolehlivost a 1,96 pro 95% spolehlivost. Tyto hodnoty pro z * označují část standardního normálního rozdělení tam, kde přesně C procento distribuce je mezi -z * a z *.
Následující vzorec nám dává interval spolehlivosti pro rozdíl dvou proporcí populace:
(str1 - p̂2) +/- z * [p̂1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5