Interval spolehlivosti pro poměr populace

Intervaly spolehlivosti lze použít k odhadu několika populací parametry. Jeden typ parametru, který lze odhadnout pomocí inferenciální statistika je podíl populace. Například bychom mohli chtít znát procento populace v USA, která podporuje určitý právní předpis. U tohoto typu otázky musíme najít interval spolehlivosti.

V tomto článku se podíváme, jak zkonstruovat interval spolehlivosti pro poměr populace, a prozkoumat některé teorie za tím.

Celkový rámec

Nejprve se podíváme na celkový obrázek, než se dostaneme ke specifikům. Typ intervalu spolehlivosti, který vezmeme v úvahu, je následující formy:

Odhad +/- Rozpětí chyby

To znamená, že existují dvě čísla, která budeme muset určit. Tyto hodnoty jsou odhadem požadovaného parametru spolu s mírou chyby.

Podmínky

Před provedením jakéhokoli statistického testu nebo postupu je důležité se ujistit, že jsou splněny všechny podmínky. Pro interval spolehlivosti pro poměr populace je třeba zajistit, aby následující:

  • Máme jednoduchý náhodný vzorek velikosti n od velké populace
  • instagram viewer
  • Naši jednotlivci byli vybráni nezávisle na sobě.
  • V našem vzorku je nejméně 15 úspěchů a 15 selhání.

Pokud není poslední položka uspokojena, může být možné náš vzorek mírně upravit a použít a plus-čtyři interval spolehlivosti. V následujícím textu budeme předpokládat, že byly splněny všechny výše uvedené podmínky.

Vzorové a populační proporce

Začneme odhadem podílu naší populace. Stejně jako používáme průměrný vzorek pro odhad průměrného počtu obyvatel, použijeme pro odhad podílu populace poměr vzorku. Podíl populace je neznámý parametr. Poměr vzorku je statistika. Tato statistika se zjistí spočtením počtu úspěchů v našem vzorku a poté vydělením celkovým počtem jednotlivců ve vzorku.

Podíl populace je označen str a je samozřejmý. Zápis podílu vzorku je o něco více zapojen. Označíme poměr vzorku jako p̂ a tento symbol čteme jako „p-hat“, protože to vypadá jako dopis str s kloboukem nahoře.

Toto se stává první částí našeho intervalu spolehlivosti. Odhad p je p̂.

Distribuce vzorkování podílu vzorku

Abychom určili vzorec pro chybu, musíme myslet na Distribuce vzorků p̂. Budeme potřebovat znát průměr, standardní odchylku a konkrétní rozdělení, se kterým pracujeme.

Vzorkovací distribuce p̂ je binomické rozdělení s pravděpodobností úspěchu str a n zkoušky. Tento typ náhodné proměnné má střední hodnotu str a směrodatná odchylka (str(1 - str)/n)0.5. S tím jsou dva problémy.

Prvním problémem je, že s binomickým rozdělením může být velmi obtížné pracovat. Přítomnost faktoriálů může vést k velmi velkému počtu. Zde nám podmínky pomáhají. Dokud jsou splněny naše podmínky, můžeme odhadnout binomické rozdělení se standardní normální distribucí.

Druhým problémem je, že se používá standardní odchylka p̂ str ve své definici. Neznámý parametr populace se odhadne pomocí stejného parametru jako rozpětí chyby. Toto kruhové zdůvodnění je problém, který je třeba opravit.

Cesta z tohoto hlavolamu je nahradit standardní odchylku standardní chybou. Standardní chyby jsou založeny na statistikách, nikoli na parametrech. Pro odhad standardní odchylky se používá standardní chyba. Tato strategie se vyplatí, protože už nemusíme znát hodnotu parametru str.

Vzorec

Chcete-li použít standardní chybu, nahradíme neznámý parametr str se statistikou p̂. Výsledkem je následující vzorec pro interval spolehlivosti pro poměr populace:

p̂ +/- z * (p̂ (1 - p̂) /n)0.5.

Zde je hodnota z * je určována naší úrovní důvěry C. Pro standardní normální rozdělení přesně C procento standardní normální distribuce je mezi -z * a z *. Společné hodnoty pro z * zahrnují 1,645 pro 90% spolehlivost a 1,96 pro 95% spolehlivost.

Příklad

Podívejme se, jak tato metoda funguje s příkladem. Předpokládejme, že chceme s 95% jistotou znát procento voličů v kraji, který se identifikuje jako demokrat. V tomto kraji provedeme jednoduchý náhodný vzorek 100 lidí a zjistíme, že 64 z nich se identifikuje jako demokrat.

Vidíme, že jsou splněny všechny podmínky. Odhad podílu naší populace je 64/100 = 0,64. Toto je hodnota poměru vzorku p̂ a je středem našeho intervalu spolehlivosti.

Rozpětí chyby se skládá ze dvou kusů. První je z*. Jak jsme řekli, pro 95% důvěru je hodnota z* = 1.96.

Druhá část rozpětí chyby je dána vzorcem (p̂ (1 - p̂) /n)0.5. Nastavili jsme p̂ = 0,64 a vypočítali = standardní chyba, která má být (0,64 (0,36) / 100)0.5 = 0.048.

Vynásobíme tato dvě čísla dohromady a dostaneme chybu 0,09408. Konečný výsledek je:

0.64 +/- 0.09408,

nebo to můžeme přepsat jako 54,592% na 73,408%. Jsme si tedy 95% přesvědčeni, že skutečný podíl obyvatel demokratů je někde v rozmezí těchto procent. To znamená, že v dlouhodobém horizontu bude naše technika a vzorec zachycovat podíl populace 95% času.

Související nápady

S tímto typem intervalu spolehlivosti je spojeno mnoho nápadů a témat. Mohli bychom například provést test hypotéz vztahující se k hodnotě podílu populace. Mohli bychom také porovnat dva proporce ze dvou různých populací.