Inferenční statistiky získá své jméno podle toho, co se děje v této oblasti statistiky. Spíše než jednoduše popsat soubor dat se inferenciální statistiky snaží odvodit něco o populaci na základě a statistický vzorek. Jedním konkrétním cílem inferenční statistiky je stanovení hodnoty neznámé populace parametr. Rozsah hodnot, které používáme k odhadu tohoto parametru, se nazývá interval spolehlivosti.
Forma intervalu spolehlivosti
Interval spolehlivosti se skládá ze dvou částí. První část je odhad parametru populace. Tento odhad získáme pomocí a jednoduchý náhodný vzorek. Z tohoto vzorku vypočítáme statistiku, která odpovídá parametru, který chceme odhadnout. Pokud bychom například měli zájem o průměrnou výšku všech studentů první třídy ve Spojených státech, měli bychom použijte jednoduchý náhodný vzorek amerických srovnávačů, změřte je všechny a poté spočítejte střední výšku našich vzorek.
Druhou částí intervalu spolehlivosti je rozpětí chyb. Je to nutné, protože náš odhad se může lišit od skutečné hodnoty parametru populace. Abychom mohli zohlednit další potenciální hodnoty parametru, musíme vytvořit rozsah čísel. Míra chyby to činí a každý interval spolehlivosti má následující podobu:
Odhad ± rozpětí chyby
Odhad je ve středu intervalu a pak od tohoto odhadu odečteme a přidáme meze chyby, abychom získali rozsah hodnot pro parametr.
Úroveň spolehlivosti
Ke každému intervalu spolehlivosti je připojena úroveň spolehlivosti. Toto je pravděpodobnost nebo procento, které ukazuje, jak velkou jistotu bychom měli připsat našemu intervalu spolehlivosti. Pokud jsou všechny ostatní aspekty situace identické, čím vyšší je úroveň spolehlivosti, tím větší je interval spolehlivosti.
Tato úroveň důvěry může vést k určitému zmatku. Nejedná se o prohlášení o postupu odběru vzorků ani o populaci. Namísto toho ukazuje na úspěch procesu výstavby intervalu spolehlivosti. Například intervaly spolehlivosti s 80% jistotou budou z dlouhodobého hlediska chybět skutečný parametr populace jeden z každých pětkrát.
Teoreticky lze pro úroveň spolehlivosti použít libovolné číslo od nuly do jedné. V praxi je 90 procent, 95 procent a 99 procent obvyklá úroveň spolehlivosti.
Rozpětí chyby
Rozpětí chyby úrovně spolehlivosti je určeno několika faktory. Vidíme to zkoumáním vzorce pro meze chyb. Okraj chyby je ve tvaru:
Rozpětí chyby = (statistika pro úroveň spolehlivosti) * (standardní odchylka / chyba)
Statistiky úrovně spolehlivosti závisí na tom, co rozdělení pravděpodobnosti se používá a jakou úroveň důvěry jsme si vybrali. Například, pokud Cje naše úroveň důvěry a pracujeme s normální distribuce, pak C je plocha pod křivkou mezi -z* na z*. Tohle číslo z* je číslo v našem vzorci chyby.
Standardní odchylka nebo standardní chyba
Dalším pojmem nezbytným pro naši chybu je standardní odchylka nebo standardní chyba. Zde se dává přednost standardní odchylce distribuce, se kterou pracujeme. Obvykle však parametry z populace nejsou známy. Toto číslo obvykle není k dispozici při vytváření intervalů spolehlivosti v praxi.
K vyřešení této nejistoty při poznání standardní odchylky místo toho používáme standardní chybu. Standardní chyba, která odpovídá standardní odchylce, je odhad této standardní odchylky. To, co dělá standardní chybu tak silnou, je to, že se počítá z jednoduchého náhodného vzorku, který se používá k výpočtu našeho odhadu. Žádné další informace nejsou nutné, protože vzorek pro nás provádí všechny odhady.
Různé intervaly spolehlivosti
Existuje celá řada různých situací, které vyžadují intervaly spolehlivosti. Tyto intervaly spolehlivosti se používají k odhadu řady různých parametrů. Přestože jsou tyto aspekty odlišné, všechny tyto intervaly spolehlivosti jsou spojeny stejným celkovým formátem. Některé běžné intervaly spolehlivosti jsou intervaly pro průměr populace, rozptyl populace, poměr populace, rozdíl dvou průměrů populace a rozdíl dvou poměrů populace.