Statistické vzorkování se ve statistikách používá poměrně často. V tomto procesu se snažíme určit něco o populaci. Protože populace jsou obvykle velké, vytváříme statistický vzorek výběrem podmnožiny populace, která má předem stanovenou velikost. Studiem vzorku můžeme pomocí inferenčních statistik určit něco o populaci.
Statistický vzorek velikosti n zahrnuje jednu skupinu n jednotlivci nebo subjekty, které byly náhodně vybrány z populace. S konceptem statistického vzorku úzce souvisí rozložení vzorkování.
Původ distribuce vzorků
Distribuce vzorků probíhá, když vytváříme více než jednu jednoduchý náhodný vzorek stejné velikosti z dané populace. Tyto vzorky jsou považovány za vzájemně nezávislé. Takže pokud je jednotlivec v jednom vzorku, pak má stejnou pravděpodobnost, že bude v dalším vzorku, který je odebrán.
Vypočítáme konkrétní statistiku pro každý vzorek. To by mohl být vzorek znamenat, rozptyl vzorku nebo poměr vzorku. Protože statistika závisí na vzorku, který máme, každý vzorek obvykle vytvoří jinou hodnotu pro statistiku zájmu. Rozsah hodnot, které byly vytvořeny, nám dává naši distribuci vzorků.
Distribuce vzorkování pro prostředky
Například vezmeme v úvahu rozložení vzorků pro střední hodnotu. Průměr populace je parametr, který je obvykle neznámý. Vybereme-li vzorek o velikosti 100, pak se průměr tohoto vzorku snadno spočítá součtem všech hodnot a poté vydělením celkovým počtem datových bodů, v tomto případě 100. Jeden vzorek velikosti 100 nám může poskytnout průměr 50. Jiný takový vzorek může mít průměr 49. Dalších 51 a další vzorek mohly mít průměr 50,5.
Distribuce těchto vzorků znamená distribuci vzorků. Chtěli bychom zvážit více než jen čtyři ukázkové prostředky, jak jsme to udělali výše. S několika dalšími vzorky znamená, že bychom měli dobrou představu o tvaru distribuce vzorků.
Proč nám záleží?
Distribuce vzorků se může zdát docela abstraktní a teoretická. Jejich používání však má některé velmi důležité důsledky. Jednou z hlavních výhod je to, že eliminujeme variabilitu, která existuje ve statistice.
Předpokládejme například, že začneme s populací se střední hodnotou μ a směrodatnou odchylkou σ. Směrodatná odchylka nám poskytuje měření toho, jak je distribuce rozložena. Porovnáme to s distribucí vzorkování získanou vytvořením jednoduchých náhodných vzorků velikosti n. Distribuce vzorkování střední hodnoty bude mít stále střední hodnotu μ, ale standardní odchylka je jiná. Standardní odchylka pro distribuci vzorkování se stává σ / √ n.
Máme tedy následující
- Velikost vzorku 4 nám umožňuje distribuci vzorkování se standardní odchylkou σ / 2.
- Velikost vzorku 9 nám umožňuje distribuci vzorkování se standardní odchylkou σ / 3.
- Velikost vzorku 25 nám umožňuje distribuci vzorkování se standardní odchylkou σ / 5.
- Velikost vzorku 100 nám umožňuje distribuci vzorkování se standardní odchylkou σ / 10.
V praxi
V praxi statistik zřídka vytváříme distribuce vzorků. Místo toho zacházíme se statistikami odvozenými z jednoduchého náhodného vzorku velikosti n jako by byly jedním bodem podél odpovídajícího rozdělení vzorkování. To opět zdůrazňuje, proč chceme mít relativně velké velikosti vzorků. Čím větší je velikost vzorku, tím menší variace získáme v naší statistice.
Všimněte si, že kromě středu a šíření nemůžeme říci nic o tvaru našeho rozdělení vzorků. Ukazuje se, že za některých poměrně širokých podmínek, Teorém centrálního limitu lze použít, aby nám řekli něco docela úžasného o tvaru distribuce vzorků.