Pochopení kvantil: definice a použití

Souhrnné statistiky, jako je medián, první kvartil a třetí kvartil jsou měření polohy. Je to proto, že tato čísla ukazují, kde leží určitá část distribuce dat. Medián je například prostřední polohou vyšetřovaných dat. Polovina údajů má hodnoty menší než střední hodnota. Podobně 25% dat má hodnoty menší než první kvartil a 75% dat má hodnoty menší než třetí kvartil.

Tento koncept lze zobecnit. Jedním ze způsobů, jak toho dosáhnout, je zvážit percentily. 90. percentil označuje bod, ve kterém 90% dat má hodnoty menší než toto číslo. Obecněji řečeno, strpercentil je číslo n pro který str% údajů je menší než n.

Nepřetržité náhodné proměnné

Ačkoli statistiky řádu mediánu, prvního kvartilu a třetího kvartilu jsou obvykle zavedeny v a nastavení s diskrétní sadou dat, lze tyto statistiky definovat také pro souvislou náhodnou proměnná. Protože pracujeme s nepřetržitou distribucí, používáme integrál. strpercentil je číslo n takový, že:

∫_-₶ⁿF ( X ) dx = str/100.

Tady F ( X ) je funkce hustoty pravděpodobnosti. Můžeme tedy získat jakýkoli percentil, který chceme pro nepřetržitý rozdělení.

instagram viewer

Kvantily

Další zobecnění znamená, že naše statistiky objednávek dělí rozdělení, se kterým pracujeme. Medián rozdělí soubor dat na polovinu a medián nebo 50. percentil nepřetržitého rozdělení rozdělí rozdělení na polovinu z hlediska plochy. První kvartil, medián a třetí kvartil rozděluje naše data do čtyř kusů se stejným počtem v každém. Pomocí výše uvedeného integrálu můžeme získat 25., 50. a 75. percentily a rozdělit spojité rozdělení na čtyři části stejné plochy.

Tento postup můžeme zobecnit. Otázka, kterou můžeme začít, je dána přirozeným číslem n, jak můžeme rozdělit distribuci proměnné do n stejně velké kusy? Toto přímo mluví k myšlence kvantilů.

n kvantily pro soubor dat se nacházejí přibližně seřazením dat v pořadí a poté rozdělením tohoto pořadí n - 1 rovnoměrně rozmístěné body v intervalu.

Pokud máme funkci hustoty pravděpodobnosti pro spojitou náhodnou proměnnou, použijeme výše uvedený integrál k nalezení kvantilů. Pro n kvantily, chceme:

První, kdo má 1 /n oblasti distribuce vlevo od ní.
Druhý má 2 /n oblasti distribuce vlevo od ní.
rmít r/n oblasti distribuce vlevo od ní.
Poslední, kdo měl (n - 1)/n oblasti distribuce vlevo od ní.

Vidíme to pro jakékoli přirozené číslo n, n kvantily odpovídají 100r/nty percentily, kde r může být libovolné přirozené číslo od 1 do n - 1.

Běžné kvantily

Některé typy kvantilů se používají dostatečně často, aby měly specifické názvy. Níže je uveden seznam těchto:

Kvant 2 se nazývá medián
Tyto 3 kvantily se nazývají terciály
Čtyři kvantily se nazývají kvartily
Pět kvantilů se nazývá kvintily
Šest kvantilů se nazývá sextily
Sedm kvantilů se nazývá septiles
8 kvantilů se nazývá oktily
10 kvantilů se nazývá deciles
12 kvantilů se nazývá duodecily
20 kvantilů se nazývá vigintily
100 kvantilů se nazývá percentily
1000 kvantilů se nazývá permily

Samozřejmě existují i jiné kvantily než ty, které jsou uvedeny výše. Mnohokrát použitý specifický kvantil odpovídá velikosti vzorku z kontinuální rozdělení.

Použití kvantilu

Kromě určení polohy souboru dat jsou kvantily užitečné i jinými způsoby. Předpokládejme, že máme jednoduchý náhodný vzorek z populace a rozdělení populace není známo. Abychom mohli určit, zda je model, jako je normální rozdělení nebo Weibullova distribuce, vhodný pro populaci, ze které jsme odebrali vzorky, můžeme se podívat na kvantily našich dat a modelu.

Přiřazením kvantil z našich vzorových dat k kvantilům z konkrétní rozdělení pravděpodobnosti, výsledkem je kolekce spárovaných dat. Tato data vyneseme do rozptylu, známého jako kvantile-kvantilní graf nebo q-q plot. Pokud je výsledný rozptyl zhruba lineární, pak je model vhodný pro naše data.