Souhrnné statistiky, jako je medián, první kvartil a třetí kvartil jsou měření polohy. Je to proto, že tato čísla ukazují, kde leží určitá část distribuce dat. Medián je například prostřední polohou vyšetřovaných dat. Polovina údajů má hodnoty menší než střední hodnota. Podobně 25% dat má hodnoty menší než první kvartil a 75% dat má hodnoty menší než třetí kvartil.
Tento koncept lze zobecnit. Jedním ze způsobů, jak toho dosáhnout, je zvážit percentily. 90. percentil označuje bod, ve kterém 90% dat má hodnoty menší než toto číslo. Obecněji řečeno, strpercentil je číslo n pro který str% údajů je menší než n.
Nepřetržité náhodné proměnné
Ačkoli statistiky řádu mediánu, prvního kvartilu a třetího kvartilu jsou obvykle zavedeny v a nastavení s diskrétní sadou dat, lze tyto statistiky definovat také pro souvislou náhodnou proměnná. Protože pracujeme s nepřetržitou distribucí, používáme integrál. strpercentil je číslo n takový, že:
∫-₶nF ( X ) dx = str/100.
Tady F ( X ) je funkce hustoty pravděpodobnosti. Můžeme tedy získat jakýkoli percentil, který chceme pro nepřetržitý rozdělení.
Kvantily
Další zobecnění znamená, že naše statistiky objednávek dělí rozdělení, se kterým pracujeme. Medián rozdělí soubor dat na polovinu a medián nebo 50. percentil nepřetržitého rozdělení rozdělí rozdělení na polovinu z hlediska plochy. První kvartil, medián a třetí kvartil rozděluje naše data do čtyř kusů se stejným počtem v každém. Pomocí výše uvedeného integrálu můžeme získat 25., 50. a 75. percentily a rozdělit spojité rozdělení na čtyři části stejné plochy.
Tento postup můžeme zobecnit. Otázka, kterou můžeme začít, je dána přirozeným číslem n, jak můžeme rozdělit distribuci proměnné do n stejně velké kusy? Toto přímo mluví k myšlence kvantilů.
n kvantily pro soubor dat se nacházejí přibližně seřazením dat v pořadí a poté rozdělením tohoto pořadí n - 1 rovnoměrně rozmístěné body v intervalu.
Pokud máme funkci hustoty pravděpodobnosti pro spojitou náhodnou proměnnou, použijeme výše uvedený integrál k nalezení kvantilů. Pro n kvantily, chceme:
- První, kdo má 1 /n oblasti distribuce vlevo od ní.
- Druhý má 2 /n oblasti distribuce vlevo od ní.
- rmít r/n oblasti distribuce vlevo od ní.
- Poslední, kdo měl (n - 1)/n oblasti distribuce vlevo od ní.
Vidíme to pro jakékoli přirozené číslo n, n kvantily odpovídají 100r/nty percentily, kde r může být libovolné přirozené číslo od 1 do n - 1.
Běžné kvantily
Některé typy kvantilů se používají dostatečně často, aby měly specifické názvy. Níže je uveden seznam těchto:
- Kvant 2 se nazývá medián
- Tyto 3 kvantily se nazývají terciály
- Čtyři kvantily se nazývají kvartily
- Pět kvantilů se nazývá kvintily
- Šest kvantilů se nazývá sextily
- Sedm kvantilů se nazývá septiles
- 8 kvantilů se nazývá oktily
- 10 kvantilů se nazývá deciles
- 12 kvantilů se nazývá duodecily
- 20 kvantilů se nazývá vigintily
- 100 kvantilů se nazývá percentily
- 1000 kvantilů se nazývá permily
Samozřejmě existují i jiné kvantily než ty, které jsou uvedeny výše. Mnohokrát použitý specifický kvantil odpovídá velikosti vzorku z kontinuální rozdělení.
Použití kvantilu
Kromě určení polohy souboru dat jsou kvantily užitečné i jinými způsoby. Předpokládejme, že máme jednoduchý náhodný vzorek z populace a rozdělení populace není známo. Abychom mohli určit, zda je model, jako je normální rozdělení nebo Weibullova distribuce, vhodný pro populaci, ze které jsme odebrali vzorky, můžeme se podívat na kvantily našich dat a modelu.
Přiřazením kvantil z našich vzorových dat k kvantilům z konkrétní rozdělení pravděpodobnosti, výsledkem je kolekce spárovaných dat. Tato data vyneseme do rozptylu, známého jako kvantile-kvantilní graf nebo q-q plot. Pokud je výsledný rozptyl zhruba lineární, pak je model vhodný pro naše data.