medián souboru dat je středový bod, kde přesně polovina hodnot dat je menší nebo rovna střední hodnotě. Podobným způsobem můžeme uvažovat o mediánu a nepřetržitýrozdělení pravděpodobnosti, ale místo nalezení střední hodnoty v sadě dat najdeme střed distribuce jiným způsobem.
Celková plocha pod funkcí hustoty pravděpodobnosti je 1, což představuje 100%, a v důsledku toho může být polovina z toho představována polovinou nebo 50 procenty. Jednou z velkých myšlenek matematické statistiky je, že pravděpodobnost je reprezentována oblastí pod křivkou hustotní funkce, která je počítána integrálem, a tedy medián kontinuální distribuce je bodem reálné číslo čára, kde přesně polovina plochy leží vlevo.
Toto může být stručně řečeno následujícím nesprávným integrálem. Medián spojité náhodné proměnné X s funkcí hustoty F( X) je hodnota M taková, že:
0.5=∫m−∞F(X)dX
Medián pro exponenciální distribuci
Nyní vypočítáme střední hodnotu exponenciálního rozdělení Exp (A). Náhodná proměnná s touto distribucí má funkci hustoty
F(X) = E-X/A/ A pro X jakékoli nezáporné reálné číslo. Funkce také obsahuje matematická konstanta E, přibližně rovné 2,71828.Protože funkce hustoty pravděpodobnosti je pro jakoukoli zápornou hodnotu nula X, vše, co musíme udělat, je integrovat následující a vyřešit pro M:
0,5 = ~ 0M f (x) dx
Od integrálu ∫ E-X/A/ A dX = -E-X/AVýsledkem je, že
0,5 = -e-M / A + 1
To znamená, že 0,5 = E-M / A a po převzetí přirozeného logaritmu na obou stranách rovnice máme:
ln (1/2) = -M / A
Protože 1/2 = 2-1, podle vlastností logaritmů píšeme:
- ln2 = -M / A
Vynásobením obou stran A je výsledek, že střední hodnota M = A ln2.
Střední nerovnost ve statistice
Je třeba uvést jeden důsledek tohoto výsledku: průměr exponenciálního rozdělení Exp (A) je A a protože ln2 je menší než 1, vyplývá z toho, že produkt Aln2 je menší než A. To znamená, že medián exponenciálního rozdělení je menší než průměr.
To dává smysl, pokud uvažujeme o grafu funkce hustoty pravděpodobnosti. Kvůli dlouhému ocasu je toto rozdělení nakloněno doprava. Mnohokrát, když je distribuce zkosená doprava, střední hodnota je napravo od mediánu.
Co to znamená ve statistické analýze, je to, že můžeme často předpovídat, že střední hodnota a medián nejsou přímo korelovat vzhledem k pravděpodobnosti, že data jsou zkosena doprava, což lze vyjádřit jako průkaz střední střední nerovnosti známý jako Chebyshevova nerovnost.
Jako příklad lze uvést datový soubor, který předpokládá, že osoba obdrží celkem 30 návštěvníků za 10 hodin, přičemž průměrná doba čekání na návštěvníka je 20 minut, zatímco soubor údajů může představovat, že střední doba čekání by byla někde mezi 20 a 30 minutami, kdyby více než polovina těchto návštěvníků přišla v prvních pěti hodin.