Chebyshevova nerovnost říká, že alespoň 1-1 /K2 údajů ze vzorku musí spadat K standardní odchylky od průměru (zde K je pozitivní reálné číslo větší než jedna).
Jakákoli sada dat, která je normálně distribuována nebo ve tvaru a zvonová křivka, má několik funkcí. Jeden z nich se zabývá šířením dat vzhledem k počtu standardních odchylek od průměru. V normálním rozdělení víme, že 68% dat je jedna standardní odchylka od průměru, 95% jsou dvě standardní odchylky od průměru a přibližně 99% je v rámci tří standardních odchylek od průměru.
Pokud však datová sada není distribuována ve tvaru zvonové křivky, může být v rámci jedné standardní odchylky jiné množství. Chebyshevova nerovnost poskytuje způsob, jak zjistit, do jaké části dat spadá K standardní odchylky od střední hodnoty pro žádný soubor dat.
Fakta o nerovnosti
Rovněž můžeme uvést výše uvedenou nerovnost nahrazením fráze „data ze vzorku“ za rozdělení pravděpodobnosti. Je to proto, že Chebyshevova nerovnost je výsledkem pravděpodobnosti, kterou lze poté aplikovat na statistiky.
Je důležité si uvědomit, že tato nerovnost je výsledek, který byl prokázán matematicky. Není to jako empirický vztah mezi průměrem a režimem, nebo pravidlo palce který spojuje rozsah a standardní odchylku.
Ilustrace nerovnosti
Abychom ilustrovali nerovnost, podíváme se na ni na několik hodnot K:
- Pro K = 2 máme 1 - 1 /K2 = 1 - 1/4 = 3/4 = 75%. Chebyshevova nerovnost tedy říká, že nejméně 75% datových hodnot jakékoli distribuce musí být ve dvou směrodatných odchylkách od střední hodnoty.
- Pro K = 3 máme 1 - 1 /K2 = 1 - 1/9 = 8/9 = 89%. Chebyshevova nerovnost tedy říká, že nejméně 89% datových hodnot jakékoli distribuce musí být v rámci tří standardních odchylek od střední hodnoty.
- Pro K = 4 máme 1 - 1 /K2 = 1 - 1/16 = 15/16 = 93.75%. Chebyshevova nerovnost tedy říká, že nejméně 93,75% datových hodnot jakéhokoli rozdělení musí být ve dvou směrodatných odchylkách od střední hodnoty.
Příklad
Předpokládejme, že jsme odebrali vzorky hmotností psů v místním útulku pro zvířata a zjistili jsme, že náš vzorek má průměr 20 liber se standardní odchylkou 3 libry. S použitím Chebyshevovy nerovnosti víme, že nejméně 75% psů, z nichž jsme odebrali vzorky, má závaží, která jsou dvě standardní odchylky od průměru. Dvojnásobek směrodatné odchylky nám dává 2 x 3 = 6. Odečtěte a přidejte tuto hodnotu od střední hodnoty 20. To nám říká, že 75% psů má hmotnost od 14 liber do 26 liber.
Použití nerovnosti
Pokud víme více o distribuci, se kterou pracujeme, můžeme obvykle zaručit, že více dat je určitý počet standardních odchylek od průměru. Například, pokud víme, že máme normální rozdělení, pak 95% dat jsou dvě standardní odchylky od průměru. Chebyshevova nerovnost říká, že v této situaci to víme alespoň 75% údajů jsou dvě standardní odchylky od průměru. Jak vidíme v tomto případě, mohlo by to být mnohem více než těchto 75%.
Hodnota nerovnosti je, že nám dává scénář „horšího případu“, ve kterém jediné, co víme o našich vzorových datech (nebo rozdělení pravděpodobnosti), je průměr a standardní odchylka. Když o našich datech nevíme nic jiného, Chebyshevova nerovnost poskytuje další vhled do toho, jak rozložená je sada dat.
Dějiny nerovnosti
Nerovnost je pojmenována po ruském matematikovi Pafnuti Chebyshevovi, který poprvé uvedl nerovnost bez důkazu v roce 1874. O deset let později byla nerovnost prokázána Markovem v jeho Ph. D. disertační práce. Kvůli rozdílům v tom, jak reprezentovat ruskou abecedu v angličtině, je Chebyshev také hláskován jako Tchebysheff.