Je to půlnoční představení nejnovějšího hitového filmu. Lidé jsou seřazeni před divadlem a čekají na vstup. Předpokládejme, že jste požádáni o nalezení středu linky. Jak bys to udělal?
Existuje několik různých způsobů, jak jít řešení tohoto problému. Nakonec byste museli zjistit, kolik lidí bylo v řadě, a pak vzít polovinu z tohoto počtu. Pokud je celkový počet sudý, bude střed linky mezi dvěma lidmi. Pokud je celkový počet lichý, bude centrem jedna osoba.
Můžete se zeptat: „Co má společného nalezení středu čáry statistika„Tato myšlenka nalezení centra je přesně to, co se používá při výpočtu mediánu souboru dat.
Co je medián?
Medián je jedním ze tří primárních způsobů, jak zjistit průměr statistická data. To je těžší vypočítat než režim, ale ne jak pracný jako výpočet střední hodnoty. Je to centrum v podstatě stejným způsobem jako nalezení středu řady lidí. Po uvedení datových hodnot ve vzestupném pořadí je medián datová hodnota se stejným počtem datových hodnot nad ní a pod ní.
Případ 1: Zvláštní počet hodnot
Jedenáct baterií je testováno, aby se zjistilo, jak dlouho vydrží. Jejich životnost v hodinách je dána 10, 99, 100, 103, 103, 105, 110, 111, 115, 130, 131. Jaká je střední délka života? Protože existuje lichý počet hodnot dat, odpovídá to řádek s lichým počtem lidí. Střed bude střední hodnotou.
Existuje jedenáct datových hodnot, takže šestá je ve středu. Střední životnost baterie je tedy šestou hodnotou v tomto seznamu nebo 105 hodin. Mějte na paměti, že střední hodnota je jednou z hodnot dat.
Případ dva: sudý počet hodnot
Váží se dvacet koček. Jejich hmotnosti v librách jsou dány 4, 5, 5, 5, 5, 6, 6, 6, 7, 7, 7, 8, 8, 9, 10, 10, 10, 11, 12, 12, 13. Jaká je střední hmotnost koček? Protože existuje sudý počet datových hodnot, odpovídá tomu řádek se sudým počtem lidí. Střed leží mezi dvěma středními hodnotami.
V tomto případě je střed mezi desátými a jedenáctými datovými hodnotami. Pro nalezení střední hodnoty vypočítáme průměr těchto dvou hodnot a získáme (7 + 8) / 2 = 7,5. Zde není medián jednou z datových hodnot.
Nějaké další případy?
Pouze dvě možnosti mají mít sudý nebo lichý počet datových hodnot. Výše uvedené dva příklady jsou tedy jediným možným způsobem výpočtu mediánu. Střední hodnota bude buď střední, nebo střední z obou střední hodnoty. Soubory dat jsou obvykle mnohem větší než ty, na které jsme se dívali výše, ale proces nalezení mediánu je stejný jako tyto dva příklady.
Vliv odlehlých hodnot
Průměr a režim jsou vysoce citlivé na odlehlé hodnoty. To znamená, že přítomnost odlehlé hodnoty dramaticky ovlivní obě tato opatření centra. Jednou výhodou mediánu je, že není ovlivňován tolik odlehlou hodnotou.
Chcete-li to vidět, zvažte sadu dat 3, 4, 5, 5, 6. Průměr je (3 + 4 + 5 + 5 + 6) / 5 = 4,6 a střední hodnota je 5. Nyní ponechejte stejný soubor dat, ale přidejte hodnotu 100: 3, 4, 5, 5, 6, 100. 100 je zjevně odlehlé, protože je mnohem větší než všechny ostatní hodnoty. Průměr nové sady je nyní (3 + 4 + 5 + 5 + 6 + 100) / 6 = 20,5. Nicméně, medián nové sady je 5. Ačkoliv
Aplikace mediánu
Vzhledem k tomu, co jsme viděli výše, je mediánem preferovaná míra průměru, když data obsahují odlehlé hodnoty. Při vykazování příjmů je typickým přístupem vykazování průměrného příjmu. To se děje proto, že průměrný příjem je zkreslen malým počtem lidí s velmi vysokými příjmy (myslím Bill Gates a Oprah).