Odlehlé hodnoty jsou hodnoty dat, které se výrazně liší od většiny souboru dat. Tyto hodnoty přesahují celkový trend, který je v datech přítomen. Pečlivé prozkoumání souboru údajů, které mají hledat odlehlé hodnoty, způsobuje určité potíže. Ačkoli je snadno vidět, možná použitím kmene, že některé hodnoty se liší od zbytku dat, kolik rozdílné hodnoty je třeba považovat za odlehlé? Podíváme se na konkrétní měření, které nám poskytne objektivní standard toho, co představuje odlehlé hodnoty.
Rozsah interkvartilní
Rozsah interkvartilní je to, co můžeme použít k určení, zda je extrémní hodnota skutečně odlehlou. Mezikvartilní rozsah je založen na části shrnutí pěti čísel souboru dat, jmenovitě první kvartil a třetí kvartil. Výpočet mezikvartilového rozsahu zahrnuje jednu aritmetickou operaci. Vše, co musíme udělat, abychom našli mezikvartilový rozsah, je odečíst první kvartil od třetího kvartilu. Výsledný rozdíl nám říká, jak je rozprostřena střední polovina našich dat.
Stanovení odlehlých hodnot
Vynásobením mezikvartilového rozsahu (IQR) hodnotou 1,5 nám můžeme určit, zda je určitá hodnota odlehlou hodnotou. Pokud odečteme 1,5 x IQR od prvního kvartilu, budou všechny hodnoty dat, které jsou menší než toto číslo, považovány za odlehlé hodnoty. Podobně, pokud přidáme 1,5 x IQR do třetího kvartilu, budou všechny hodnoty dat, které jsou větší než toto číslo, považovány za odlehlé hodnoty.
Silné odlehlé hodnoty
Někteří odlišení vykazují extrémní odchylku od zbytku datové sady. V těchto případech můžeme podniknout kroky shora, změnit pouze číslo, kterým násobíme IQR, a definovat určitý typ odlehlé hodnoty. Pokud odečteme 3,0 x IQR od prvního kvartilu, jakýkoli bod, který je pod tímto číslem, se nazývá silná odlehlost. Stejně tak přidání 3,0 x IQR do třetího kvartilu nám umožňuje definovat silné odlehlé hodnoty tím, že se podíváme na body, které jsou větší než toto číslo.
Slabé odlehlé hodnoty
Kromě silných odlehlých hodnot existuje i jiná kategorie pro odlehlé hodnoty. Pokud je datová hodnota odlehlá, ale ne silná odlehlá hodnota, pak říkáme, že hodnota je slabá odlehlá hodnota. Na tyto koncepty se podíváme prozkoumáním několika příkladů.
Příklad 1
Nejprve předpokládejme, že máme datovou sadu {1, 2, 2, 3, 3, 4, 5, 5, 9}. Číslo 9 určitě vypadá, že by to mohlo být odlehlé. Je mnohem větší než jakákoli jiná hodnota ze zbytku sady. K objektivnímu určení, zda je 9 odlehlou hodnotou, používáme výše uvedené metody. První kvartil je 2 a třetí kvartil je 5, což znamená, že mezikvartilové rozmezí je 3. Vynásobíme mezikvartilní rozsah 1,5, získáme 4,5 a potom toto číslo přidáme do třetího kvartilu. Výsledek 9,5 je větší než kterákoli z našich datových hodnot. Proto neexistují žádné odlehlé hodnoty.
Příklad 2
Nyní se podíváme na stejný soubor dat jako předtím, s tou výjimkou, že největší hodnota je 10 namísto 9: {1, 2, 2, 3, 3, 4, 5, 5, 10}. První kvartil, třetí kvartil a mezikvartilové rozmezí jsou totožné s příkladem 1. Když do třetího kvartilu přidáme 1,5 x IQR = 4,5, součet je 9,5. Protože 10 je větší než 9,5, je považováno za odlehlé.
Je 10 silný nebo slabý odlehlý? K tomu je třeba se podívat na 3 x IQR = 9. Když přidáme 9 do třetího kvartilu, skončíme součtem 14. Protože 10 není větší než 14, není to silná odlehlost. Docházíme tedy k závěru, že 10 je slabá odlehlost.
Důvody pro identifikaci odlehlých hodnot
Vždy musíme být na pozoru odlehlých. Někdy jsou způsobeny chybou. Jiné časy odlehlých hodnot naznačují přítomnost dříve neznámého jevu. Dalším důvodem, proč musíme být pečliví ohledně kontroly odlehlých hodnot, je kvůli všem deskriptivní statistika které jsou citlivé na odlehlé hodnoty. Průměr, standardní odchylka a korelační koeficient pro spárovaná data jsou jen některé z těchto typů statistik.