Jak najít vnitřní a vnější ploty

click fraud protection

Jednou z vlastností datové sady, která je důležitá pro určení, je, zda obsahuje nějaké odlehlé hodnoty. Odlehlé hodnoty jsou intuitivně považovány za hodnoty v naší sadě dat, které se výrazně liší od většiny ostatních dat. Toto pochopení odlehlých hodnot je samozřejmě nejednoznačné. Kolik by se hodnota měla odchylovat od zbytku dat, aby byla považována za odlehlou hodnotu? Je to, co jeden vědec nazývá mimozemšťanem, aby odpovídalo druhému? Abychom zajistili určitou konzistenci a kvantitativní měřítko pro stanovení odlehlých hodnot, používáme vnitřní a vnější ploty.

K nalezení vnitřního a vnějšího plotu souboru dat potřebujeme nejprve několik dalších deskriptivní statistika. Začneme výpočtem kvartilů. To povede k mezikvartilovému rozsahu. Nakonec, s těmito výpočty za námi, budeme schopni určit vnitřní a vnější ploty.

Kvartily

první a třetí kvartily jsou součástí shrnutí pěti čísel jakéhokoli souboru kvantitativních údajů. Začneme tím, že najdeme střední nebo střední bod dat poté, co jsou všechny hodnoty seřazeny vzestupně. Hodnoty menší než střední hodnota odpovídající zhruba polovině údajů. Najdeme střední hodnotu této poloviny datové sady a toto je první kvartil.

instagram viewer

Podobně nyní uvažujeme horní polovinu datové sady. Pokud najdeme střední hodnotu pro tuto polovinu dat, máme třetí kvartily. Tyto kvartily dostanou své jméno na základě skutečnosti, že rozdělily soubor dat na čtyři stejně velké části nebo čtvrtiny. Jinými slovy, zhruba 25% všech datových hodnot je méně než první kvartil. Podobně je přibližně 75% datových hodnot menší než třetí kvartil.

Rozsah interkvartilní

Dále musíme najít Rozsah interkvartilní (IQR). To se snáze vypočítá než první kvartil q1 a třetí kvartil q3. Musíme jen udělat rozdíl mezi těmito dvěma kvartily. To nám dává vzorec:

IQR = Q3 - Q1

IQR nám říká, jak je rozprostřena střední polovina naší sady dat.

Najděte vnitřní ploty

Nyní můžeme najít vnitřní ploty. Začneme IQR a vynásobíme toto číslo 1,5. Potom odečteme toto číslo od prvního kvartilu. Toto číslo také přidáváme do třetího kvartilu. Tato dvě čísla tvoří náš vnitřní plot.

Najděte vnější ploty

U vnějších plotů začínáme IQR a toto číslo vynásobíme 3. Poté odečteme toto číslo od prvního kvartilu a přidáme jej do třetího kvartilu. Tato dvě čísla jsou naše vnější ploty.

Detekce odlehlých hodnot

Detekce odlehlé hodnoty Nyní se stává stejně snadné jako určení, kde leží datové hodnoty ve vztahu k našemu vnitřnímu a vnějšímu plotu. Pokud je jediná hodnota dat extrémnější než kterýkoli z našich vnějších plotů, jedná se o odlehlou hodnotu a někdy se označuje jako silná odlehlá hodnota. Pokud je naše datová hodnota mezi odpovídajícím vnitřním a vnějším plotem, pak je tato hodnota podezřelá odlehlá hodnota nebo mírná odlehlá hodnota. Uvidíme, jak to funguje s níže uvedeným příkladem.

Příklad

Předpokládejme, že jsme vypočítali první a třetí kvartil našich dat a tyto hodnoty jsme našli na 50, respektive 60. Mezikvartilové rozmezí IQR = 60 - 50 = 10. Dále vidíme, že 1,5 x IQR = 15. To znamená, že vnitřní ploty jsou na 50 - 15 = 35 a 60 + 15 = 75. To je 1,5 x IQR menší než první kvartil a více než třetí kvartil.

Nyní vypočítáme 3 x IQR a vidíme, že to je 3 x 10 = 30. Vnější ploty jsou 3 x IQR extrémnější než první a třetí kvartily. To znamená, že vnější ploty jsou 50 - 30 = 20 a 60 + 30 = 90.

Všechny hodnoty dat, které jsou menší než 20 nebo vyšší než 90, jsou považovány za odlehlé hodnoty. Jakékoli hodnoty dat, které jsou mezi 29 a 35 nebo mezi 75 a 90, jsou podezřelé odlehlé hodnoty.

instagram story viewer