Co je korelace ve statistice?

Někdy jsou numerická data v párech. Možná a paleontolog měří délku stehenní kosti (kosti kostí) a humeru (kostní paže) v pěti fosiliích stejného druhu dinosaura. Může mít smysl uvažovat délky paže odděleně od délek nohou a vypočítat věci, jako je průměr nebo standardní odchylka. Ale co když je vědec zvědavý, jestli existuje vztah mezi těmito dvěma měřeními? Nestačí jen se dívat na paže odděleně od nohou. Místo toho by měl paleontolog spárovat délky kostí pro každou kostru a používat oblast statistika známý jako korelace.

Co je korelace? Ve výše uvedeném příkladu předpokládejte, že výzkumný pracovník studoval data a dosáhl nepříliš překvapivých výsledkem bylo, že fosílie dinosaura s delšími pažemi měly také delší nohy a fosílie s kratšími pažemi kratší nohy. Rozptyl dat ukázal, že všechny datové body byly seskupeny poblíž přímky. Výzkumník by pak řekl, že existuje silný přímý vztah, nebo korelace, mezi délkami kostí paží a kostí nohou zkamenělin. Vyžaduje další práci, aby bylo možné říci, jak silná korelace je.

instagram viewer

Korelace a rozptyl

Protože každý datový bod představuje dvě čísla, je dvourozměrný rozptyl skvělou pomocí při vizualizaci dat. Předpokládejme, že vlastně máme ruce na datech dinosaura a pět fosílií má následující měření:

Femur 50 cm, humerus 41 cm
Femur 57 cm, humerus 61 cm
Femur 61 cm, humerus 71 cm
Femur 66 cm, humerus 70 cm
Femur 75 cm, humerus 82 cm

Výsledkem výše uvedeného grafu je rozptyl dat s měřením stehenní kosti ve vodorovném směru a měřením humeru ve svislém směru. Každý bod představuje měření jedné z koster. Například bod vlevo dole odpovídá kostře č. 1. Bod v pravém horním rohu je kostra # 5.

Vypadá to, že bychom mohli nakreslit přímku, která by byla velmi blízko ke všem bodům. Jak ale můžeme s jistotou říct? Blízkost je v oku pozorovatele. Jak víme, že naše definice „blízkosti“ se shodují s někým jiným? Existuje nějaký způsob, jak bychom mohli kvantifikovat tuto blízkost?

Korelační koeficient

K objektivnímu měření toho, jak blízko mají být data podél přímky, dojde k záchraně korelační koeficient. korelační koeficient, obvykle označované r, je skutečné číslo mezi -1 a 1. Hodnota r měří sílu korelace na základě vzorce a vylučuje jakoukoli subjektivitu v procesu. Při interpretaci hodnoty je třeba mít na paměti několik pokynů r.

Li r = 0, pak body jsou úplné smíchání s absolutně žádným přímočarým vztahem mezi daty.
Li r = -1 nebo r = 1, pak se všechny datové body dokonale zarovnají na řádku.
Li r je hodnota jiná než tyto extrémy, výsledkem je méně než dokonalé přizpůsobení přímky. V souborech dat v reálném světě je to nejběžnější výsledek.
Li r je pozitivní, pak linka stoupá s a pozitivní sklon. Li r je záporná, pak čára klesá s negativním sklonem.

Výpočet korelačního koeficientu

Vzorec pro korelační koeficient r jak je vidět zde. Složky vzorce jsou průměrné a standardní odchylky obou sad číselných dat a také počet datových bodů. Pro většinu praktických aplikací r je únavné počítat ručně. Pokud byla naše data zadána do kalkulačky nebo tabulkového procesoru pomocí statistické příkazy, pak je obvykle k dispozici integrovaná funkce r.

Omezení korelace

Ačkoli korelace je mocným nástrojem, její použití je omezeno:

Korelace nám neříká úplně všechno o datech. Prostředky a standardní odchylky jsou i nadále důležité.
Data mohou být popsána křivkou složitější než přímka, ale to se ve výpočtu r.
Odlehlé hodnoty silně ovlivňují korelační koeficient. Pokud v našich údajích vidíme nějaké odlehlé hodnoty, měli bychom být opatrní, jaké závěry vyvodíme z hodnoty r.
Jen proto, že jsou korelovány dvě sady dat, neznamená to, že jedna je způsobit na druhé straně.