Jak vypočítat koeficient korelace

click fraud protection

Při pohledu na rozptyl je mnoho otázek. Jeden z nejčastějších je přemýšlel, jak dobře se rovná data aproximuje. K odpovědi na tuto otázku existuje popisná statistika nazvaná korelační koeficient. Uvidíme, jak vypočítat tuto statistiku.

Korelační koeficient

korelační koeficient, označeno r, řekne nám, jak blízko jsou údaje v bodový diagram padat podél přímky. Čím blíž absolutní hodnota z r je jedna, tím lepší je, že data jsou popsána lineární rovnicí. Li r = 1 nebo r = -1 pak je datová sada dokonale zarovnána. Datové sady s hodnotami r blízko nuly ukazují malý až žádný přímý vztah.

Vzhledem k dlouhým výpočtům je nejlepší vypočítat r s použitím kalkulačky nebo statistického softwaru. Vždy však stojí za to vědět, co kalkulačka dělá, když počítá. Následuje postup pro výpočet korelačního koeficientu hlavně ručně, s kalkulačkou používanou pro rutinní aritmetické kroky.

Kroky pro výpočet r

Začneme se seznamem kroků k výpočtu korelačního koeficientu. Data, se kterými pracujeme, jsou spárovaná data, z nichž každý bude označen (Xi, yi).

instagram viewer
  1. Začneme několika předběžnými výpočty. Množství z těchto výpočtů budou použita v následných krocích našeho výpočtu r:
    1. Vypočítejte x̄, znamenat všech prvních souřadnic dat Xi.
    2. Vypočítat ȳ, průměr všech druhých souřadnic dat
    3. yi.
    4. Vypočítat s X vzorek standardní odchylka všech prvních souřadnic dat Xi.
    5. Vypočítat s y vzorová standardní odchylka všech druhých souřadnic dat yi.
  2. Použijte vzorec (zX)i = (Xi - X) / s X a vypočítat pro každou z nich standardizovanou hodnotu Xi.
  3. Použijte vzorec (zy)i = (yi – ȳ) / s y a vypočítat pro každou z nich standardizovanou hodnotu yi.
  4. Násobné odpovídající standardizované hodnoty: (zX)i(zy)i
  5. Přidejte produkty z posledního kroku společně.
  6. Vydělte částku z předchozího kroku n - 1, kde n je celkový počet bodů v naší sadě párovaných dat. Výsledkem toho všeho je korelační koeficient r.

Tento proces není obtížný a každý krok je poměrně rutinní, ale shromažďování všech těchto kroků je docela zapojeno. Výpočet směrodatné odchylky je sám o sobě dost únavný. Výpočet korelačního koeficientu však zahrnuje nejen dvě standardní odchylky, ale řadu dalších operací.

Příklad

Chcete-li přesně vidět, jak hodnota r je získáno, podíváme se na příklad. Opět je důležité si uvědomit, že pro praktické aplikace bychom pro výpočet chtěli použít naši kalkulačku nebo statistický software r pro nás.

Začneme výpisem párovaných dat: (1, 1), (2, 3), (4, 5), (5,7). Průměr z X hodnoty, průměr 1, 2, 4 a 5 je x = 3. Máme také, že ȳ = 4. Standardní odchylka

X hodnoty jsou sX = 1,83 a sy = 2.58. Následující tabulka shrnuje další výpočty potřebné pro r. Součet produktů v pravém sloupci je 2.969848. Protože jsou celkem čtyři body a 4 - 1 = 3, dělíme součet produktů 3. To nám dává korelační koeficient r = 2.969848/3 = 0.989949.

Tabulka pro příklad výpočtu korelačního koeficientu

X y zX zy zXzy
1 1 -1.09544503 -1.161894958 1.272792057
2 3 -0.547722515 -0.387298319 0.212132009
4 5 0.547722515 0.387298319 0.212132009
5 7 1.09544503 1.161894958 1.272792057
instagram story viewer