Statistiky a analýza lineární regrese

Lineární regrese je statistická technika, která se používá k získání více informací o vztahu mezi nezávislou (predikční) proměnnou a závislou (kriteriální) proměnnou. Pokud máte ve své analýze více než jednu nezávislou proměnnou, označuje se to jako vícenásobná lineární regrese. Obecně platí, že regrese umožňuje výzkumníkovi položit obecnou otázku „Jaký je nejlepší prediktor…?“

Řekněme například, že jsme studovali příčiny obezita, měřeno indexem tělesné hmotnosti (BMI). Zejména jsme chtěli zjistit, zda následující proměnné byly významnými prediktory BMI osoby: počet rychlého občerstvení jídla konzumovaná týdně, počet hodin sledování televize týdně, počet minut strávených cvičením týdně a počet rodičů BMI. Lineární regrese by byla dobrou metodikou pro tuto analýzu.

Regresní rovnice

Když provádíte regresní analýzu s jednou nezávislou proměnnou, je regresní rovnice Y = a + b * X kde Y je závislá proměnná, X je nezávislá proměnná, a je konstanta (nebo zastavení) a b je sklon regresní přímky. Řekněme například, že GPA se nejlépe předpovídá regresní rovnicí 1 + 0,02 * IQ. Pokud by student měl IQ 130, pak by jeho GPA byla 3,6 (1 + 0,02 * 130 = 3,6).

instagram viewer

Když provádíte regresní analýzu, ve které máte více než jednu nezávislou proměnnou, je regresní rovnice Y = a + b1 * X1 + b2 * X2 +… + bp * Xp. Pokud bychom například chtěli do naší analýzy GPA zahrnout více proměnných, jako jsou například motivační opatření a sebekázeň, použili bychom to rovnice.

R-náměstí

R-čtverec, také známý jako koeficient stanovení, je běžně používaná statistika k vyhodnocení modelového přizpůsobení regresní rovnice. To je, jak dobré jsou všechny vaše nezávislé proměnné při předpovídání závislé proměnné? Hodnota R-čtverce se pohybuje od 0,0 do 1,0 a může být vynásobena 100 pro získání procenta odchylka vysvětlil. Například návrat do naší regresní rovnice GPA s pouze jednou nezávislou proměnnou (IQ)… Řekněme, že naše R-čtverec pro rovnici byl 0,4. Mohli bychom to interpretovat tak, že 40% rozptylu v GPA je vysvětleno IQ. Pokud přidáme další dvě proměnné (motivace a sebekázeň) a R-čtverec se zvýší na 0,6, to znamená, že IQ, motivace a sebekázeň společně vysvětlují 60% rozptylu v GPA skóre.

Regresní analýzy se obvykle provádějí pomocí statistického softwaru, jako je SPSS nebo SAS, a proto se pro vás vypočítá R-čtverec.

Interpretace regresních koeficientů (b)

Koeficienty b z výše uvedených rovnic představují sílu a směr vztahu mezi nezávislými a závislými proměnnými. Když se podíváme na GPA a IQ rovnici, 1 + 0,02 * 130 = 3,6, 0,02 je regresní koeficient pro proměnnou IQ. To nám říká, že směr vztahu je pozitivní, takže jak se IQ zvyšuje, zvyšuje se také GPA. Pokud by byla rovnice 1 - 0,02 * 130 = Y, znamenalo by to, že vztah mezi IQ a GPA byl negativní.

Předpoklady

Existuje několik předpokladů o datech, která musí být splněna, aby bylo možné provést lineární regresní analýzu:

Linearita: Předpokládá se, že vztah mezi nezávislými a závislými proměnnými je lineární. Ačkoli tento předpoklad nemůže být nikdy plně potvrzen, při pohledu na bodový diagram z vašich proměnných může toto rozhodnutí určit. Pokud je křivka ve vztahu přítomna, můžete zvážit transformaci proměnných nebo explicitně povolit nelineární komponenty.
Normálnost: Předpokládá se, že zbytky vaše proměnné jsou normálně distribuovány. To znamená, že chyby v predikci hodnoty Y (závislá proměnná) jsou rozloženy způsobem, který se přibližuje k normální křivce. Můžete se na to podívat histogramy nebo normální grafy pravděpodobnosti pro kontrolu distribuce vašich proměnných a jejich zbytkových hodnot.
Nezávislost: Předpokládá se, že chyby v predikci hodnoty Y jsou vzájemně nezávislé (nekorelují).
Homoscedasticity: Předpokládá se, že rozptyl kolem regresní linie je stejný pro všechny hodnoty nezávislých proměnných.

Zdroj

_{StatSoft: Elektronická statistická učebnice. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.}