Co je regresní linie nejmenších čtverců?

click fraud protection

Scatterplot je typ grafu, který se používá k reprezentaci spárovaná data. Vysvětlující proměnná je vynesena podél vodorovné osy a proměnná odezvy je graficky znázorněna podél svislé osy. Jedním z důvodů použití tohoto typu grafu je hledání vztahů mezi proměnnými.

Nejzákladnějším vzorcem, který je třeba hledat v sadě spárovaných dat, je přímka. Prostřednictvím libovolných dvou bodů můžeme nakreslit přímku. Pokud jsou v našem rozptylu více než dva body, většinu času už nebudeme moci nakreslit čáru, která prochází každým bodem. Místo toho nakreslíme čáru, která prochází prostředkem bodů a zobrazí celkový lineární trend dat.

Když se podíváme na body v našem grafu a chceme těmito body nakreslit čáru, vyvstává otázka. Kterou čáru bychom měli kreslit? Existuje nekonečný počet čar, které by mohly být nakresleny. Při použití našich očí samotných je zřejmé, že každý, kdo se dívá na rozptyl, může vytvořit trochu jinou linii. Tato nejednoznačnost je problém. Chceme mít dobře definovaný způsob, jak všichni získat stejnou linii. Cílem je získat matematicky přesný popis, která čára by měla být nakreslena. Nejmenší čtverce

instagram viewer
regresní linie je jedna taková linka přes naše datové body.

Nejmenší čtverce

Název řádku s nejmenšími čtverci vysvětluje, co dělá. Začneme sbírkou bodů se souřadnicemi danými (Xi, yi). Jakákoli přímka bude procházet mezi těmito body a půjde buď nad nebo pod každý z nich. Můžeme vypočítat vzdálenosti od těchto bodů k přímce výběrem hodnoty X a poté odečte pozorované y souřadnice, které odpovídá tomuto X z y souřadnice naší linky.

Různé čáry přes stejnou sadu bodů by poskytly jinou sadu vzdáleností. Chceme, aby tyto vzdálenosti byly co nejmenší. Ale je tu problém. Protože naše vzdálenosti mohou být buď kladné, nebo záporné, součet všech těchto vzdáleností se navzájem zruší. Součet vzdáleností bude vždy roven nule.

Řešením tohoto problému je eliminace všech záporných čísel umocněním vzdáleností mezi body a přímkou. Toto dává sbírku nezáporných čísel. Cíl, který jsme měli, najít nejvhodnější linii, je stejný jako součet těchto čtvercových vzdáleností co nejmenší. K záchraně přichází počet. Proces diferenciace v počtu umožňuje minimalizovat součet čtvercových vzdáleností od dané linie. To vysvětluje frázi „nejmenších čtverců“ v našem názvu pro tento řádek.

Řada nejvhodnějších

Protože čára nejmenších čtverců minimalizuje čtvercové vzdálenosti mezi přímkou ​​a našimi body, můžeme tuto čáru považovat za tu, která nejlépe odpovídá našim datům. To je důvod, proč je linie nejmenších čtverců známa také jako linie nejvhodnější. Ze všech možných čar, které by mohly být nakresleny, je nejmenší čtverec nejblíže k souboru dat jako celku. To může znamenat, že naše linka bude chybět zasáhnout některý z bodů v naší sadě dat.

Funkce linie nejmenších čtverců

Existuje několik funkcí, které každá řádka nejmenších čtverců má. První zajímavá položka se zabývá sklonem naší linky. Svah má napojení na korelační koeficient našich dat. Ve skutečnosti je sklon přímky roven r (sy/ sX). Tady s X označuje směrodatnou odchylku X souřadnice a s y standardní odchylka y souřadnice našich dat. Znaménko korelačního koeficientu přímo souvisí se znaménkem sklonu naší linie nejmenších čtverců.

Další rys linie nejmenších čtverců se týká bodu, kterým prochází. Zatímco y přestávka linie nejmenších čtverců nemusí být ze statistického hlediska zajímavá, existuje jeden bod. Každý řádek nejmenších čtverců prochází středem dat. Tento střední bod má X koordinovat to je znamenat z X hodnoty a y Souřadnice, která je průměrem y hodnoty.

instagram story viewer