Jak odhadnout standardní odchylky (SD)

Směrodatná odchylka a rozsah jsou obě míry šíření datové sady. Každé číslo nám říká vlastním způsobem, jak jsou data rozložena, protože obě jsou měřítkem variace. Přestože mezi rozsah a směrodatná odchylka, tady je pravidlo palce to může být užitečné pro propojení těchto dvou statistik. Tento vztah je někdy označován jako pravidlo rozsahu pro standardní odchylku.

Pravidlo rozsahu nám říká, že standardní odchylka vzorku je přibližně rovna jedné čtvrtině rozsahu dat. Jinými slovys = (Maximum - minimum) / 4. Jedná se o velmi přímočarý vzorec, který se má použít, a měl by se používat pouze jako velmi hrubý odhad standardní odchylky.

Příklad

Pro příklad, jak funguje pravidlo rozsahu, se podíváme na následující příklad. Předpokládejme, že začneme s datovými hodnotami 12, 12, 14, 15, 16, 18, 18, 20, 20, 25. Tyto hodnoty mají a znamenat 17 a standardní odchylka asi 4,1. Pokud místo toho nejprve vypočítáme rozsah našich dat jako 25 - 12 = 13 a poté vydělíme toto číslo čtyřmi, máme odhad standardní směrodatné odchylky jako 13/4 = 3,25. Toto číslo je relativně blízko skutečné standardní odchylce a dobré pro hrubý odhad.

instagram viewer

Proč to funguje?

Může to vypadat, že pravidlo rozsahu je trochu divné. Proč to funguje? Nezdá se zcela svévolné rozdělit rozsah čtyřmi? Proč bychom se nerozdělili jiným číslem? Za scénami se ve skutečnosti děje matematické zdůvodnění.

Vzpomeňte si na vlastnosti zvonová křivka a pravděpodobnosti a standardní normální rozdělení. Jedna funkce se týká množství dat, která spadají do určitého počtu standardních odchylek:

Přibližně 68% dat je v jedné standardní odchylce (vyšší nebo nižší) od střední hodnoty.
Přibližně 95% údajů je ve dvou standardních odchylkách (vyšších nebo nižších) od průměru.
Přibližně 99% je ve třech směrodatných odchylkách (vyšších nebo nižších) od průměru.

Číslo, které použijeme, se týká 95%. Můžeme říci, že 95% ze dvou směrodatných odchylek pod průměrem na dvě směrodatné odchylky nad průměrem, máme 95% našich dat. Téměř celé naše normální rozdělení by se tak rozprostíralo přes úsečku, která je celkem čtyři standardní odchylky.

Ne všechna data jsou normálně distribuována a má tvar křivky. Většina dat se však chová natolik dobře, že odchýlení dvou standardních odchylek od střední hodnoty zachycuje téměř všechna data. Odhadujeme a říkáme, že čtyři směrodatné odchylky jsou přibližně velikostí rozsahu, a proto je rozsah dělený čtyřmi přibližná přibližná směrodatná odchylka.

Použití pro pravidlo rozsahu

Pravidlo rozsahu je užitečné v řadě nastavení. Nejprve jde o velmi rychlý odhad směrodatné odchylky. Směrodatná odchylka vyžaduje, abychom nejprve našli střední hodnotu a poté ji odečtili od každého datového bodu, čtverce rozdíly, sčítat je, vydělit jeden menší než počet datových bodů, pak (konečně) vzít čtverec vykořenit. Na druhé straně pravidlo rozsahu vyžaduje pouze jedno odčítání a jedno dělení.

Dalším místem, kde je pravidlo rozsahu užitečné, je situace, kdy máme neúplné informace. Vzorce, jako je vzorec pro stanovení velikosti vzorku, vyžadují tři informace: požadované rozpětí chyby, úroveň důvěry a standardní odchylka populace, kterou zkoumáme. Mnohokrát je nemožné vědět, co populace standardní odchylka je. S pravidlem rozsahu můžeme odhadnout tuto statistiku a pak vědět, jak velký by měl být náš vzorek.