Výpočet a vzorek variance nebo standardní odchylka se obvykle uvádí jako zlomek. Čitatel této frakce zahrnuje součet druhých odchylek od střední hodnoty. Ve statistice, vzorec pro tento celkový součet čtverců je
Σ (xi - X)2
Symbol x̄ zde označuje průměr vzorku a symbol Σ nám říká, že sečteme druhou mocninu (xi - x̄) pro všechny i.
I když tento vzorec pracuje pro výpočty, existuje ekvivalentní zkratka, která nevyžaduje, abychom nejprve vypočítali průměr vzorku. Tato zkratka vzorce pro součet čtverců je
Σ (xi2) - (Σ xi)2/n
Zde proměnná n odkazuje na počet datových bodů v našem vzorku.
Příklad standardního vzorce
Abychom viděli, jak tento zkratkový vzorec funguje, uvážíme příklad, který se počítá pomocí obou vzorců. Předpokládejme, že náš vzorek je 2, 4, 6, 8. Průměr vzorku je (2 + 4 + 6 + 8) / 4 = 20/4 = 5. Nyní vypočítáme rozdíl každého datového bodu s průměrem 5.
- 2 – 5 = -3
- 4 – 5 = -1
- 6 – 5 = 1
- 8 – 5 = 3
Nyní každé čtverce každé z těchto čísel a spočítáme je dohromady. (-3)2 + (-1)2 + 12 + 32 = 9 + 1 + 1 + 9 = 20.
Příklad zástupce vzorce
Nyní použijeme stejnou sadu dat: 2, 4, 6, 8, se vzorcem zkratek pro určení součtu čtverců. Nejdříve čtvercový každý datový bod a spočítáme je dohromady: 22 + 42 + 62 + 82 = 4 + 16 + 36 + 64 = 120.
Dalším krokem je sečtení všech dat a sečtení této částky: (2 + 4 + 6 + 8)2 = 400. Vydělíme to počtem datových bodů, abychom získali 400/4 = 100.
Nyní odečteme toto číslo od 120. To nám dává, že součet druhých odchylek je 20. To bylo přesně to číslo, které jsme již našli z druhého vzorce.
Jak to funguje?
Mnoho lidí pouze přijme vzorec v nominální hodnotě a nemá ponětí, proč tento vzorec funguje. Použitím trochu algebry vidíme, proč je tento zkratkový vzorec ekvivalentní standardnímu, tradičnímu způsobu výpočtu součtu čtvercových odchylek.
I když mohou existovat stovky, ne-li tisíce hodnot v reálném datovém souboru, budeme předpokládat, že existují pouze tři datové hodnoty: x1, X2, X3. To, co zde vidíme, by mohlo být rozšířeno na datový soubor, který má tisíce bodů.
Začneme tím, že si to všimneme (x1 + x2 + x3) = 3 x̄. Výraz Σ (xi - X)2 = (x1 - X)2 + (x2 - X)2 + (x3 - X)2.
Nyní používáme fakt ze základní algebry, že (a + b)2 = a2 + 2ab + b2. To znamená, že (x1 - X)2 = x12 -2x1 x̄ + x̄2. Děláme to pro další dvě podmínky našeho shrnutí a máme:
X12 -2x1 x̄ + x̄2 + x22 -2x2 x̄ + x̄2 + x32 -2x3 x̄ + x̄2.
Toto uspořádání přeskupujeme a máme:
X12+ x22 + x32+ 3x̄2 - 2x̄ (x1 + x2 + x3) .
Přepisováním (x1 + x2 + x3) = 3x̄ výše se stává:
X12+ x22 + x32 - 3x̄2.
Nyní od 3x̄2 = (x1+ x2 + x3)2/ 3, náš vzorec se stává:
X12+ x22 + x32 - (X1+ x2 + x3)2/3
A to je zvláštní případ výše uvedeného obecného vzorce:
Σ (xi2) - (Σ xi)2/n
Je to opravdu zkratka?
Nezdá se, že by tento vzorec byl skutečně zkratkou. Koneckonců, ve výše uvedeném příkladu se zdá, že existuje tolik výpočtů. Část toho souvisí s tím, že jsme se dívali pouze na malou velikost vzorku.
Když zvětšujeme velikost našeho vzorku, vidíme, že zkratkový vzorec snižuje počet výpočtů asi o polovinu. Nepotřebujeme odečítat průměr od každého datového bodu a pak výsledek umocnit. Tím se výrazně sníží celkový počet operací.