Co je Bootstrapping v oblasti statistiky?

Bootstrapping je statistická technika, která spadá pod širší hlavičku převzorkování. Tato technika zahrnuje relativně jednoduchý postup, ale opakuje se tolikrát, že je silně závislá na počítačových výpočtech. Bootstrapping poskytuje jinou metodu než intervaly spolehlivosti pro odhad parametru populace. Zdá se, že bootování velmi funguje jako magie. Čtěte dále a zjistěte, jak získává své zajímavé jméno.

Vysvětlení zavádění systému

Jeden cíl inferenciální statistika je určit hodnotu parametru populace. To je obvykle příliš drahé nebo dokonce nemožné přímo měřit. Takže používáme statistické vzorkování. Vzorkujeme populaci, změříme statistiku tohoto vzorku a poté pomocí této statistiky řekneme něco o odpovídající parametr z populace.

Například v továrně na čokoládu bychom mohli chtít zaručit, že bonbóny mají zvláštní charakter znamenat hmotnost. Není možné zvážit každou vyrobenou tyčinku, takže pomocí náhodně vybraných 100 tyčinek náhodně vybereme vzorkovací techniky. Vypočítáme průměr těchto 100 tyčinek a říkáme, že průměr populace spadá do rozpětí chyby od průměru našeho vzorku.

instagram viewer

Předpokládejme, že o několik měsíců později chceme vědět s větší přesností - nebo méně rozpětí chyby - jaká byla průměrná hmotnost tyčinky v den, kdy jsme vzorkovali výrobní linku. Nemůžeme použít ani dnešní bonbóny mnoho proměnných vstoupili do obrázku (různé dávky mléka, cukru a kakaových bobů, různé atmosférické podmínky, různí zaměstnanci na lince atd.). Od dne, kdy jsme zvědaví, máme jen 100 závaží. Bez stroje času, který by se vrátil k tomuto dni, by se zdálo, že počáteční rozpětí chyb je nejlepší, na co můžeme doufat.

Naštěstí můžeme použít technika bootstrappingu. V této situaci jsme náhodně vzorek s náhradou ze 100 známých hmotností. Pak tomu říkáme vzorek bootstrapu. Protože umožňujeme nahrazení, tento bootstrapový vzorek pravděpodobně není totožný s naším původním vzorkem. Některé datové body mohou být duplikovány a jiné datové body z počátečních 100 mohou být ve vzorku bootstrap vynechány. Pomocí počítače lze v relativně krátké době sestavit tisíce vzorků bootstrapů.

Příklad

Jak již bylo zmíněno, abychom skutečně používali bootstrapové techniky, musíme použít počítač. Následující číselný příklad pomůže ukázat, jak proces funguje. Začneme-li se vzorkem 2, 4, 5, 6, 6, pak jsou všechny možné bootstrapové vzorky následující:

  • 2 ,5, 5, 6, 6
  • 4, 5, 6, 6, 6
  • 2, 2, 4, 5, 5
  • 2, 2, 2, 4, 6
  • 2, 2, 2, 2, 2
  • 4,6, 6, 6, 6

Dějiny techniky

Techniky zavádění jsou v oblasti statistiky relativně nové. První použití bylo publikováno v roce 1979 papíru Bradley Efron. S tím, jak se výpočetní výkon zvýšil a stal se méně nákladným, se techniky zavádění systému rozšířily.

Proč název Bootstrapping?

Jméno „bootstrapping“ pochází z věty „Zdvihat se z jeho bootstrapů“. To se týká něčeho, co je nesmyslné a nemožné. Zkuste to nejtěžší, nemůžete se zvednout do vzduchu taháním za kousky kůže na botách.

Existuje určitá matematická teorie, která ospravedlňuje zaváděcí techniky. Použití bootstrappingu však má pocit, že děláte nemožné. Ačkoli se nezdá, že byste se mohli na základě odhadu statistik populace zlepšit tím, že znovu a znovu použijete stejný vzorek, bootstrapping to ve skutečnosti může udělat.