Test běhu náhodných sekvencí

Vzhledem k posloupnost dat, můžeme si položit otázku, zda k sekvenci došlo náhodnými jevy, nebo zda data nejsou náhodná. Náhodnost je obtížné identifikovat, protože je velmi obtížné jednoduše se dívat na data a určit, zda byla nebo nebyla vytvořena náhodou. Jedna metoda, kterou lze použít k určení, zda sekvence skutečně nastala náhodou, se nazývá test běhů.

Test běhů je testem významnosti nebo test hypotéz. Postup pro tento test je založen na běhu nebo posloupnosti dat, která mají zvláštní vlastnost. Abychom pochopili, jak funguje test běhů, musíme nejprve prozkoumat koncept běhu.

Sekvence dat

Začneme tím, že se podíváme na příklad běhů. Zvažte následující sled náhodných číslic:

6 2 7 0 0 1 7 3 0 5 0 8 4 6 8 7 0 6 5 5

Jedním ze způsobů, jak klasifikovat tyto číslice, je jejich rozdělení do dvou kategorií, buď sudých (včetně číslic 0, 2, 4, 6 a 8) nebo lichých (včetně číslic 1, 3, 5, 7 a 9). Podíváme se na posloupnost náhodných číslic a označíme sudá čísla jako E a lichá čísla jako O:

E E O E E O O E E E E E O E E O O

instagram viewer

Běhy jsou snazší vidět, pokud to přepíšeme tak, že všechny Os jsou spolu a všechny Es jsou spolu:

EE O EE OO E O EEEEE O EE OO

Počítáme počet bloků sudých nebo lichých čísel a zjistíme, že pro data existuje celkem deset běhů. Čtyři běhy mají délku jedna, pět má délku dva a jeden má délku pět

Podmínky

S jakýmkoli test významnosti, je důležité vědět, jaké podmínky jsou nezbytné pro provedení testu. Pro test run budeme moci klasifikovat každou hodnotu dat ze vzorku do jedné ze dvou kategorií. Budeme počítat celkový počet běhů relativně k počtu počtu datových hodnot, které spadají do každé kategorie.

Test bude a oboustranný test. Důvodem je to, že příliš málo pokusů znamená, že není pravděpodobné dostatečné kolísání a počet pokusů, ke kterým by došlo při náhodném procesu. Příliš mnoho běhů bude mít za následek, když se proces střídá mezi kategoriemi příliš často, než aby byl náhodně popsán.

Hypotézy a hodnoty P

Každá zkouška významnosti má nulová a alternativní hypotéza. Pro test běhů je nulová hypotéza, že sekvence je náhodná sekvence. Alternativní hypotéza spočívá v tom, že sled vzorků není náhodný.

Statistický software může vypočítat p-hodnota což odpovídá konkrétní statistice testu. Tam jsou také tabulky, které dávají kritická čísla u jistý úroveň významnosti pro celkový počet běhů.

Spustí příklad testu

Prohlédněte si následující příklad, abychom zjistili, jak funguje test spuštění. Předpokládejme, že pro úkol je student požádán, aby 16krát převrátil minci a poznamenal si pořadí hlav a ocasů, které se objevily. Pokud skončíme s touto sadou dat:

H T H H H T T H H T H H H H H H H

Můžeme se zeptat, zda student skutečně udělal domácí úkoly, nebo podváděl a napsal řadu H a T, které vypadají náhodně? Test běhů nám může pomoci. Předpoklady jsou splněny pro běhový test, protože data mohou být rozdělena do dvou skupin, buď jako hlava nebo ocas. Stále počítáme počet jízd. Při přeskupování vidíme následující:

H T HHH TT H TT H T H T HH

Existuje deset běhů pro naše data se sedmi ocasy a devíti hlavami.

Nulová hypotéza je, že data jsou náhodná. Alternativou je, že to není náhodné. Pro hladinu významnosti alfa rovnou 0,05 vidíme při prohlížení správné tabulky, že odmítáme nulovou hypotézu, když počet běhů je menší než 4 nebo větší než 16. Protože v našich datech je deset běhů, my odmítnout nulová hypotéza H0.

Normální aproximace

Test běhů je užitečným nástrojem k určení, zda je sekvence náhodná nebo ne. U velké sady dat je někdy možné použít normální aproximaci. Tato normální aproximace vyžaduje, abychom použili počet prvků v každé kategorii a poté vypočítali střední a standardní odchylku příslušného normální distribuce.