Intervaly spolehlivosti jsou klíčovou součástí inferenčních statistik. Můžeme použít nějakou pravděpodobnost a informace z a rozdělení pravděpodobnosti odhadnout parametr populace pomocí vzorku. Prohlášení a interval spolehlivosti je děláno takovým způsobem, že je snadno nepochopitelné. Podíváme se na správnou interpretaci intervalů spolehlivosti a prozkoumáme čtyři chyby, které se v této oblasti statistik dělají.
Co je interval spolehlivosti?
Interval spolehlivosti lze vyjádřit buď jako rozmezí hodnot, nebo v následující podobě:
Odhad ± Rozpětí chyby
Interval spolehlivosti je obvykle uváděn s úrovní spolehlivosti.Běžné úrovně spolehlivosti jsou 90%, 95% a 99%.
Podíváme se na příklad, kdy chceme použít vzorový průměr k odvození průměru populace. Předpokládejme, že to povede k intervalu spolehlivosti od 25 do 30. Řekneme-li, že jsme 95% přesvědčeni, že neznámá populace znamenat je obsažen v tomto intervalu, pak opravdu říkáme, že jsme našli interval pomocí metody, která je úspěšná při správném výsledku 95% času. Z dlouhodobého hlediska bude naše metoda neúspěšná 5% času. Jinými slovy, nedokážeme zachytit skutečnou populaci, což znamená pouze jednu z každých 20krát.
Chyba č. 1
Nyní se podíváme na řadu různých chyb, které mohou vzniknout při řešení intervalů spolehlivosti. Jeden nesprávný výrok, který je často učiněn o intervalu spolehlivosti při 95% úrovni spolehlivosti, je, že existuje 95% šance, že interval spolehlivosti obsahuje skutečný průměr populace.
Důvod, proč se jedná o chybu, je ve skutečnosti celkem jemný. Klíčovou myšlenkou intervalu spolehlivosti je, že použitá pravděpodobnost vstoupí do obrazu metoda, která se používá, při určování intervalu spolehlivosti je ta, že odkazuje na metodu, která je použitý.
Chyba č. 2
Druhou chybou je interpretovat interval spolehlivosti 95% tak, že říká, že 95% všech datových hodnot v populaci spadá do intervalu. 95% opět mluví o metodě testu.
Abychom viděli, proč je výše uvedené tvrzení nesprávné, můžeme uvažovat o normální populaci s standardní odchylka 1 a průměr 5. Vzorek, který měl dva datové body, každý s hodnotami 6, má průměr vzorku 6. 95% interval spolehlivosti pro průměr populace by byl 4,6 až 7,4. To se jasně nepřekrývá s 95% normální distribuce, nebude tedy obsahovat 95% populace.
Chyba č. 3
Třetí chybou je říci, že 95% interval spolehlivosti znamená, že 95% všech možných vzorků znamená, že spadají do intervalu intervalu. Zvažte příklad z poslední sekce. Jakýkoli vzorek velikosti dva, který byl složen pouze z hodnot menších než 4,6, by měl průměr, který byl menší než 4,6. Tyto prostředky vzorku by tedy spadaly mimo tento konkrétní interval spolehlivosti. Vzorky, které odpovídají tomuto popisu, představují více než 5% z celkové částky. Je tedy chybou říkat, že tento interval spolehlivosti zachycuje 95% všech prostředků vzorku.
Chyba č. 4
Čtvrtou chybou při řešení intervalů spolehlivosti je myšlenka, že jsou jediným zdrojem chyb. I když je interval spolehlivosti spojen s chybou, existují i jiná místa, která mohou chyby vplížit do statistické analýzy. Několik příkladů těchto druhů chyb může být z nesprávného návrhu experimentu, zkreslení ve vzorkování nebo neschopnosti získat data z určité podskupiny populace.