Rozsah sad statistických dat

Ve statistice a matematice je rozsah rozdíl mezi maximální a minimální hodnotou datové sady a slouží jako jedna ze dvou důležitých vlastností datové sady. Vzorec pro rozsah je maximální hodnota mínus minimální hodnota v datovém souboru, což statistikům umožňuje lépe porozumět tomu, jak různorodý je datový soubor.

Dvě důležité vlastnosti datové sady zahrnují střed dat a šíření dat a střed může býtměřeno několika způsoby: nejoblíbenější z nich jsou střední hodnoty, medián, režim a střední rozsah, ale podobným způsobem existují různé způsoby, jak vypočítat, jak je rozprostřena sada dat a nejjednodušší a nejhrubší míra šíření se nazývá rozsah.

Výpočet rozsahu je velmi jednoduchý. Vše, co musíme udělat, je najít rozdíl mezi největší hodnotou dat v naší sadě a nejmenší hodnotou dat. Stručně řečeno máme následující vzorec: Rozsah = maximální hodnota - minimální hodnota. Například datová sada 4,6,10, 15, 18 má maximum 18, minimum 4 a rozsah 18-4 = 14.

Rozsah je velmi hrubé měření šíření dat, protože je extrémně citlivé na odlehlé hodnoty, a v důsledku toho jsou jisté omezení užitečnosti skutečného rozsahu datového souboru statistikům, protože jediná datová hodnota může významně ovlivnit hodnotu rozsah.

instagram viewer

Zvažte například sadu dat 1, 2, 3, 4, 6, 7, 7, 8. Maximální hodnota je 8, minimum je 1 a rozsah je 7. Pak zvažte stejnou sadu dat, pouze s hodnotou 100 v ceně. Rozsah se nyní stává 100-1 = 99 přičemž přidání jediného dalšího datového bodu výrazně ovlivnilo hodnotu rozsahu. Standardní odchylka je další míra šíření, která je méně náchylná k odlehlým hodnotám, ale nevýhodou je, že výpočet směrodatné odchylky je mnohem složitější.

Tato řada také neříká nic o vnitřních vlastnostech naší sady dat. Zvažujeme například datovou sadu 1, 1, 2, 3, 4, 5, 5, 6, 7, 8, 8, 10, kde rozsah pro tento soubor dat je 10-1 = 9. Pokud to porovnáme s datovým souborem 1, 1, 1, 2, 9, 9, 9, 10. Zde je však rozsah opět devět pro tuto druhou sadu a na rozdíl od první sady jsou data seskupena kolem minima a maxima. Jiné statistiky, jako je první a třetí kvartil, by musely být použity k detekci některých z této vnitřní struktury.

Rozsah je dobrý způsob, jak získat velmi základní představu o tom, jak skutečně jsou rozprostřená čísla v sadě dat, protože je to snadné vypočítat, protože vyžaduje pouze základní aritmetickou operaci, ale existuje také několik dalších aplikací rozsahu datové sady v statistika.

Rozsah lze také použít k odhadu jiné míry rozptylu, standardní odchylky. Spíše než projít poměrně komplikovaným vzorcem k nalezení směrodatné odchylky, můžeme místo toho použít to, co se nazývá pravidlo rozsahu. Rozsah je v tomto výpočtu zásadní.

Rozsah se vyskytuje také v a boxplot, nebo plot a vousy. Maximální a minimální hodnoty jsou graficky zobrazeny na konci vousů grafu a celková délka vousů a boxů se rovná rozsahu.