Jak používat klastrovou analýzu ve výzkumu sociálních věd

Shluková analýza je statistická technika používaná k identifikaci toho, jak mohou být různé jednotky - jako lidé, skupiny nebo společnosti - seskupeny dohromady kvůli vlastnostem, které mají společné. Také známý jako shlukování, je to průzkumný nástroj pro analýzu dat, který si klade za cíl třídit různé objekty do skupin takovým způsobem, že když patří do stejné skupiny, mají maximální stupeň asociace a pokud nepatří do stejné skupiny, je jejich stupeň asociace minimální. Na rozdíl od jiných statistické techniky, struktury, které jsou odhaleny pomocí shlukové analýzy, nemusí vysvětlovat ani interpretovat - objevují strukturu v datech, aniž by vysvětlovaly, proč existují.

Co je Clustering?

Shlukování existuje téměř ve všech aspektech našeho každodenního života. Vezměte si například zboží v obchodě s potravinami. Různé typy položek se vždy zobrazují na stejných nebo blízkých místech - maso, zelenina, soda, cereálie, papírové výrobky atd. Vědci často chtějí udělat to samé s daty a seskupit objekty nebo předměty do shluků, které dávají smysl.

instagram viewer

Abychom si vzali příklad ze společenské vědy, řekněme, že se díváme na země a chceme je seskupit do uskupení na základě charakteristik, jako je dělba práce, armády, technologie nebo vzdělaná populace. Zjistili bychom, že Británie, Japonsko, Francie, Německo a Spojené státy mají podobné vlastnosti a byly by seskupeny dohromady. Uganda, Nikaragua a Pákistán by také byly seskupeny do jiného uskupení, protože sdílejí odlišnou sadu charakteristik, včetně nízké úrovně bohatství, jednodušší dělby práce, relativně nestabilních a nedemokratických politických institucí a nízké technologické úrovně rozvoj.

Shluková analýza se obvykle používá ve fázi průzkumu, kdy výzkumný pracovník žádné nemá předem vytvořené hypotézy. Obvykle to není jediná použitá statistická metoda, ale spíše se provádí v raných fázích projektu, aby pomohla vést zbytek analýzy. Z tohoto důvodu není testování významnosti obvykle ani relevantní, ani vhodné.

Existuje několik různých typů klastrové analýzy. Nejběžněji používané jsou K-klastrování a hierarchické klastrování.

K-znamená Clustering

K-znamená shlukování zachází s pozorováním v datech jako s objekty, které mají umístění a vzdálenosti od sebe (mějte na paměti, že vzdálenosti používané při shlukování často nepředstavují prostorové vzdálenosti). Rozdělí objekty do K vzájemně se vylučujících klastrů, takže objekty v každém klastru jsou stejné co nejblíže k sobě a současně, co nejdále od objektů v jiných klastrech. Každý klastr je pak charakterizován svým střední nebo středový bod.

Hierarchické klastry

Hierarchické seskupování je způsob, jak prozkoumat seskupení v datech současně na různých stupnicích a vzdálenostech. To se provádí vytvořením klastrového stromu s různými úrovněmi. Na rozdíl od klastrů znamená K, strom není jediná sada klastrů. Spíše je strom víceúrovňová hierarchie, kde jsou klastry na jedné úrovni spojeny jako klastry na další vyšší úrovni. Algoritmus, který se používá, začíná u každého případu nebo proměnné v samostatném klastru a pak kombinuje klastry, dokud nezůstane pouze jeden. To umožňuje výzkumníkovi rozhodnout, jaká úroveň shlukování je pro jeho výzkum nejvhodnější.

Provádění klastrové analýzy

Většina statistické softwarové programy může provádět shlukovou analýzu. V SPSS vyberte analyzovat z nabídky klasifikovat a shluková analýza. V SAS, cluster proc lze použít.

Aktualizováno uživatelem Nicki Lisa Cole, Ph. D.