Čištění dat pro analýzu dat v sociologii

Čištění dat je klíčovou součástí analýzy dat, zejména při shromažďování vlastních kvantitativních údajů. Poté, co shromáždíte data, musíte je vložit do počítačového programu, např SAS, SPSS nebo Excel. Během tohoto procesu, ať už se provádí ručně nebo počítačovým skenerem, dojde k chybám. Bez ohledu na to, jak pečlivě byla data zadána, jsou nevyhnutelné chyby. To by mohlo znamenat nesprávné kódování, nesprávné čtení psaných kódů, nesprávné snímání černěných značek, chybějící data atd. Čištění dat je proces detekce a opravy těchto chyb kódování.

Existují dva typy čištění dat, které je třeba provést v sadách dat. Jsou možné čištění kódu a eventuální čištění. Oba jsou zásadní pro proces analýzy dat, protože pokud budou ignorovány, budete téměř vždy vytvářet zavádějící výsledky výzkumu.

Možné čištění kódu

Každá daná proměnná bude mít specifikovanou sadu možností odpovědi a kódů, které odpovídají každé možnosti odpovědi. Například proměnná Rod bude mít tři možnosti výběru a kódy pro každou: 1 pro muže, 2 pro ženy a 0 pro žádnou odpověď. Pokud máte respondenta kódovaného jako 6 pro tuto proměnnou, je zřejmé, že došlo k chybě, protože nejde o možný kód odpovědi. Možné čištění kódu je proces kontroly, aby se zjistilo, že v datovém souboru se objevují pouze kódy přiřazené k výběru odpovědí pro každou otázku (možné kódy).

instagram viewer

Některé počítačové programy a statistické softwarové balíčky, které jsou k dispozici pro zadávání dat, kontrolují tyto typy chyb při zadávání dat. Uživatel zde definuje možné kódy pro každou otázku před zadáním dat. Poté, pokud je zadáno číslo mimo předdefinované možnosti, zobrazí se chybová zpráva. Pokud se například uživatel pokusil zadat 6 pro pohlaví, počítač může zapípat a kód odmítnout. Jiné počítačové programy jsou určeny k testování nelegitimních kódů v dokončených datových souborech. To znamená, že pokud nebyly zkontrolovány během procesu zadávání dat, jak bylo právě popsáno, existují způsoby, jak zkontrolovat chyby kódování souborů po dokončení zadávání dat.

Pokud nepoužíváte počítačový program, který během procesu zadávání dat kontroluje chyby kódování, můžete najít některé chyby jednoduše zkoumáním rozdělení odpovědí na každou položku v datech soubor. Můžete například vygenerovat tabulku frekvencí pro proměnnou Rod a zde uvidíte číslo 6, které bylo špatně zadáno. Potom byste mohli danou položku vyhledat v datovém souboru a opravit ji.

Nouzové čištění

Druhý typ data čištění se nazývá pohotovostní čištění a je o něco složitější, než je možné čištění kódu. Logická struktura údajů může omezovat odpovědi některých respondentů nebo určité proměnné. Nouzové čištění je proces kontroly, že pouze takové případy, které by měly mít údaje o konkrétní proměnné, takové údaje skutečně mají. Řekněme například, že máte dotazník, ve kterém se respondentů ptáte, kolikrát byly těhotné. Všechny respondentky by měly mít v datech zakódovanou odpověď. Samci by však měli být ponecháni nevyplněni nebo by měli mít zvláštní kód pro neodpovídání. Pokud jsou například muži v datech kódováni jako 3 těhotní, víte, že došlo k chybě a je třeba ji opravit.

_Reference

_{Babbie, E. (2001). Praxe sociálního výzkumu: 9. vydání. Belmont, Kalifornie: Wadsworth Thomson.}