Sekundární analýza dat je analýza dat, která byla shromážděna někým jiným. Níže se podíváme na definici sekundárních dat, na to, jak je mohou vědci použít, a na výhody a nevýhody tohoto typu výzkumu.
Klíčové cesty: Analýza sekundárních dat
- Primární údaje se týkají údajů, které vědci shromáždili, zatímco sekundární údaje se vztahují k údajům, které shromáždil někdo jiný.
- Sekundární údaje jsou k dispozici z různých zdrojů, jako jsou vlády a výzkumné instituce.
- Zatímco použití sekundárních dat může být úspornější, stávající soubory dat nemusí odpovídat na všechny otázky výzkumného pracovníka.
Porovnání primárních a sekundárních dat
Ve společenskovědním výzkumu jsou pojmy primární data a sekundární data běžnou řečí. Primární údaje jsou shromažďovány výzkumným pracovníkem nebo týmem výzkumných pracovníků pro konkrétní uvažovaný účel nebo analýzu. Zde výzkumný tým vymýšlí a vyvíjí výzkumný projekt, rozhoduje o a technika vzorkování, shromažďuje údaje určené k řešení konkrétních otázek a provádí vlastní analýzy shromážděných údajů. V tomto případě jsou lidé, kteří se podílejí na analýze dat, obeznámeni s procesem výzkumu a procesem sběru dat.
Sekundární analýza dat, na druhé straně, je použití dat, které byl sbírán někým jiným pro nějaký jiný účel. V tomto případě vědec klade otázky, které jsou řešeny analýzou souboru dat, které nebyly zapojeny do sběru. Údaje nebyly shromážděny, aby odpovídaly na specifické výzkumné otázky výzkumného pracovníka, a byly namísto toho shromažďovány pro jiné účely. To znamená, že stejná datová sada může být ve skutečnosti primární datovou sadou pro jednoho výzkumného pracovníka a sekundární datovou sadou pro jinou.
Použití sekundárních dat
Před použitím sekundárních dat v analýze je třeba udělat několik důležitých věcí. Protože vědec neshromažďoval data, je důležité, aby se seznámili se sadou dat: jak byly údaje shromážděny, jaké kategorie odpovědí jsou pro každou z nich otázka, zda je třeba při analýze použít váhy, zda je třeba zohlednit klastry nebo stratifikace, kdo byla studovaná populace, a více.
Hodně sekundárních datových zdrojů a datových sad je k dispozici pro sociologický výzkum, z nichž mnohé jsou veřejné a snadno dostupné. Sčítání lidu Spojených států, Obecný sociální průzkum, a American Community Survey jsou některé z nejčastěji používaných sekundárních datových souborů k dispozici.
Výhody analýzy sekundárních dat
Největší výhodou použití sekundárních dat je to, že může být úspornější. Údaje již shromáždil někdo jiný, takže výzkumný pracovník nemusí na tuto fázi výzkumu věnovat peníze, čas, energii a zdroje. Někdy musí být zakoupena sada sekundárních dat, ale náklady jsou téměř vždy nižší než náklady na sběr podobných údajů soubor dat od nuly, který obvykle zahrnuje platy, cestování a dopravu, kancelářské prostory, vybavení a další režijní náklady náklady. Navíc, protože data jsou již shromažďována a obvykle čištěna a ukládána v elektronické podobě, může výzkumník strávit většinu času analýza dat namísto toho, aby byla data připravena k analýze.
Druhou hlavní výhodou použití sekundárních dat je šířka dostupných dat. Federální vláda provádí četné studie ve velkém, celostátním měřítku, které by jednotliví výzkumníci měli sbírání času obtížné. Mnoho z těchto datových sad je také podélný, což znamená, že stejná data byla shromážděna od stejné populace během několika různých časových období. To umožňuje vědcům podívat se na trendy a změny jevů v průběhu času.
Třetí důležitou výhodou použití sekundárních dat je to, že proces sběru dat často udržuje úroveň odbornosti a profesionality, které nemusí existovat u jednotlivých výzkumných pracovníků nebo malých výzkumných projektů. Například sběr dat pro mnoho federálních datových souborů je často prováděn zaměstnanci, kteří se specializují v určitých úkolech a mají mnohaleté zkušenosti v dané oblasti as tímto konkrétním průzkumem. Mnoho menších výzkumných projektů nemá takovou úroveň odbornosti, protože mnoho údajů shromažďuje studenti pracující na částečný úvazek.
Nevýhody analýzy sekundárních dat
Hlavní nevýhodou použití sekundárních dat je to, že nemusí odpovídat na specifické výzkumné otázky výzkumného pracovníka nebo obsahovat konkrétní informace, které by výzkumný pracovník chtěl mít. Také nemusí být shromážděno v geografické oblasti nebo v požadovaných letech nebo s konkrétní populací, o kterou má výzkumný pracovník zájem. Například výzkumný pracovník, který má zájem o studium adolescentů, může zjistit, že sada sekundárních dat zahrnuje pouze mladé dospělé.
Navíc, protože vědec neshromažďoval data, nemá žádnou kontrolu nad tím, co je obsaženo v sadě dat. Často to může omezit analýzu nebo změnit původní otázky, na které se vědec snažil odpovědět. Například vědec, který studuje štěstí a optimismus, může zjistit, že sekundární datová sada obsahuje pouze jednu z nich proměnné, ale ne obojí.
Souvisejícím problémem je, že proměnné mohly být definované nebo kategorizované jinak než by si vybral vědec. Například věk mohl být sbírán spíše v kategoriích než jako spojitá proměnná, nebo rasa může být definována jako „bílá“ a „jiná“ místo toho, aby obsahovala kategorie pro každou hlavní rasu.
Další významnou nevýhodou použití sekundárních dat je to, že vědec přesně neví, jak byl proces sběru dat proveden nebo jak dobře byl proveden. Výzkumný pracovník obvykle nezajímá informace o tom, jak vážně jsou údaje ovlivněny problémy, jako je nízká míra odpovědi nebo nedorozumění respondentů ohledně konkrétních otázek z průzkumu. Někdy jsou tyto informace snadno dostupné, jako je tomu u mnoha federálních datových souborů. Mnoho dalších sekundárních datových souborů však není doprovázeno tímto typem informací a analytik se musí naučit číst mezi řádky, aby odhalil případná omezení dat.