Rozdíly mezi korelací a příčinami

Jednoho dne při obědě jedla mladá žena velkou misku zmrzliny a jeden člen fakulty k ní přistoupil a řekl: „Měli byste být opatrní, je vysoká statistickýkorelace mezi zmrzlinou a utonutím. “ Musela se na něj zmateně dívat, když se podrobněji rozpracoval. "Dny s největším prodejem zmrzliny také vidí, že se většina lidí utopila."

Když dokončila mou zmrzlinu, diskutovali dva kolegové o skutečnosti, že právě proto, že jedna proměnná je statisticky spojena s druhou, neznamená to, že jedna je příčinou druhé. Někdy je na pozadí variabilní úkryt. V tomto případě se v datech skrývá den v roce. V horkých letních dnech se prodává více zmrzliny než v zimě. V létě plave více lidí, a proto se v létě utopí více než v zimě.

Dejte si pozor na číhající proměnné

Výše uvedená anekdota je příkladem toho, co je známé jako číhající proměnná. Jak název napovídá, číhající proměnná může být nepolapitelná a obtížně detekovatelná. Když zjistíme, že dva číselné datové soubory jsou silně korelovány, měli bychom se vždy zeptat: „Mohlo by to být něco jiného, ​​co způsobuje tento vztah?“

instagram viewer

Toto jsou příklady silné korelace způsobené číhající proměnnou:

  • Průměrný počet počítačů na osobu v zemi a průměrná délka života této země.
  • Počet hasičů při požáru a poškození způsobené požárem.
  • Výška žáka základní školy a jeho úroveň čtení.

Ve všech těchto případech je vztah mezi proměnnými velmi silný. To je obvykle označeno a korelační koeficient která má hodnotu blízkou 1 nebo -1. Nezáleží na tom, jak blízko je tento korelační koeficient 1 nebo -1, tato statistika nemůže ukázat, že jedna proměnná je příčinou druhé proměnné.

Detekce číhajících proměnných

Podle jejich povahy je obtížné odhalit proměnné číhající. Jednou ze strategií, je-li k dispozici, je prozkoumat, co se s daty časem stane. To může odhalit sezónní trendy, jako je například zmrzlina, které se zakrývají, když jsou data spojena dohromady. Další metodou je podívat se na odlehlé hodnoty a pokuste se zjistit, co je odlišuje od ostatních dat. Někdy to poskytuje náznak toho, co se děje v zákulisí. Nejlepší postup je být aktivní; pečlivě zkoumat předpoklady a experimenty s návrhem.

Proč tě to zajímá?

V úvodním scénáři předpokládejme, že dobře koncipovaný, ale statisticky neinformovaný kongresman navrhuje zakázat veškerou zmrzlinu, aby se zabránilo utonutí. Takový zákon by nepohodlil velké segmenty obyvatelstva, přinutil několik společností k bankrotu a odstranil tisíce pracovních míst, když se zmrzlinový průmysl v zemi zavřel. I přes nejlepší úmysly by tento zákon nesnížil počet utonutých úmrtí.

Pokud se zdá, že tento příklad je příliš přitažený, zvažte následující skutečnosti, ke kterým skutečně došlo. Na počátku 20. století si lékaři všimli, že někteří kojenci záhadně umírají ve spánku kvůli vnímaným dýchacím problémům. Tomu se říkala betlémská smrt a nyní se nazývá SIDS. Jedna věc, která vydržela z pitev prováděných na těch, kteří zemřeli na SIDS, byl zvětšený brzlík, žláza umístěná v hrudi. Z korelace zvětšených brzlíků u dětí SIDS lékaři předpokládali, že abnormálně velký brzlík způsobil nesprávné dýchání a smrt.

Navrhovaným řešením bylo zmenšení brzlíku vysokými paprsky záření nebo úplné odstranění žlázy. Tyto postupy měly vysokou úmrtnost a vedly k dalšímu úmrtí. Je smutné, že tyto operace nemusely být prováděny. Následný výzkum ukázal, že tito lékaři se mýlili ve svých předpokladech a že brzlík není zodpovědný za SIDS.

Korelace neznamená příčinu

Výše uvedené by nás mělo přimět k pozastavení, když si myslíme, že statistické důkazy se používají k ospravedlnění věcí, jako jsou lékařské režimy, legislativa a vzdělávací návrhy. Je důležité, aby se při interpretaci dat postupovalo dobře, zejména pokud výsledky zahrnující korelaci ovlivní životy ostatních.

Když někdo uvede, „Studie ukazují, že A je příčinou B a některé statistiky jej zálohují,“ buďte připraveni odpověď: „korelace neznamená příčinnou souvislost.“ Vždy hledejte, co se skrývá pod data.

instagram story viewer