Sieć Regionalnych Ośrodków Debaty Międzynarodowej

Statystycznie o pandemii Covid-19

4 sierpnia minie 5 miesięcy od pierwszego przypadku COVID-19 w Polsce. Szybki rozwój epidemii początkowo wzbudził wśród mieszkańców naszego kraju ogromny niepokój. Puste półki w sklepach, pozamykane szkoły i uczelnie, głęboka izolacja były charakterystycznym elementem pierwszych zmagań z wirusem. Wraz ze wzrostem liczby zakażeń rosło zainteresowanie nowymi przypadkami zachorowań. W tym czasie Polacy przestudiowali różnego rodzaju wykresy – od liniowych, przez kolumnowe i słupkowe, aż po kołowe i pudełkowe. Zainteresowanie rosło, a wraz z nim debata nad wiarygodnością danych oraz ich prawidłowym przedstawieniem. Zważywszy na przeciętne umiejętności społeczeństwa przy rozumieniu i interpretacji danych statystycznych, wizualizacja danych stała się narzędziem wykorzystywanym zarówno przez instytucje publiczne, jak i dziennikarzy do realizacji „własnej wizji” choroby.

Głównym problemem, który pojawił się podczas pandemii, było znalezienie odpowiedniej informacji opisującej faktyczny stan epidemii w Polsce i na świecie. Część naukowców uważała, że należy patrzeć na wartość nowych dziennych przypadków, inni uważali, że ważne jest, ile nowych zgonów przybyło w ciągu doby. Jeszcze inna część uważała, że największe znaczenie ma wartość współczynnika R (tj. ile statystycznie osób zakażonych zaraża inne). To trochę jak kłótnia ekonomistów o prawidłowy wskaźnik dobrobytu. Jedni powiedzą, że zależy to od PKB per capita, inni uznają trend rozwoju gospodarczego za najważniejszy, a jeszcze inni powołują się na HDI (przyp. red. z ang. Human Development Index, w dosł. tłum. „wskaźnik rozwoju ludzkiego”). Jak jest naprawdę? Na to pytanie chyba nikt nie jest jeszcze w stanie odpowiedzieć, natomiast najprawdopodobniej sytuację epidemiologiczną najlepiej opisują te trzy wskaźniki.

Problemem wielu wizualizacji jest przedstawienie ich w odpowiednim obrębie czasowym. Gdyby spojrzeć na obecną sytuację epidemiologiczną w Hiszpanii, można byłoby stwierdzić, że faktycznie jest o wiele lepiej[1].

Źródło: na podstawie WHO

Dlaczego zatem w Barcelonie wprowadza się restrykcje, dotyczące wyjścia z domu? To jest problem długiego i krótkiego okresu. Wszystko zależy od tego, jak spojrzymy na dane. Patrząc na sytuację z marca widać znaczną poprawę w lipcu. Jeśli spojrzymy z perspektywy czerwca, to nie ma już tak wiele powodów do radości.

Źródło: na podstawie WHO

Wraz z początkiem lipca widoczny jest wzrost zachorowań. Oczywiście nie jest on tak gwałtowny jak w marcu, jednakże pozwala on na podjęcie decyzji o ograniczeniu spotkań w miejscach, o największej ilości nowych zakażeń. Prawidłowe dobranie skali i spojrzenie na sytuację z perspektywy krótkiego i długiego okresu pozwala w jakimś stopniu sprawdzić, jak rozwija się wirus w danym miejscu. Wykorzystanie krótkiego i długiego okresu znalazło miejsce w wizualizacji przedstawionej przez Kancelarię Prezesa Rady Ministrów. 10 lipca 2020 roku, na Twitterze kancelaria zamieściła infografikę prezentującą ilość aktywnych przypadków koronawirusa w Polsce.

Źródło: Kancelaria Prezesa Rady Ministrów

Według danych wybranych na przełomie trzech tygodni widoczna jest tendencja spadkowa, jeśli chodzi o aktywne przypadki. Pomijając już sam fakt, że wśród zaznaczonych dat brak ciągłości wyboru przedziału (można wręcz pokusić się o stwierdzenie, że ktoś te daty „selekcjonował”) i wykres rozpoczyna się od 9 tysięcy (przez co może wydawać nam się, jakby niższego poziomu nie dało się już osiągnąć), to sama wizualizacja nie przedstawia problemu obecnego również w długim okresie.

Źródło: na podstawie worldmeters.info

Wykres przedstawiający długi okres pokazuje, że najwięcej aktywnych przypadków było właśnie tego dnia, od którego rozpoczyna się wykres przedstawiony przez Kancelarię Premiera. Nie dziwi więc, aż taka tendencja spadkowa w następnych dniach. Patrząc na oba rysunki, można stwierdzić, że sytuacja z 10 lipca przypominała sytuację z 16 maja pod względem ilości przypadków. Różnią się one jednak tym, że w maju była tendencja wzrostowa, a w lipcu widać, że przypadków jest coraz mniej. Wykres z Twittera mimo wszystko można obronić. Pokazuje on w pewien sposób dynamikę zmian z ostatniego czasu. Niepotrzebne jest wtedy dobranie odpowiedniej skali, a krótki okres ma stanowić odwołanie do obecnej sytuacji. Z drugiej strony, nadchodzące wybory mogły być powodem przedstawienia takiej informacji. Oczywiście wszyscy widzą liczby, ale czy wszyscy je rozumieją?

Wśród wizualizacji danych nie brak również tych prezentowanych, w sposób nie do końca prawidłowy, w kwestiach gospodarczych. 23 kwietnia, GUS (przyp. red. Główny Urząd Statystyczny) na swojej stronie zaprezentował raport dotyczący koniunktury konsumenckiej z kwietnia tego roku. Znalazł tam się wykres, który wzbudził wiele emocji. Wykres rozpoczynał się od 80 procent, co znacznie mogło zniekształcić przekaz raportu.

Rozpoczęcie skali, aby nadać im odpowiedni wydźwięk przez niektórych, nazywane jest nawet manipulacją danymi.

Źródło: Raport „Koniunktura konsumencka – kwiecień 2020”, GUS

Źródło: Raport „Koniunktura konsumencka – kwiecień 2020”, GUS

Dla osób, które na co dzień zajmują się danymi, wizualizacja była jak najbardziej w porządku. Taki obraz był po prostu wyraźniejszy. Wszystkie osie były opisane, liczby zostały naniesione na słupki, tekst na siebie nie nachodził – właściwie nie ma, do czego się „przyczepić”. Jeśli założymy, że wśród przedsiębiorców czytających ten raport większość z nich odczytała go w poprawny sposób, to możemy być w dużym błędzie. Nasza interpretacja wykresów w dużej mierze zależna jest od naszych przyzwyczajeń. Części społeczeństwa problem sprawia wykonanie prostych rachunków arytmetycznych, zatem zakładanie za pewnik, że ludzie nie spojrzą na barwy a na liczby, odbiega od realiów. W pewnym sensie na tym polega manipulacja danymi. Wykorzystujemy pewne przyzwyczajenia interpretacyjne ludzi, prezentujemy poprawnie technicznie dane, ale wydźwięk może zależeć od sposobu ich prezentacji. Wkrótce po publikacji danego raportu, analizy PEKAO zwróciły uwagę na nieprawidłowy wydźwięk tego wykresu. Miał on wskazywać na przeciwną zależność w stosunku do tego, co naprawdę miało miejsce. Wykres został poprawiony, przez co może być obecnie mniej czytelny. Sama forma wizualizacji była dość pechowa. Lepiej byłoby przedstawić dane na wykresie kołowym, gdzie nie byłoby problemu z czytelnością.

Źródło: Raport „Koniunktura konsumencka – kwiecień 2020”, GUS

Innym ważnym aspektem odczytywania danych jest rozróżnienie korelacji od przyczynowości. Jak się okazuje, istnieje na przykład korelacja o wysokim dopasowaniu, między wydatkami rządu amerykańskiego na naukę a samobójstwami dokonanymi przez powieszenie. Czy to oznacza, że powinniśmy naciskać na rząd amerykański, aby ograniczył środki naukowcom? Nie - korelacje mogą nie zależeć bezpośrednio od siebie. Taki problem pojawił się również podczas pandemii. Część środowiska występującego przeciwko sieci 5G wskazywało, że w miejscach, w których stawiane są nowe maszty telekomunikacyjne, dochodzi do większej ilości zakażeń. Nie istnieje jednak potwierdzony naukowo związek między tymi czynnikami. Warto jednak spojrzeć, że maszty są stawiane niedaleko skupisk ludzkich - zazwyczaj w dużych ośrodkach miejskich. Patrząc na naszą obecną wiedzę na temat COVID-19, nie powinno dziwić, że najbardziej jest on powszechny w ośrodkach o dużej gęstości zaludnienia. Ten sposób korelacyjny jest wyjątkowo niebezpieczny - w zjawiskach wysokiej niepewności, często potrzebujemy wyjaśnić coś, czego nie do końca rozumiemy i nie znamy.

Tak jak przed samym wirusem, możemy bronić się przed wprowadzeniem w błąd przy odczytywaniu statystyk. Przede wszystkim niezwykle ważna jest skala. Patrząc na różne infografiki, należy zastanowić się, czy ich wygląd jest w jakiś sposób uzależniony od odpowiedniego dobrania skali. Nawet jeśli wygląd wizualizacji jest dobrany do skali, to może nie chodzi o pokazanie danych ilościowo, a jakościowo. Krytyczne podejście do przedstawionych danych i zrozumienie sensu ich przedstawienia są kluczowe. Jeśli poszukujemy informacji na temat liczby zachorowań to naturalnie szukamy odwołań, żeby zrozumieć znaczenie samych liczb. Jeśli natomiast chcemy zobaczyć dynamikę rozwoju epidemii, niekonieczne jest znalezienie liczb.

Obecna sytuacja epidemiologiczna wskazuje, że nie pozbędziemy się szybko wirusa. Analizując sytuację w Japonii, czy Australii, nie można wykluczyć drugiej fali również w Europe. Co za tym idzie, możemy doświadczyć kolejnego niepokoju. Ciężko przewidzieć reakcję społeczeństwa na kolejne obostrzenia. Być może powróci zainteresowanie wykresami i statystykami. Należy spodziewać się jednak tego, że w przeciwieństwie do sytuacji z marca, media i państwo będą przygotowane do używania danych do realizacji własnych celów.

A czy my jesteśmy gotowi do racjonalnej oceny tych wizualizacji?

[1] 18 lipca 2020 roku, Hiszpania zmieniła definicję zakażenia wirusem, stąd widoczny ujemny przypływ nowych przypadków.

Autor: Wojciech Szymczak

Student ekonomii na Uniwersytecie Warszawskim. Od niedawna dołączył do zespołu RODM Łódź jako praktykant, gdzie zajmuję się m.in. wyszukiwaniem oraz pozyskiwaniem informacji. Najbardziej interesują go analiza danych oraz nauki behawioralne. W wolnym czasie uczy się szwedzkiego. Pasjonat kina Wesa Anderson

Zadanie publiczne współfinansowane przez Ministerstwo Spraw Zagranicznych RP w konkursie „Regionalny Ośrodek Debaty Międzynarodowej 2019-2021”.

Publikacja wyraża jedynie poglądy autora/ów i nie może być utożsamiana z oficjalnym stanowiskiem Ministerstwa Spraw Zagranicznych RP.

Ministerstwo Spraw Zagranicznych RP Instytut Spraw Obywatelskich

Zadanie dofinansowane ze środków Ministerstwa Spraw Zagranicznych