Svaki dan (i sat) servira nam se novi izvještaj o tome kakvo je trenutno stanje s korona virusom (COVID-19). Iako je korisno pratiti kako stanje napreduje i da li je vrijeme da se konačno zatvorimo u bunker (doompreperi sigurno svima žele poručiti “rekao sam vam”) i kupimo tonu konzerva tune i graha, interpretacija podataka nije uvijek vjerna stvarnim podacima. Sagledali smo COVID-19 s objektivnog stajališta, kako bi vam dali “čistu” informaciju.

To što netko pročita da imamo 100 slučajeva nekome znači da je došla apokalipsa, dok nekome drugome to znači nešto manje strašno.

Kada vidite vizualizaciju čistih podataka, puno je lakše biti objektivniji prema cijeloj situaciji jer gledate činjenice (koliko god one manjkave bile), za razliku od nečijih interpretacija.

Uvod

Moje ime je Kristijan Šarić i ja sam programer. Nisam stručnjak za viruse, nisam epidemiolog, ne smatram se stručnjakom ni u čemu. A opet, siguran sam da znam puno više stvari vezanih uz informatiku nego neki samoprozvani stručnjaci. Takva je sadašnjost IT-a, bitnije je kako se prezentirate nego što znate.
U svakom slučaju, sve što napišem i pokažem ovdje nije mišljenje osobe koja je stručna za korona virus, nego je moj pokušaj da samome sebi (i vama) objasnim što se to događa i kako se brzo taj virus širi.

U ovom prvom blog postu, fokus će biti na vizualizaciji podataka i pokušat ćemo pogledati par grafova koji opisuju službene podatke koje možete vidjeti ovdje.

Ovi podatci su sa “Johns Hopkins University Center for Systems Science and Engineering” ili kraće “Johns Hopkins CSSE”. Ažuriraju se na dnevnoj bazi.

Kao što sam napisao, prvi post bit će fokusiran na vizualizaciju samih podataka i prikaz kako se virus širi u svijetu, s fokusom na Europu, Lijepu Našu i susjedne zemlje.
Ovo je tipičan način rada na ML (Machine Learning) projektu. Prvo dohvatimo (ili skupimo) podatke, obradimo ih i korigiramo ako je potrebno, a nakon toga pokušamo prikazati same podatke da dobijemo čistu “sliku” što nam ti podaci govore.

Obrada i korigiranje podataka nužno je jer za razliku od stroja mi ljudi možemo procijeniti da li je podatak koji odskače nešto stvarno ili “šum” u podacima (skok temperature zraka s 9°C u četvrtak na 100°C u petak je greška u podacima, ne stvaran podatak).

Onda je i sljedeća faza puno lakša, kada koristimo te iste podatke kako bi pokušali pronaći model po kojem možemo predvidjeti nešto o čemu imamo povijesne podatke (u ovom slučaju širenje virusa).

Još jednom ću napomenuti, bilo koje predikcije čista su fikcija. Kao što su i sve druge predikcije. Ako vam netko kaže da može predvidjeti da vidi budućnost, onda je lud, glup ili laže (ili vam želi ukrasti novac). Ono što možemo napraviti je pretpostaviti kakva bi budućnost mogla biti. To ne znači da stvarno možemo vidjeti u budućnost i ljudi ne bi trebali koristiti nečije podatke kako bi potvrdili svoje viđenje svijeta i pokušavali podignuti veću paniku nego što je. Iako svi to radimo.

Podatke koje koristimo ažurirani su 19.03.2020 u 10:30.

SAD i svijet

Prije nego se fokusiramo na Hrvatsku i susjedne zemlje, bacit ćemo oko na SAD i ostatak svijeta. Na donjem grafu prikazujemo sve države SAD-a koje imaju više od 30 potvrđenih slučajeva. Na X-osi nalazi se broj potvrđenih slučajeva (Confirmed), a na Y-osi (Province/State) nalazi se lista država koja ima više od 30 potvrđenih slučajeva.

Ako pogledamo kakva je situacija danas u SAD-u i cijelom svijetu, možemo vidjeti sljedeće. Ova vizualizacija dobivena je preko Google Maps-a.

Nema razloga bojati se ovih crvenih točki na karti, one prikazuju preklapanje više točki, a kako su podatci koje imamo puno precizniji za SAD, onda se više točaka i preklapa. Na primjer, Italija je samo jedna točka, iako je situacija tamo puno gora nego na drugim mjestima – ona se ne očituje crvenom bojom.

Ali ovo nam ne govori puno, pokušamo vizualizirati što se događa u svijetu zadnja tri meseca. Uzmimo tri datuma:

  • 22.01.2020
  • 22.02.2020
  • 18.03.2020 (posljednji podatci u trenutku pisanja)

Za 22.01.2020 imamo sljedeću sliku:

Vidimo da se većina potvrđenih slučajeva zadržava u Kini.

Za 22.02.2020 imamo sljedeću sliku:

Vidimo da se broj slučajeva širi i da imamo slučajeve po Europi, SAD-u i Australiji.

Za 18.03.2020 imamo sljedeću sliku:

Virus se proširio po cijelom svijetu. Ne bi vas trebala zabrinjavati veličina krugova koliko promjena boje krugova. Za sada još ne vidimo veliku količinu potvrđenih slučajeva, iako vidimo da se Italija izdvojila, kao i Kina.

Ako pogledamo listu država u svijetu koje imaju više od 1000 potvrđenih slučajeva, dobijemo ovakvu sliku:

Ali nemojmo odmah paničariti. Pogledajmo sliku istih tih zemalja i koliko se ljudi uspješno izliječilo i oporavilo.

Sada možete paničariti! (ili možda ne, podaci i nisu toliko alarmantni)

Mislim da situacija pokazuje da je Kina napravila dobar posao i da kada se ovaj virus shvati ozbiljno, može se napraviti jako puno, skoro pa ga potpuno eliminirati.

Možda da i eliminiraju šišmiše s jelovnika, pa bi stvar bila još bolja. Šalim se. Žive šišmiše.

Italija malo kaska, ali karantena je proglašena tek nedavno, tako da bi se situacija trebala bitno poboljšati. Isto vrijedi i za ostale države, ako se ovaj virus shvati ozbiljno, puno se štete može spriječiti ili eliminirati.

Hrvatska i okolica

Za sada, podatci koje imamo pokazuju da ima preko 80 potvrđenih slučajeva. U medijima je broj slučajeva veći, ali ovi podaci ipak kasne jedan dan (sporiji ali precizniji). Kakvo je stanje s ljudima koji su se izliječili?

Situacija ipak nije toliko strašna. Iako vidimo trend koji izgleda da ide eksponencijalno prema gore, Hrvatska se još uvijek budi i mjere opreza sa zatvaranjem javnih mjesta i sprječavanja okupljanja velikog broja ljudi tek su počela provoditi.

Pogledajmo situaciju s državama s kojima Hrvatska graniči.

Vidimo da Italija daleko dominira i da se ostale države jedva vide. Pogledajmo kako to izgleda bez Italije.

Slovenija ima najviše slučajeva, iako cijela slika nije toliko strašna. Osim Italije, koje daleko premašuje sve okolne države, ostale država s kojima graničimo, nisu toliko zahvaćene. Broj preboljenih slučajeva nije toliko optimističan, ali nemaju niti veliki broj oboljelih.

Ako pokušamo napraviti neku grubu procjenu trenda za Hrvatsku, možemo dobiti ovako nešto:

Crvenom bojom je označen dan kada je proglašena restrikcija rada.

Situacija u Italiji.

Crvenom bojom je još jednom označen dan kada je proglašena karantena.

Možemo detaljnije pogledati i broj oboljelih u Hrvatskoj.

I isto tako u Italiji.

Ili da pregledamo sve nama susjedne zemlje.

Kao i stanje za cijelu Europu.

Zaključak

Situacija za sada kod nas nije toliko strašna, ali sigurno je da moramo biti oprezni kako se situacija ne bi pogoršala.

U skorijoj budućnosti uredit ću ovaj Jupyter Notebook (koji je korišten za vizualizaciju podataka) i sve staviti na GitHub kako bi bilo svima dostupno. Tada će biti moguće samo osvježiti podatke (opisat ću kako) i sve ove grafove ponovno generirati. Tako da će biti moguće svaki dan pogledati kakva je situacija i kako napreduje.

Sljedeći post sadržavati će i jednostavno strojno učenje da možemo bolje pogledati kako se virus širi i kako ga možemo (pokušati) predvidjeti.

Do tada, ne paničarite, držite se uputa županijskog i državnog stožera i stvari će vjerojatno biti bolje.

 

 

P.S. Više o nama pročitajte ovdje.

P.P.S. Za vizualizaciju ili analizu vaših podataka o poslovanju, prodajama ili slično možete nam se javiti:

 

11 + 8 =