Uvod

Pozdrav svima,

ovo će biti zadnji dio našeg serijala o Korona (COVID-19) virusu. Ukoliko bude interesa za primjenu umjetne inteligencije vezano za Korona virus moguće je da ćemo se vratiti temi, ali za sada ostavljamo sastane.

Osim ovog članka, tema sadrži:

Vizualizacija COVID-19 (Korona) virusa u Hrvatskoj i svijetu, prvi dio (19.3.2020.)

Prepoznavanje korona virusa uz pomoć rendgena (21.3.2020.)

Vizualizacija COVID-19 (Korona) virusa u Hrvatskoj i svijetu, drugi dio (27.3.2020.)

Korištenje Jupyter notebook-a za vizualizaciju zaraženih Korona virusom (3.4.2020)

Vizualizacija COVID-19 (Korona) virusa u Hrvatskoj i svijetu, treći dio (10.4.2020.)

 

Što smo (i kako) projicirali

U prvom članku posvetili smo se vizualizacijama tada dostupnih podataka kako bi osvijestili ljude što se ustvari događa.

Nakon toga smo imali Eureka moment s prepoznavanjem korona virusa uz pomoć rengena, ali se na kraju ispostavilo da algoritam prepoznaje razliku između virusnih (atipičnih) i bakterijskih (tipičnih, običnih) upala pluća. Hoće li takva tehnologija biti primjenjiva u zdravstvu ćemo tek vidjeti.

U drugom članku, posvetili smo se projekcijama na nekoliko načina. Prvi algoritam za projekcije koristio je linearnu regresiju kako bi predvidio kretanje broja zaraženih.
Osim toga dotakli smo se Gaussovih krivulja i procjena bez intervala sigurnosti (da, servirali smo vam lekcije iz statistike i stojnog učenja kroz aktualnu temu).

Nakon toga, iskoristio sam velik interes da vas pokušam navući na Jupyter Notebook, da sami isprobate rad s podacima.

U trećem dijelu Kristijan je objasnio SIR model koji bi se mogao koristiti za procjene i predviđanja epidemija,ali tek kada jasno utvrdimo neke od faktora koji su potrebni za takvu projekciju širenja, poput konstantnog faktora širenja i faktora zaraze.

Danas ćemo se vratiti na 27.03.2020. i 08.04.2020. pregledati koliko su bile točne procjene algoritma koristeći linearnu regresiju (i usput još malo statistike ubaciti unutra da vam ne bude dosadno).

Prije svega ponovo napominjem, te procjene temeljene su na malom setu podataka koji je tada bio dostupan, te je moguće da nisu dobro ostarjele.

Brzinski podsjetnik:

Crvena vertikalna linija označava datum predviđanja i zadnji dan podataka.

Plave točke su vizualizirani podaci do datuma predviđanja.

Narančasta linija je linearna regresija podataka.

Plava vertikalna linija označava previđeni najviši broj zaraženih, predviđen linearnom regresijom.

Bez odugovlačenja, predviđanja algoritma od 27.3.2020.

Pokrajina Hubei, Kina:

Pokrajina Guangdong, Kina:

Pokrajina Henan, Kina:

Pokrajina Zhejiang, Kina:

Italija

Španjolska

Njemačka

Hrvatska

I predviđanje algoritma na datum 8.4.2020.

Pokrajina Hubei, Kina:

Pokrajina Guangdong, Kina:

Pokrajina Henan, Kina:

Pokrajina Zhejiang, Kina:

Italija

Španjolska

Njemačka

Hrvatska

Stvarni podaci

Sada kada smo se podsjetili što smo to točno predviđali, dodat ćemo na te grafove stvarne podatke (te podatke algoritmi nisu imali, jer ne vide budućnost).

Bilo kome tko je pratio stanje s virusom, već sada ove gornje projekcije izgledaju čudno. Objasnit ćemo i zašto.

Narančastim točkama označit ćemo stvarne podatke, dok je ostatak grafa istovjetan kao grafovi koje ste već vidjeli.

(algoritam je imao pristup samo podacima prije crvene datumske linije)

Na sve slike možete kliknuti da ih otvorite u punoj velični.

Predviđanje za pokrajinu Hubei, Kina 27.3.:

Predviđanje za pokrajinu Hubei, Kina 8.4.:

Ok za Hubei smo dobili prilično točne rezultate, predviđeni brojevi i stvarni brojevi nam se gotovo poklapaju. Pogledajmo i za ostale pokrajine.

Predviđanje za pokrajinu Guandong, Kina 27.3.:

Predviđanje za pokrajinu Guandong, Kina 8.4.:

Ok ovdje već počinjemo uviđati problem, čak je i na dijelu krivulje na kojoj smo imali podatke već vidljiva razlika između predviđene i stvarne situacije.

Tu nam je i prva stavka na kojoj se možemo zadržati.

Kada koristimo linearnu regresiju, pokušavamo naći krivulju koja opisuje sve podatke i njihov trend. Ona nam služi kako bi veliki skup podataka pretvorili u nešto s čime možemo raditi i koristiti za predviđanja. Pogotovo kada je koristimo za predviđanje nečega što je “neuredno” poput broja novozaraženih, ona će odstupati od stvarnosti, ali nam i dalje može dati vrijedne podatke, poput onoga da po dosadašnjem rastu možemo pretpostaviti hoće li se on nastavati i (u ovom slučaju bitnije) gdje će se zaustaviti.

Predviđanje za pokrajinu Henan, Kina 27.3.:

Predviđanje za pokrajinu Henan, Kina 8.4.:

Slično kao i Hubei, pokrajina Henan pratila krivulju gotovo savršeno matematički.

Predviđanje za pokrajinu Zhejiang, Kina 27.3.:

Predviđanje za pokrajinu Zhejiang, Kina 8.4.:

Pokrajina Zhejiang negdje je između, jer malo odskače od sigmoidne funkcije, ali opet vidimo određenu pravilnost u njenom kretanju.

Sada kada znamo da rezultati mogu odskakati, i barem otprilike znamo zašto, ajmo pogledati nešto bliže nama, po Europi.

Predviđanje za Italiju 27.3.:

Predviđanje za Italiju 8.4.:

Je li moguće da procjena toliko pogriješi?

Algoritam je točan ovisno o tome koliko podataka ima, te koliko ti podaci prate sigmoidnu funkciju.

Primijetite da crvene vertikalne linije označavaju zadnje podatke koji su bili dostupni algoritmu. Tako da je procjena koja je imala podatke od 8.4. puno točnija od one koja je napravljena 27.3., ali uhvatit ćemo se toga nakon što pogledamo još Španjolsku, Njemačku i naravno Hrvatsku.

Ajmo redom, Španjolska.

Predviđanje za Španjolsku 27.3.:

Predviđanje za Španjolsku 8.4.:

Ovdje također imamo zanimljivu situaciju, da je prva procjena premašila stvarno stanje jer je Španjolska imala rapidan rast u broju zaraženih, ali se isto tako i krivulja korigirala do 8.4., kako su joj postale dostupne nove informacije. Kao i uvijek, što je više informacija to nam algoritam može dati točnije predviđanje.

(također možemo i primijetiti problem u prikupljanju podataka, gdje je vrijednost koja ne bi trebala padati, ukupan broj potvrđenih slučajeva pala)

Predviđanje za Njemačku 27.3.:

Predviđanje za Njemačku 8.4.:

U Njemačkoj smo naišli na sličnu situaciju kao u Italiji, gdje se nastavio rapidan rast novooboljelih čak i nakon prividnog primirenja, koji je algoritam onda protumačio kao početak kraja pada sigmoidne funkcije.

Predviđanje za Hrvatsku 27.3.:

Predviđanje za Hrvatsku 8.4.:

Hrvatska se tu našla u društvu s Njemačkom.

Koliko su podaci bitni!

Ok puno toga za probaviti, pogotovo jer neke procjene pašu a neke ne. Pokušat ću to sve maksimalno pojednostaviti, nije cilj napisati znanstveni rad nego objasniti mali dio načina na koji predviđamo trendove.

Cilj ovakve projekcije (linearne regresije) je set podataka svesti na krivulju. Linearna regresija predviđa kako će izgledati kraj krivulje koja opisuje neke podatke ovisno o njenom početku.

Takav pristup nije savršen, ali daje dobre rezultate, koji su ipak osjetljivi na nagle skokove ili promjene.

Primjer ćemo napraviti na njemačkoj, gdje ćemo napraviti linearnu regresiju za svaki dan za razdoblje od 27.3.2020 (kada smo mi napravili prve regresije) do 6.5.2020. (kada su povučeni podaci za ovaj članak.

I to sve posložiti u animaciju da odmah možete vidjeti promjene.

Kroz par dana će linearna regresija “dostići” stvarne podatke, te će ona puno točnije moći opisati sve što se događalo s brojem zaraženih, te s puno većom točnošću.

Takva funkcija u budućnosti će se moći iskoristiti kako bi se bolje predvidjele i obuzdale neke nove svjetske pandemije ako se ikada pojave.

I pred sam kraj, kako izgledaju regresije sa “svježim” podacima.

Hubei:

Guangdong:

Henan:

Zhejiang:

Italija:

Španjolska:

Njemačka:

Hrvatska:

Koliko je iskustvo bitno!

Na ovakav razvoj događaja, gdje previđeni podaci neće odgovarati stvarnosti jer su utemeljeni na ograničenom (malom / kratkom) skupu povijesnih podataka, upozorili smo u svakom članku kako ne bi dopustili da se naše projekcije krivo interpretiraju.

Sa svakom izjavom vezanom za pandemiju treba biti oprezan, i potrebno je puno provjera prije nego se nešto može sa sigurnošću utvrditi.

Nasljedno od našeg rada s podacima i projekcijama, moramo napomenuti kolika je sigurnost dobivenih rezultata.

Tek kada je dovoljno polaznih podataka, možemo sa sigurnošću projicirati nešto u budućnost. Sve što nije temeljeno na dovoljno podataka je samo nagađanje.

 

Zaključak

Došlo je vrijeme da se oprostimo od aktivne analize korona virusom i posvetimo svoje vrijeme nekim novim projektima.

Nadamo se da vam izolacija i karantena nisu teško pale i da se polako vraćate u normalu.

Pazite kako predviđate događaju, budite objektivni i pazite da su podaci konkretni!

Za bilo kakva pitanja ili analize, slobodno nas kontaktirajte!