Pozdrav svima. 

 

Zadnji članak koji je napisao bio je na temu aplikacije za automatsku detekciju kvara postrojenja – https://exact-byte.com/hr/aplikacija-za-automatsku-detekciju-kvara-postrojenja/

 

Da li vas zanima kako je segmentirano tržište osiguranja i koja vrsta osiguranja, u kojim županijama i kojim vrstima klijenta možete najviše profitirati?

 

Nedavno je objavljeno natjecanje iz Croatia Osiguranja gdje je ideja bila dati natjecateljima podatke iz interne baze Croatia Osiguranja i vidjeti što mogu napraviti sa tim podatcima. Najviše od svega, da li je moguće predvidjeti segmentaciju tržišta ostalih osiguranja. 

Sama najava natjecanja je ovdje – https://bird-incubator.com/events/croatia-osiguranje-bird-incubator-present-data-challenge/

 

Croatia Osiguranje najveće je osiguranje u hrvatskoj i drži četvrtinu cijelog tržišta osiguranja u hrvatskoj.

 

Zanimalo ih je pitanje na koji segment (ukupnog) tržišta se fokusirati, kako maksimizirati svoj trud, ili jednostanije – kako zaraditi najviše novaca? To pretpostavlja da je moguće otkriti kako su pojedini segmenti tržišta osiguranja segmentirati i da li ih je moguće projicirati u budućnost? Odgovor je da, iako nije moguće predviđati daleko u budućnost.

 

Natjecanje je bilo podijeljeno u timove i samnom u timu si bile još dvije osobe, koje su vremenom odustale.

Originalno je bilo 7 timova te je svaki od timova na početku natjecanja ispričao svoju ideju kako i što žele napraviti. Na finalu bilo je 3 tima, jedan od kojih sam bio ja. Većina timova je  u uvodu pričala o programima koji koriste neuralne mreže, što je meni bilo dosta čudno, pošto ovo nije jedno od područja gdje se neuralne mreže mogu dobro iskoristiti. Moja inicijalna ideja bila je ona koju sam na kraju i iskoristio, time ukazujući da sam ne samo dobro razumio problem, već i odmah vidio kako ga riješiti.

 

Iako smo se prijavili van konkurencije i nismo tražili nagradu, pošto imamo dosta iskustva i radili smo ozbiljnije projekte, na kraju smo dobili jednu od nagrada i napravili program koji radi točno ono što su tražili iz CO (Croatia Osiguranja), projekcije neviđenih segmenata ostatka tržišta (van CO) i usporedbu toga sa udjelom iz CO.

 

Program koji smo izradili radi vremenske projekcije u budućnost, te povezuje ne samo internu bazu Croatia Osiguranja (za koju mi je rečeno da oni već imaju projekcije), već i povezuje vanjske podatke iz HUO baze. HUO je Hrvatski Ured za Osiguranje i drži statističke podatke vezane za sva osiguranja koja posluju u hrvatskoj. Sa tom vanjskom bazom moguće je povezati interne podatke iz CO, te time dobiti vrlo precizne projekcije samog tržišta.

Bitno je za napomenuti da podatci iz CO ne mogu koristiti pošto smo potpisali NDA ugovor, te podatci koji se pokazuju ovdje nisu isti oni podatci dobiveni iz baze CO, već su modificirani kako bi se zadržala anonimnost.

Koji problem riješavamo?

Problem koji riješavamo lako možemo pokazati na slici ispod.

Na vrhu, imamo segmentaciju svih osiguranja, između CO i ostalih. Ono što je najviše zanimalo CO je točno na toj slici. Segmentacije svijetlim bojama bile su od veće važnosti. Znači zanimalo ih je koji udio ukupnog osiguranja ima CO, a koji imaju ostali. 

 

Od onoga što imamo iz CO podataka, više ih je zanimao neživot, što je osiguranje koje se ne tiče života. “Život nije bitan” bila je zabavna fraza koja je pratila ovu segmentaciju kako smo je čuli iz CO. Dakle možemo zamisliti auto osiguranje, kasko, zdravsteno osiguranje, putno osiguranje i puno drugih vrsta osiguranja.

 

Od segmentacije neživota, zanimala ih je podjela na fizičke (retail) i pravne osobe. Ono što je zanimljivo je da interna baza koju smo mi koristili iz CO nema zapisa o fizičkim osobama, već drži zapise samo o pravnim osobama, pošto je fokus bio na pravnim osobama. Kada je riječ o OPG-u, svrstavaju se u pravne osobe, a fizičke osobe ostaju nedefinirane unutar baze CO.

 

Od pravnih osoba (B2B) imamo tu veliku podjelu na SME i CORPO klijente. Pod SME spadaju MICRO, SMALL, MEDIUM, LARGE a pod CORPO idu ovi TOP klijenti.

 

I od svih tih segmentacija, CO zanima da li se može saznati njihov udio i udio njihove konkurencije na tržištu, kao i projekcije segmenata u budućnost. Odgovor je da, može.

 

Ali prvo pogledajmo malo javne podatke i što možemo dobiti iz tih podataka.

HUO statistika

Ovo su javni podatci te pokazuju prave podatke koji nisu “zamaskirani”, dok kada budem koristio interne podatke iz CO, podatke ću morati “zamaskirati” kako bih ispoštovao NDA i ne izložio privatne podatke CO u javnost.

 

Uzmimo primjer premija iz HUO vezano za CO. Ukupan broj godišnjih premija.

I uzmimo primjer gdje vidimo ukupan broj godišnjih premija svih osiguranja u hrvatskoj.

I naravno, možemo usporediti te dvije vrijednosti po godinama sa jednim jako lijepim grafom.

Kao prvo, možemo to vidjeti sa ovim usporednim grafom gdje ovom zlatnom bojom pokazujemo CO.

Ali isto tako, možemo to lijepše prikazati.

Isto tako, možemo vidjeti ove podatke grupirane po mjesecima, umjesto po godini.

Gdje vidimo, nad javnim podatcima, razliku između CO i ostatka tržišta osiguranja. Vidimo da CO drži otprilike 25% tržišta te da kako vrijeme prolazi, CO gubi tržište više i više.

Predviđanje buduće količine premija

Ono što možemo napraviti je, doslovno, predviđanje budućnosti ovog trenda. 

To možemo napraviti pomoću vremenskih serija i vidjeti što će se dogoditi u budućnosti. Objašnjenje kako smo došli do tih vremenskih serija može doći u zasebnom članku ako bude interesa, jer, ruku na srce, nikoga tko ovo čita ne briga kako lijep algoritam postoji, već ga zanimaju rezultati. Rezultati i novac. Prelijep je ovaj svijet u kojem živimo, gdje ideje i znanje vrijede koliko i iznos za koji ih možeš prodati.

Ukupno tržište

Pogledajmo predviđanje ukupnog tržišta osiguranja.

Možemo vidjeti kako na X osi imamo datume i godine kroz te datume. Drugim riječima, na X osi, ovo lijevo desno, je vrijeme i kako vrijeme prolazi. Na Y osi, ovo gore dolje, iznosi su u kunama i predstavljaju ukupnu tržišnu vrijednost premija osiguranja. Trebamo imati na umu da su podatci ovdje grupirani na razini mjeseca, te zato vidimo ove lagane “skokove” na grafovima.

Plavom linijom imamo prave podatke, dok je zelenom linijom označeno predviđanje algoritma. Ovo svijetlom bojom označava regiju sigurnosti predviđanja od 95%. Drugim riječima, algoritam nam garantira da će vrijednosti, sa sigurnošću od 95%, biti negdje u ovoj svijetlo zelenoj regiji.

Ono što je zanimljivo na grafu je ova crvena iscrtkana vertikalna linija. Ona predstavlja “horizont” podataka, što je granica do koje imamo podatke. Znači lijevo od ove crvene crte imamo postojeće podatke, desno od nje imamo podatke koje je program predvidio. Podatke koji još ne postoje, predviđeni podatci budućnosti.

Sudeći po podatcima, sljedeća godina biti će nešto veća nego prošla.

 

Ovo isto možemo napraviti sa javnim podatcima iz CO.

Vidimo da postoji lagani porast, iako nije nešto značajan.

Ono što je zanimljivo i što možemo malo detaljnije pogledati iz javnih podataka je zasebna grupacija osiguranja po grupi EU2 osiguranja.

EU2 grupacija

Gdje vidimo da CO u nekim slučajevima ima dosta dobru pokrivenost pojedine grupe, dok u drugim slučajevima nema skoro ništa iz pojedine grupe.

 

I, naravno, možemo napraviti projekcije iz pojedine grupe u budućnost za CO, kao i za druge. Ali krenimo sa CO. Pogledajmo dosta čestu kategoriju osiguranja, KASKO.

Ili pogledajmo ukupno tržište premija KASKO osiguranja i kako se kreće, kako će se kretati.

Ovakva predviđanja možemo napraviti po svim ovim kategorijama i možemo vidjeti rezultate projekcija u budućnosti. Pogledajmo još jedan primjer sa CO i dopunskim zdravstvenim osiguranjem.

Sa svim ovim primjerima došli smo negdje do granice našeg predviđanja sa javnim podatcima. Sve ove kategorije možemo kombinirati i dobiti grafove i projekcije u budućnost.

Pitanja koja nas zanimaju su – kakve je segmentacija na vrste klijenata privatne/poslovne? I isto tako, kakva je segmentacija poslovnih? Podsjetimo se slike.

Ono što možemo dalje napraviti sa privatnom bazom od CO i što možemo onda projicirati nazad na tržište svog osiguranja na granici je znanstvene fantastike.

Ono što ćemo pokazati primjer je gdje ćemo na temelju podataka iz CO projicirati segmentaciju ostalog tržišta i dobit kompletnu segmentaciju tržišta na SME, kao i njhove podkategorije.

Segmentacija CO baze

Po segmentaciji podataka iz CO baze, možemo dobiti dosta podataka koji nam nedostaju. Naravno, podatci koji se koriste i primijenjuju ovdje, zamaskirani su kako bismo ispoštovali NDA ugovor sa CO.

Na grafu koji slijedi možemo vidjeti koliki udio ima CO na tržištu, sa time da je potrebno imati na umu da podatci od CO nisu “pravi” podatci, već zamaskirani.

Na temelju ovoga grafa, možemo vidjeti ukupno tržište, tržište koje CO zauzima i dio tržišta koje CO pokriva sa poslovnim (pravnim) korisnicima koje smo mi dobili kao podatke, koji su umanjeni za neki magični broj kako bi zadržali anonimnost podataka iz CO.

 

Ono što je ovdje bitno za vidjeti je slijedeće. Imamo ukupno tržište i kako je podijeljeno. Imamo udio CO na tržištu. I imamo udio poslovnih klijenata (B2B). Time možemo jednostavno izračunati koji je udio RETAIL klijenata od CO. Ali ne samo to. 

 

Pošto imamo podsegmentacije poslovnog tržišta CO, možemo projicirati te segmentacije na ostatak tržišta i vidjeti, pod predpostavkom da je segmentacija CO validna, koliki je udio drugih osiguranja na tim tržištima? Koliko je udio SMI od AGRAM osiguranja? Koji je udio od TOP corporate od ALLIANZ osiguranja?

 

Recimo, zanima nas pitanje koliko je količina kasko osiguranja kod osiguravajuće kuće koja ima manje tržišta nego CO? Neke specifične osiguravajuće kuće?

 

Krenimo od jednostavnijih primjera.

Pogledajmo kolika je količina premija CO iz SMI segmenta.

Naravno, ovo nisu pravi podatci iz CO, iako su dovoljno “pravi” da se sa njima može pokazati primjer kako utječu na ostatak tržišta.

 

Algoritam koji koristima da bismo dobili ove podatke omogućuje nam da pogledamo komponente ovog grafa i da sa njime pogledamo generalni, koliko i godišnji trend.

 

Pogledajmo generalni trend.

I pogledajmo godišnji trend i koliko utječe na generalni trend.

Kada spojimo obje komponente (pomnožimo ih u ovom slučaju) možemo jako lijepo vidjeti što one formiraju.

Dakle, pitajući algoritam da naše podatke pokuša uklopiti u ove dvije komponente generalnog trenda i godišnjeg trenda, uspjeli smo, kompozicijom, dobiti opis vremense serije koja točno opisuje rast SME tržišta u CO.

 

Ovim algoritmom možemo dodavati dodatne komponente koje utječu na samu vremensku seriju i pitati algoritam da ekstrapolira vrijednosti tih komponenti kako bi onda one odgovarale grafu kojeg gledamo.

 

Probajmo dodati još jedan bitan podatak u ovu cijelu priču, podatak o ukupnom tržištu CO na tržištu svih osiguranja. Sa time, vidjeli bismo kako ukupan udio tržišta utječe na segmentaciju SME poduzeća koje jedno osiguranje ima. Pod prepostavkom da ih ima i da je struktura donekle slična kao i CO.

 

Možemo vidjeti kako bi izgledala projekcija SME tržišta da imamo osiguranje koje je 4 puta manje od CO. To naivno možemo napraviti da uzmemo generalni i godišnji trend i primjenimo ih na vrijednost koja je 4 puta manja.

Kako vidimo na slici, podatci od CO i dalje su isti, ali se predviđanje/projekcija manjeg osiguranja smjestila puno niže. Kao što vidimo, trend je puno manji, kao što je i samo predviđanje.

 

Prilično dobro. Samo sa ovime možemo raditi okvirne procjene. Što je onda problem sa ovime? Pa problem sa ovime je što nemamo nikakve poveznice između samih funkcija, ne postoji nikakva korelacija/poveznica između njih.

 

Samim time, procjene mogu biti jako okvirne, temeljene na razlici u prometu, ali ne nužno povezane sa samim padom/rastom premija za pojedinu kategoriju ili povezane sa ukupnim tržištem.

Da li možemo bolje? Naravno da možemo.

 

Modeli koje koristimo možemo povezati zajedno koristeći jednu od mogućnosti (u ovom slučaju, iz PyMC3), koji se zove koregionalizacijski model, te time ne samo generirati funkciju ukupne premije i funkciju premije CO, već možemo i uzeti u obzir njihov odnos, pretpostavljajući da postoje varijable koje ne vidimo a koje utječu na obe funkcije. Time se odnos između funkcija stvara koristeći zajedničku “nevidljivu” vrijednost koja utječe na jednu i na drugu funkciju.

Time osiguravamo da te iste “nevidljive” vrijednosti projiciramo i na podkategorije od interesa – kasko osiguranje, zdravstevno osiguranje i ostalo.

Samim time, naša računica biti će puno točnija, ali će isto tako koristiti referencu ukupnog tržišta i njihov zajednički odnos.

Da ponovim još jednom, podatci od CO nisu ispravni.

Ako pogledamo sliku malo detaljnije, možemo vidjeti kako postoje pojedine linije i plave i crvene boje. Svaka linija označava jedan uzorak našeg modela, dok sve one zajedno daju lijepu sliku sigurnosti modela i njegovo odskakanje.

Plavom linijom označen je ukupan promet, crvenom linijom označen je promet u CO (još jednom, zamaskirana je vrijednost).

Što još možemo uraditi?

Možemo uraditi još puno stvari. Možemo napraviti projekcije za podkategorije, ako uzmemo u obzir koliko pojedino osiguranje ulaže u njega, kao i okvirni odnos te kategorije na tržištu. Možemo računati na kojoj grupi bi mogli najviše profitirati ako uložimo u nju, pogotovo ako uzmemo u obzir ponude premije za tu grupu. Ako vas nešto od toga interesira, javite se.

Zaključak

Možemo vidjeti iz članka da danas postoji puno mogućnosti koje nam mogu pomoći donijeti odluke. Ne samo da na raspolaganju imamo grafove koji jasno mogu pokazati smjer u kojem trebamo ići, već možemo raditi i projekcije zahvaljujući vremenskim serijama i na temelju istih doći do vrijednosti tržišta na neviđenim (pod)segmentima.

Sa što više podataka radimo, više je moguće izvući.