Gépi tanulás az adatminőség szolgálatában
Napjaink adatmennyiség-robbanásával egyidejűleg az adatokban található hibák mennyisége is potenciálisan növekedésnek indulhatott. Ugyanakkor az exponenciálisan több adatban ezek megkeresése egyszerűen nem végezhető el manuálisan a hagyományos eszközök használatával. Emiatt kitüntetett szerephez jutnak a minőség-ellenőrzést automatizáló módszerek, amelyeket az MNB Statisztikai igazgatósága is fejleszt és alkalmaz.
A jegybanki adatszolgáltatásban paradigmaváltás zajlik: az eddigi, aggregált adatsorokat fokozatosan leváltani látszik a granuláris, szerződés- vagy ügyfél-szintű adatok gyűjtése. Az aggregált adatokat jó eredménnyel lehet „végignézni”, avagy ezt kissé formalizáltan, logikai szabályokon alapuló függvényekkel ellenőrizni, melynek során kiszámoljuk, hogy az újonnan kapott értékek mennyire térnek el a korábbi átlagoktól. Már ezeknél az adatoknál is alkalmazásra kerülhetnek olyan gépi tanuláson alapuló idősor-elemző módszerek, amelyek statisztikai modellbecslés alapján kalkulálják a várt értéktől vett különbséget. Amennyiben ez az eltérés egy bizonyos sávon túllép, a jegybank tartalmi magyarázatot tud kérni az adatszolgáltatótól. A pénzügyi folyamatok jobb megértése mellett az is előfordulhat, hogy az eltérés valójában hibát takar.
Habár a jegybankhoz beérkező, granulált adatszolgáltatások esetében is érdemes elkészíteni hasonló, aggregátumokra épülő idősorokat, alaposabb, szerződés-szintű módszerek is fejleszthetőek a gyanús esetek kiszűrésére.
Illusztrációként: egy olyan áruhitel, amelynél alacsony, fix kamatozást és sokmilliós hitelösszeget jelentenek, inkább tűnik lakáshitelnek, mint áruhitelnek. A gépi tanuláson alapuló módszerek szinte tetszőleges adatmennyiségen képesek az ehhez hasonló szabályszerűségeket azonosítani, a várt értéktől átvitt értelemben vett „eltérést” számolni és felfedezni a gyanús eseteket. Amennyiben a hasonló hibák szisztematikusan halmozódnak egy adatszolgáltatónál, nem csak az adatrögzítés, hanem az adatfeldolgozás folyamatának a hibái is felfedésre kerülhetnek.
Az itt vázolt módszerek, akárcsak a granulált adatszolgáltatások, még újak és folyamatosan fejlődnek. Azt azonban kijelenthetjük, hogy a gépi tanulás egyre nagyobb szerephez jut a minőségellenőrzésben.