Hidasi Balázs

Adatbányász kutató

Üdvözöllek!

Bemutatkozás

Szia, és üdvözöllek az oldalamon! Hidasi Balázs, adatbányász kutató vagyok. Jelenleg ajánlórendszerek, ajánlóalgoritmusok kutatásával foglalkozok, de minden érdekel, ami gépi tanulás vagy adatbányászat. Az oldalon az aktuális és múltbeli kutatásaimmal kapcsolatos információkat találsz, illetve néhány dolgot rólam. A kutatási eredményeket összefoglaló cikkek előzetes (draft) verziói elérhetőek a publikációs listámon keresztül. Ha érdeklődsz a kutatásom iránt, valamilyen közös projektet szeretnél velem, vagy csak kérdésed van hozzám, nyugodtan írj egy emailt. Egyébként pedig kellemes böngészést kívánok az oldalamon! :)

Hírek

PhD

A mai napon sikeresen megvédtem a doktori (PhD) disszertációmat. A disszertáció címe: Context-aware factorization methods for implicit feedback based recommendation problems. A dolgozat a 2011 és 2014 közötti kutatásom fő irányán alapul és így tartalmazza a mátrixfaktorizáció inicializálását, az iTALS és iTALSx algoritmusokat, az ALS gyorsítását közelítő módszerekkel és természetesen a GFF-et is. A disszertáció elérhető a publikációs oldalon keresztül.

Kirakva: 2016. június 28.

Deep learning

Lassan már egy éve a deep learning ajánlórendszereken belüli alkalmazásán dolgozok. A témára egy kutatási együttműködést indítottunk a Telefonica Research-nél dolgozó kollégáinkkal. Egy olyan problémát választottunk, ami ritkán kerül elő a kutatásban, de a gyakorlatban nagyon fontos. Ez nem más mint a session alapú ajánlás. Az eredmények elég meggyőzőek voltak, ezért egy cikket is írtunk a témáról, amit elfogadtak az ICLR 2016 konferenciára. Ezt tegnapelőtt mutattam be a konferencián. Természetesen ezzel nem ért véget a kutatás, azóta is több érdekes témán dolgozunk.
Erős meggyőződésem, hogy a deep learning a következő nagy lépés az ajánlórendszerek fejlődésében, és eléggé meglepne, ha nem látnék majd több a témában írt cikket a 2016-os RecSys konferencián. Ha még nem sokat tudsz a területről, javaslom a Startup Safary Budapest keretében a Gravity Meetupon megtartott előadásom diáit átnézésre. Ez egy ismeretterjesztő jellegű előadás volt a deep learningről és arról, hogy mi mindent lehet ezzel kezdeni az ajánlórendszerekben. Május 12-én pedig egy mélyebb előadást fogok tartani a session alapú ajánlásról és az RNN-ekről az első Budapest RecSys and Personalization Meetup keretén belül. Ha érdekel annyira a téma, hogy saját kutatásba kezdj, javaslom, hogy adj be cikket az általam is szervezett DLRS 2016 workshopra. A workshop a 2016-os RecSys-en belül kerül megrendezésre Bostonban, 2016. szeptember 15-én.

Kirakve: 2016. május 06.

Végre megjelent a GFF cikk

Örömömre szolgál bejelenteni, hogy végre megjelent a cikkem az általam létrehozott általános faktorizációs keretrendszerről (General Factorization Framework - GFF) a jó nevű DMKD folyóiratban. 2012 végén kezdtem el dolgozni a témán, nem sokkal az iTALS és iTALSx algoritmusok befejezése után. Az egész kutatás az előbbi két algoritmus közötti hasonlóságok és különbségek elemzéséből indult. A keretrendszer célja, hogy a kontextus vezérelt ajánlási problémára különféle modelleket ki lehessen próbálni egy algoritmuson belül, anélkül, hogy kissé eltérő verziókat kéne implementálni minden modelhez külön-külön. A mindennapi munkám során is nagy hasznát vettem volna egy ilyen rendszernek. A kutatás 2013 elején is folytatódott és a GFF az eredeti terveken felül bővült, új funkciókat kapott. Az implementálás befejezése után egy nagyon érdekes kísérletsorozatot valósítottam meg benne, aminek keretében a tradicionálisan használt N-way és páronkénti preferencia modellektől eltérő preferencia modelleket vizsgáltam meg. Először 2013 nyarán próbáltam meg publikálni a GFF-ből írt cikket. A fő probléma az volt, hogy nehéz volt egy konferencia cikk oldallimitén belül tisztán és érthetően kommunikálni, hogy miért nagy előrelépés ez a keretrendszer ÉS rendesen leírni magát az algoritmust ÉS bemutatni a kísérletsorozatot a preferencia modellekről. Több konferenciáról is vegyes bírálatokat kapott a cikk, és a negatívakat mindig valamilyen félreértésre sikerült visszavezetni. Így aztán 2014 elején inkább a folyóirat publikációk felé mozdultunk. Az első cikk verzió rendben volt, de közelről sem volt tökéletes, és ezen a ponton már nagyon zavart, hogy ennyit csúszik a publikáció. Ezért amikor újboli beadásra kötelezték a cikket, hosszabb ideig inkább más feladatokkal és kutatásokkal foglalkoztam. 2014 végén szántam rá magamat, hogy újra nekifussak, és ekkor teljesen újraírtam a cikket. Két bírálati kör után, 2015. április 23-án végül elfogadták, és nem sokkal később meg is jelent. Érdeklődők elérhetik a cikket a publikációs listán keresztül.

Kirakva: 2015. május 09.

CaRR 2014 & látogatás a Delfti Egyetemen

A hét vége felé Hollandiába látogatok, ahol a legújabb kutatásom eredményeit fogom bemutatni a folytonos kontextus dimenziók faktorizációs algoritmusokon belüli modellezésével kapcsolatban a CaRR 2014 workshopon, április 13-án, Amszterdamban. Ez egy kifejezetten érdekes kutatás, és az eredmények is jelentősen túlszárnyalják azt, amire előzetesen számítottam. Ráaádsul ezzel a problémával még nem nagyon foglalkozott a kutatói közösség, így még izgalmasabb a számomra. Javaslom a cikk elolvasását, miután elérhető lesz. A workshop utáni napon felkerül ide mind a cikk, mind a prezentáció. A hollandiai utam alatt a Delfti Műszaki Egyetemet is meglátogatom, ahol a CrowdRec projektben résztvevő helyi kutatókkal fogok egyeztetni kutatásról és esetleges együttműködésről. A CrowdRec egy FP7-es EU-s projekt, ami az ajánló algoritmusok és ajánlórendszerek új generációjának kifejlesztésére fókuszál. A cél olyan módszerek kifejlesztése, amik képesek kezelni a stream jellegű ajánlásokat és teljesen kontextus-vezéreltek, miközben szimbiotikus viszonyban vannak a felhasználóikkal, és az ő tudásukat is felhasználják az ajánlások pontosításához. (További részletekért látogass el a projekt honlapjára.) A Gravity R&D (a cég, ahol kutatóként dolgozok) az egyik partner ebben a projektben.

Kirakva: 2014. április 09.

Eközben...

Jó ideje nem frissítettem már a weboldalt. A szünet oka az, hogy a kutatási eredményeim publikálása jelentős lemaradásban van a kutatásomhoz képest. Ez részben annak köszönhető, hogy jobban érdekel a kutatás, mint a publikációk írása, részben viszont néhány bíráló félreérti a cikkeim lényegi mondanivalóját, ami miatt nekem azokat újra kell írnom és újra be kell adnom elbírálásra. Úgy döntöttem, hogy a helyzet ideiglenes megoldásaként a cikkeim előzetes verzióit feltöltöm az arxiv.org-ra. Ezek egy ideje már láthatóak a Google Scholar profilomon keresztül, de itt is fel szeretném hívni a figyelmet két fontos cikkemre. Az első címe "General factorization framework for context-aware recommendations". Ebben a cikkben egy általános faktorizációs keretrendszert mutatok be, ami képes tetszőleges lineáris faktorizációs modellt megtanulni, függetlenül a modell dimenzióinak számától, vagy a köztük modellezett összefüggések jellegétől. A keretrendszer lehetővé teszi, hogy különböző modellekkel kísérletezzünk, olyanokkal is, amik nem elérhetőek a jelenlegi módszerek használata közben. Ezáltal új modelleket találhatunk, amik akár egy adott problémára, vagy akár általánosan a kontextus-vezérelt ajánlások problémájára jobb megoldást adnak. A cikkben egy példát is mutatok erre, ahol több modellt is összehasonlítok egy két kontextusos probléma mentén. A keretrendszer a kiegészítésével együtt teljesen konform a Multidimensional Dataspace adatmodellel, ami lehetővé teszi összetett kontextusok használatát is (a módszerek többsége csak atomi kontextust kezel). A másik cikk a "Context-aware recommendations from implicit data via scalable tensor factorization" névre hallgat. Ez a 2012-es ECML/PKDD konferencián bemutatott iTALS algoritmusról szóló cikk kiegészített verziója. Bemutatok két megoldást, amivel az ALS tanulás skálázódása javítható és megvizsgálom, hogy ezek milyen hatással vannak az algoritmus pontosságára. Ezen kívül szezonalitással kapcsolatos extra kísérletek is helyet kaptak a cikkben.

Kirakva: 2014. április 09.

CaRR 2013

2013. február 5-én előadok a 2013-as CaRR workshopon egy, a kutatásomhoz kapcsolódó, érdekes mellék-projektről. A téma a kontextus-vezérelt hasonlóságok vizsgálata a faktorizációs keretrendszerben. Az előadáshoz kapcsolódó anyagok felkerülnek ide a workshop után.

Kirakva: 2013. február 04.

ECML/PKDD 2012

Részt veszek és prezentálok a 2012-es ECML/PKDD konferencián, Bristolban, 2012. szeptember 24-28. között.

Kirakva: 2012. szeptember 17.

Frissítések

RecSys 2016 cikk

Feltöltöttem a Recsys 2016 konferenciára elfogadott cikkemet az oldalra. A cikk témája olyan újszerű, párhuzamos RNN struktúrák és a tanításuk tárgyalása, amik lehetővé teszik, hogy kép és/vagy szöveges információt használjunk fel session alapú ajánlásoknál. További részletek és anyagok (pl. diák) később várhatóak..

Kirakva: 2016. július 18.

PhD disszertáció

A PhD disszertációm megtalálható a publikációk között.

Kirakva: 206. június 28.

ICLR 2016

Az ICLR 2016 konferencián mutattam be a kutatásomat az RNN-ekkel való session alapú ajánlásokról. Ez a munka az egyik első, ami deep learninget használ ajánlórendszerekben. A cikk, a poszter és az algoritmus is elérhető a publikációs oldalon.

Kirakva: 2016. május 06.

RecSys'15

Tartottam egy előadást a kutatásomról a RecSys'15 konrefencia doktori szimpóziumán. A prezentáció, a hozzá tartozó cikk és poszter a PhD kutatásom központi résézt foglalja össze, mint például az iTALS, iTALSx, ALS-CG/CD és GFF. Az összes anyagot feltöltöttem a publikációk közé. A cikk egy bemutatkozó jellegű munka, a részletek iránt érdeklődőknek a hosszabb folyóirat és konferencia cikkeim elolvasását javaslom (azintén megtalálhatóak a publikációk között).

Kirakva: 2015. szeptember 20.

Egy újabb folyóiratcikk

Frissítettem a publikációs listámat a legújabb folyóirat cikkemmel. A cikk az ALS tanulás gyorsításával foglalkozik kontextus vezérelt faktorizációs algoritmusokban. Két közelítő megoldást mutat ba, ezeket egymással és az ALS-sel is részletesen összehasonlítja. A cikk a jó hírű KAIS folyóiratban jelent meg.

Kirakva: 2015. július 19.

Folyóirat cikkek & CV frissítés

Frissítettem a publikációk listáját két folyóirat cikkel.
Az első az iTALSx algoritmust tárgyalja, ami az iTALS nevű kontextus vezérelt faktorizációs algoritmusom egy variánsa. A cikk maga egy régebbi tech report publikus verziója. A cikk főként a két módszer összehasonlítására fókuszál. A cikk 2014. decemberében jelent meg az Infocommunications Journal-ben.
A második cikk témája egy általános faktorizációs keretrendszer (General Factorization Framework - GFF), amit a komolyabb munkáim között tartok számon (a ShiftTree és az iTALS mellett). A tekintélyes DMKD folyóiratban jelent meg néhány napja. Elég sokáig tartott megjelentetni (lásd a híreknél a téma részletes történetét), de úgy gondolom, hogy végül megérte a fáradozást.
Emellett frissítettem a CV-met is.

Kirakva: 2015. május 09.

Hollandiai prezentációk és cikk

Frissült a publikációs lista a CaRR2014 workshopon előadott cikkemmel és a hozzá tartozó prezentációval. A cikket már korábban beharangoztam, mindenkinek ajánlom olvasásra! A hollandiai utam során a Delfti Műszaki Egyetemen is tartottam egy előadást, ami a kutatásom áttekintéséről szólt. Ennek diasora elérhető a SlideShare profilomon keresztül.

Kirakva: 2014. április 13.

Első folyóirat cikkem

Frissült a publikációs lista a nemrégiben a J.UCS (Journal of Universal Computer Science) folyóiratban megjelent "Initializing Matrix Factorization Methods on Implicit Feedback Databases" című cikkemmel. A cikk a 2012-es CaRR cikk jelentősen kibővített verziója. A teljes PDF elérhető a J.UCS oldaláról. (Egy közvetlen linket kitettem a publikációs oldalra.)

Kirakva: 2013. október 14.

Profilok

A "Kapcsolat" oldalra felkerültek linkek különböző profiljaimra (SlideShare, LinkedIn, stb). Ezen felül kisebb változások történtek az oldal design-jában.

Kirakva: 2013. május 06.

Kettős frissítés

  • Felkerült az oldalra a CaRR 2013 workshopon bemutatott, kontextus vezérelt hasonlóságokról szóló cikk és diasor. Elérhető a publikációs listán, vagy a Kutatás/Ajánlórendszerek menüponton keresztül.
  • Ezentúl minden diasor elérhető, a megszokott PPT formátum mellett, a SlideShare-en keresztül is. Sajnos a SlideShare nem támogatja az animációkat, ezért az animált diákat több részre bontottam, hogy hasonlóan nézzenek ki mint az eredeti prezentációk.

Kirakva: 2013. február 11.

iTALS anyagok

Felkerültek az oldalra az ECML/PKDD-n bemutatott anyagok az iTALS algoritmusról (cikk előzetes verzió, diasor és poszter).

Kirakva: 2012. szeptember 29.

Felkerült az oldal

Jó sokáig tartott, de végre elkészült. A közeljövőben jelentősebb frissítések várhatóak.

Kirakva: 2012. szeptember 17.