Hidasi Balázs

Adatbányász kutató

ShiftTree

Áttekintés

A ShiftTree az idősor-osztályozás problémájának egy egyedülálló, modell alapú megközelítése. Az elképzelés alapja, hogy minden idősorhoz egy szemet (kurzort) rendelünk, ami az időtengely egy adott pontjára mutat. Dinamikus attribútumokat hozunk létre úgy, hogy a következő két kérdésre válaszolunk: (1) Hová nézzünk az időtengelyen? (2) Mit nézzünk az adott pontban? Az első kérdésre adott válasz azt mondja meg, hoyg hogyan mozgassuk a szemet az időtengely mentén (pl.: lépjünk előre 100 egységet, ugorjunk az előző lokális maximumra, stb). A második válasz pedig azt definiálja, hogy hogyan számoljuk ki a dinamikus attribútum értékét az adott pontban (pl.: a pontbeli érték, a pont körüli értékek súlyozott átlaga, a szem előző és mostani pozícíója közti időbeli eltérés, stb). Ezeket a dinamikus attribútumokat ezután egy bináris döntési fában használjuk fel.
Az évek során több kiegészítést/fejlesztést adtam az alap elképzeléshez, és így végül egy olyan modell alapú idősor-osztályozó lett az eredmény, aminek több elnőnye van az elterjedt legközelebbi szomszéd alapú megközelítésekkel szemben. A ShiftTree osztályozási pontossága általában jobb, mint szomszéd alapú módszereké, amennyiben a címkénkénti tanítópéldák száma kellően magas; egyébként pedig pontatlanabb.
A ShiftTree kutatását jelenleg felfüggesztettem, mivel az alap algoritmus már eléggé fejlett ehhez. Bár sok érdekes irány van, amerre tovább lehetne fejleszteni a módszert, jelenleg az ajánlórendszerekkel kapcsolatos kutatásaimra és a PhD tanulmányaimra koncentrálok. Tervezem, hogy idővel azért folytatom ezt a kutatást is.

Főbb előnyök

  • Gyors címkézés
  • Általánosító képesség
  • Értelmezhető modellek
  • Felhasználási területtől független módszer
  • Szakértői tudás beépíthető a modellbe

Főbb hátrányok

  • Nagyobb tanítóminta szükséges
  • Az induló operátor készlet kiválasztása problémás lehet

Részletes leírás

Hamarosan!
Amíg elkészül, addig a ShiftTree-vel kapcsolatos cikkekből, prezentációkból tájékozódhatsz (lásd lentebb).

Anyagok

ECML/PKDD 2011 cikk (cikk, ENG)

A 2011-es ECML/PKDD konferencián bemutatott cikk a ShiftTree-ről. Benne van a modell leírás, a tanítás módja, néhány kiterjesztés és természetesen a mérési eredmények.

ECML/PKDD 2011 prezentáció (ENG)

A 2011-es ECML/PKDD konferencián használt prezentáció.
Megtekintés SlideShare-en

ECML/PKDD 2011 poszter (ENG)

A ShiftTree poszteren. Nagyszerű áttekintést ad a módszerről és annak főbb jellemzőiről.

ML@BP prezentáció

A leginkább teljes diasor a ShiftTree-ről: tartalmaz minden felhasznált megoldást, és néhány olyat is, amit a fejlesztés közben használtam, de a végleges módszerből kikerültek. 2012. február 20-án tartottam az előadást az ML@BP keretein belül. Az előadás másfél órás volt, szóval ez egy elég hosszú diasor, néhány hosszabb animációval.
Megtekintés SlideShare-en

M.Sc. Diplomaterv

Talán a leginkább teljes dolgozat a ShiftTree-ről. Elsősorban az alap módszer kiterjesztéséről és továbbfejlesztéséről szól, ezért néhány fontos tulajdonságra csak hivatkozik, de nem fejti ki azokat bővebben (pl.: modellek értelmezhetősége).

B.Sc. Szakdolgozat

Ez a dolgozat a módszer egy korai verzióját ismerteti, ezért néhány állítása ma már nem állja meg a helyét. Sajnos néhány kisebb hiba is benne maradt.

Implementáció

Bár eddig kétszer is implementáltam a ShiftTree-t, egyik sem alkalmas arra, hogy mindenki számára elérhetővé tegyem. Tervezem egy olyan harmadik implementáció készítését, ami mások által is használható, de még nem kezdtem el, mivel nincsen rá időm. Ezért jelenleg nem érhető el a módszernek kipróbálható változata. Idővel el akarom készíteni, de ez nem a közeljövőben lesz.