Zadání diplomové práce

Evoluční kombinování klasifikátorů

(klíčová slova: dobývání znalostí z dat, klasifikace, kombinování klasifikátorů, evoluční algoritmy)


Jednou ze základních úloh řešených při dobývání znalostí z dat je klasifikace, tj. zařazování dat do tříd vymezených pouze na základě příkladů se známou příslušností. Protože zpracování empirických dat bylo původně doménou statistiky, spočívají tradiční klasifikační metody na statistických principech. Nástup počítačů a neustálý růst jejich výkonu však vedl ke vzniku a rychlému rozvoji klasifikačních metod založených na principech strojového učení – např. klasifikace pomocí umělých neuronových sítí, pomocí klasifikačních stromů, či tzv. SVM klasifikátory (support vector machines), spočívající na jádrových funkcích. Většina klasifikátorů přitom závisí na nějakém volitelném parametru či parametrech, jejichž volba může podstatým způsobem ovlivnit výsledek klasifikace. Díky tomu jsme při řešení klasifikačních problémů často v situaci, že máme k dispozici několik přibližně stejně přesných klasifikátorů spočívajících na různých principech. V takovém případě buď stojíme před nelehkou volbou, který z nich použít, nebo nejdříve provedeme klasifikaci pomocí všech a potom se snažíme získané výsledky nějak zkombinovat. Druhá z těchto možností může v ideálním případě případě vést ke spojení předností kombinaovaných klasifikátorů, takže výsledný klasifikátor je přesnější než kterýkoliv z nich. Metod kombinování klasifikátorů existuje několik desítek, od prosté volby té klasifikace, kterou navrhuje nejvíce z nich, až po velmi důmyslné agregační metody založené na teorii míry. Velmi novou a dosud jen nedostatečně prozkoumanou metodou je hledání nejvhodnější kombinace klasifikátorů pomocí genetických algoritmů. Spočívá na přístupu ke kombinování jako k optimalizaci přesnosti klasifikace (nebo nějaké jiné empirické optimalizované funkce charakterizující její kvalitu) vzhledem k možným kombinacím uvažované množiny klasifikátorů a případně i vzhledem k možným kombinacím podmnožin trénovacích dat použitých pro jednotlivé z nich. A právě na dalším teoretickém rozpracování a testování této metody by se měla podílet navržená diplomová práce.

Student se nejdříve seznámí s hlavními typy klasifikátorů a hlavními přístupy k jejich kombinování. Současně se dostatečně do hloubky seznámí s funkcí genetických algoritmů a případně i  dalších typů evolučních algoritmů. Vyzbrojen všemi těmito znalostmi, zmapuje současný stav využití genetických a jiných evolučních algoritmů ke kombinování klasifikátorů a analyzuje, pro jaké typy klasifikátorů a jaké typy jejich kombinací je nejvíce žádoucí použití genetických algoritmů rozpracovat a jak obtížné takové rozpracování pro jednotlivé z těchto typů bude. Na základě provedené analýzy vybere dva konkrétní typy, pro které metodu rozpracuje až do podoby prototypové implementace. Nakonec implementaci otestuje na mezinárodně používaných testovacích souborech dat, jakož i na datech ze skutečných aplikací, které dostane od vedoucího práce.


 

Doporučená literatura

·        B. Gabrys, D. Ruta. Genetic algorithms in classifier fusion. Applied Soft Computing, 6 (2006) 337–347.

·        L.I. Kuncheva. Combining Pattern Classifiers: Methods and Algorithms. Wiley, 2004.

·        L.I. Kuncheva. L.C. Jain. Designing classifier fusion systems by genetic algorithms. IEEE Transactions on Evolutionary Computation, 4 (2000) 327–336.

·        C.R. Reeves, J.E. Rowe. Genetic Algorithms: Principles and Perspectives, Kluwer, 2003. Kapitoly 1–5.

·        B. Schölkopf, A. Smola. Learning with Kernels, kapitoly 1–10, MIT Press, 2002. Kapitoly 1–7.