diplomka15.html

Zadání diplomové práce

Porovnání přímých metod pro získávání pravidel z dat

s metodami založenými na umělých neuronových sítích

K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny 90. let tzv. data mining ("vytěžování dat"). Pod tímto názvem se skrývají metody, které z nepřehledné spousty primárních dat, s níž se dnes člověk musí prakticky ve všech oblastech potýkat, umožňují extrahovat přehledné množiny strukturovaných znalostí, v těchto datech latentně obsažených. Jedním z nejpoužívanějších způsobů strukturovaného vyjádření znalostí obsažených v datech jsou speciální typy logických implikací, tzv. pravidla. Speciálních metod pro získávání pravidel z dat bylo od počátku 90.let navrženo velké množství. Nejjednodušší z nich konstruují pravidla z relativních frekvencí výskytu jednotlivých kombinací hodnot atributů, u složitějších je tato konstrukce založena na různých typech klasifikačních a regresních stromů nebo na pohledu na data prostřednictvím teorie neostrých množin. Všechny uvedené metody konstruují pravidla přímo na základě atributů jednotlivých datových záznamů, proto hovoříme o tzv. přímých metodách. Jako alternativa k nim byly vypracovány metody, v nichž se nejdříve data použijí k natrénování umělé neuronové sítě, a pravidla se pak získávají nikoliv přímo z dat, nýbrž ze zobrazení počítaného natrénovanou sítí. Koexistence metod založených na různých teoretických principech s sebou přináší jeden závažný problém - různými metodami lze totiž potom i ze stejných dat získat naprosto rozdílné množiny pravidel. Pro správné rozhodnutí, kterou metodu v určité situaci zvolit, je tudíž velmi potřebné mít k dispozici výsledky rozsáhlých porovnání jednotlivých metod, jak teoretických porovnání jejich vlastností, tak testování jednotlivých metod na rozmanitých datových souborech. Právě takové porovnání by mělo být cílem navrhované diplomové práce.
Diplomant by se měl v rámci rešeršní práce důkladně seznámit s hlavními metodami získávání pravidel z dat. Na základě prostudované literatury by měl potom analyzovat vhodnost či nevhodnost jednotlivých metod pro různé typy dat. Hlavní náplní práce bude doplnění a rozšíření závěrů této analýzy pomocí testování jednotlivých metod na speciálních testovacích souborech dat i na datech z reálných aplikací. K testování bude diplomant převážně využívat existujících implementací metod získávání pravidel z dat, několik metod bude muset nejdříve sám implementovat.

Doporučená literatura

· C. Apte, S. Weiss. Data mining with decision trees and decision rules. Future Generation Computer Systems, 13: 197-210, 1997.

· M. Berthold, D. Hand. Intelligent Data Analysis. An Introduction, Springer Verlag, Berlin, 1999.

· L.P. Khoo, S.B. Tor, L.Y. Zhai. A rough-set approach for classification and rule induction. International Journal of Advanced Manufacturing Technology. 15: 438-444, 1999.

· B. Mak, T. Munakata. Rule extraction from expert heuristics: A comparative study of rough sets with neural networks and ID3. European Journal of Operational Research, 136: 212-229, 2002.

· W. Müller, E. Wiederhold. Applying decision tree methodology for rules extraction under cognitive constraints. European Journal of Operational Research, 136: 282-289, 2002.

· A.B. Tickle, R. Andrews, M. Golea, J. Diederich. The truth will come to light: directions and challenges in extracting rules from trained artificial neural networks. IEEE Transactions on Neural Networks, 9: 1057-1068, 1998.

· M. Zaki, S. Parathasarathy, M. Ogihara, W. Li. New parallel algorithms for fast discovery of association rules. Data Mining and Knowledge Discovery, 1: 343-373, 1997.