diplomka10.html

Zadání diplomové práce

Diskretizace spojitých náhodných veličin pro data mining

K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny 90. let tzv. data mining ("vytěžování dat"). Pod tímto názvem se skrývají metody umožňující z nepřehledné spousty primárních dat, s níž se dnes člověk musí prakticky ve všech oblastech potýkat, extrahovat přehledné množiny strukturovaných znalostí, v těchto datech latentně obsažených. Jednou z prvních metod tohoto typu byla metoda Guha (General unary hypotheses automaton), vyvinutá v 70. letech českými matematiky. Guha je vpodstatě kombinací logiky a metod kategoriální statistiky, tj. metod určených primárně pro náhodné veličiny s nízkým počtem diskrétních hodnot. Pokud jde o propracované propojení logiky a testování statistických hypotéz, nevyrovná se metodě Guha dodnes žádná z moderních metod pro data mining, jichž mezitím již existuje mnoho desítek. Proto se Guha dodnes používá, a v roce 1999 byla již počtvrté implementována.V jiných směrech ovšem Guha za novějšími metodami zaostává. Jedním z jejích hlavních nedostatků je, že pro zpracování dat, která jsou realizacemi spojitých náhodných veličin, poskytuje pouze nejjednodušší možnosti diskretizace. Právě k tomuto účelu byla v průběhu uplynulých dvaceti let vyvinuta celá řada důmyslnějších metod. Většina z nich se opírá o teorii informace, používají se ale i metody založené na shlukové analýze nebo na genetických algoritmech. Cílem navrhované diplomové práce by mělo být obohatit metodu Guha o některé z důmyslnějších diskretizačních metod.

Diplomant by se měl seznámit s moderními metodami diskretizace spojitých náhodných veličin a analyzovat je z hlediska propojení s algoritmy extrakce znalostí z dat používanými v metodě Guha. Výsledky teoretické analýzy by měl pro vybrané metody ověřit na reálných datech..

Doporučená literatura

1. k diskretizaci spojitých náhodných veličin

J.Y. Ching, A.K.C. Wong, K.C.C. Chan. Class-dependent discretization for inductive learning from continuous and mixed-mode data. IEEE Transactions on Pattern Analysis and Machine Intelligence, 17: 641-651, 1995.
M.R. Chmielewski, J.W. Grzymala-Busse. Global discretization of continuous attributes as preprocessing for machine learning. International Journal of Approximative Reasoning, 15: 319-331, 1996.
K.M. Ho, P.D. Scott. An efficient global discretization method. In Proceedings of the Pacific-Asia Conference on Knowledge Discovery and Data Mining, 383-384, 1998.
B.H. Jun, C.S. Kim, H.Y. Song, J. Kim. A new criterion in selection and discretization of attributes for the generation of decision trees. IEEE Transactions on Pattern Analysis and Machine Inteligence, 19: 1371-1375, 1997.
R. Kohavi, M. Sahami. Error-Based and Entropy-Based Discretization of Continuous Features. In Proceedings of the Second International Conference on Knowledge Discovery and Data Mining, 1996, 114-119.
W. Kwedlo, M. Kretowski. An Evolutionary Algorithm Using Multivariate Discretization for Decision Rule Induction. In Proceedings of the Third International Conference on Principles of Data Mining and Knowledge Discovery PKDD-99, 1999, 392-397.
O. Maimon, M. Last. Knowledge Discovery and Data Mining. The Info-Fuzzy Network Methodology. Kluwer, 2001.

2. k metodě Guha

P. Hájek, T. Havránek. Mechanizing Hypothesis Formation. Springer-Verlag, Berlin, 1978.
P. Hájek, T. Havránek, M.K. Chytil. Metoda GUHA. Automatická Tvorba Hypotéz. Academia, Praha, 1983.