Zadání diplomové práce

Diskretizace spojitých náhodných veličin pro data mining


K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny 90. let tzv. data mining ("vytěžování dat"). Pod tímto názvem se skrývají metody umožňující z nepřehledné spousty primárních dat, s níž se dnes člověk musí prakticky ve všech oblastech potýkat, extrahovat přehledné množiny strukturovaných znalostí, v těchto datech latentně obsažených. Jednou z prvních metod tohoto typu byla metoda Guha (General unary hypotheses automaton), vyvinutá v 70. letech českými matematiky. Guha je vpodstatě kombinací logiky a metod kategoriální statistiky, tj. metod určených primárně pro náhodné veličiny s nízkým počtem diskrétních hodnot. Pokud jde  o propracované propojení logiky a testování statistických hypotéz, nevyrovná se metodě Guha dodnes žádná z moderních metod pro data mining, jichž mezitím již existuje mnoho desítek. Proto se Guha dodnes používá, a v roce 1999 byla již počtvrté implementována.V jiných směrech ovšem Guha za novějšími metodami zaostává. Jedním z jejích hlavních nedostatků je, že pro zpracování dat, která jsou realizacemi spojitých náhodných veličin, poskytuje pouze nejjednodušší možnosti diskretizace. Právě k tomuto účelu byla v průběhu uplynulých dvaceti let vyvinuta celá řada důmyslnějších metod. Většina z nich se opírá o teorii informace, používají se ale  i metody založené na shlukové analýze nebo na genetických algoritmech. Cílem navrhované diplomové práce by mělo být obohatit metodu Guha o některé z důmyslnějších diskretizačních metod.

Diplomant by se měl seznámit s moderními metodami diskretizace spojitých náhodných veličin a analyzovat je z hlediska propojení s algoritmy extrakce znalostí z dat používanými v metodě Guha. Výsledky teoretické analýzy by měl pro vybrané  metody ověřit na reálných datech..
 

Doporučená literatura

1. k diskretizaci spojitých náhodných veličin

2. k metodě Guha