Number of the records: 1
Text document classification based on mixture models
- 1.0106330 - UTIA-B 20040142 RIV CZ eng J - Journal Article
Novovičová, Jana - Malík, Antonín
Text document classification based on mixture models.
[Klasifikace textových dokumentů použitím směsových modelů.]
Kybernetika. Roč. 40, č. 3 (2004), s. 293-304. ISSN 0023-5954
R&D Projects: GA AV ČR IAA2075302; GA ČR GA102/03/0049; GA AV ČR KSK1019101
Institutional research plan: CEZ:AV0Z1075907
Keywords : text classification * text categorization * multinomial mixture model
Subject RIV: BB - Applied Statistics, Operational Research
Impact factor: 0.224, year: 2004
Finite mixture modelling of class-conditional distributions is a standard method in a statistical pattern recognition. This paper, using bag-of-words vector document representation, explores the use of the mixture of multinomial distributions as a model for class-conditional distribution for multiclass text document classification task. Experimental comparison of the proposed models was performed using Reuters-21578 and Newsgroups data sets.
Použití směsi multinomických rozdělení jako modelu pro podmíněná rozdělení pravděpodobností pro Bayesův klasifikátor je uvedeno. Výsledky experimentů s použitím Reuters 21578 a Newsgroups datových souborů indikují efektivnost použitého multinomického směsového modelu v otázkách klasifikace textových dokumentů. Bylo ukázáno, že přesnost Bayesova klasifikátoru může být zvýšena při použití navrženého modelu v porovnání s Bayesovým klasifikátorem založeným jednak na standardních modelech (vícerozměrný Bernoulliho model, multinomický model), jednak na směsovém Bernoulliho modelu
Permanent Link: http://hdl.handle.net/11104/0013512
File Download Size Commentary Version Access 0106330.pdf 5 1.8 MB Publisher’s postprint open-access
Number of the records: 1