Počet záznamů: 1  

Comparison of Selected Methods for Document Clustering

  1. 1.
    SYSNO ASEP0356107
    Druh ASEPC - Konferenční příspěvek (mezinárodní konf.)
    Zařazení RIVD - Článek ve sborníku
    NázevComparison of Selected Methods for Document Clustering
    Tvůrce(i) Ševčík, R. (CZ)
    Řezanková, H. (CZ)
    Húsek, Dušan (UIVT-O) RID, SAI, ORCID
    Zdroj.dok.Advances in Intelligent Web Mastering - 3. - Berlin : Springer, 2011 / Mugellini E. ; Szczepaniak P.S. ; Pettenati M.C. ; Sokhn M. - ISSN 1867-5662 - ISBN 978-3-642-18028-6
    Rozsah strans. 101-110
    Poč.str.10 s.
    AkceAWIC 2011. Atlantic Web Intelligence Conference /7./
    Datum konání26.01.2011-28.01.2011
    Místo konáníFribourg
    ZeměCH - Švýcarsko
    Typ akceWRD
    Jazyk dok.eng - angličtina
    Země vyd.DE - Německo
    Klíč. slovaweb clustering ; cluster analysis ; textual documents ; web content classification ; newsgroups analysis ; vector model
    Vědní obor RIVIN - Informatika
    CEPGAP202/10/0262 GA ČR - Grantová agentura ČR
    GA205/09/1079 GA ČR - Grantová agentura ČR
    CEZAV0Z10300504 - UIVT-O (2005-2011)
    UT WOS000290421700011
    EID SCOPUS80052917726
    DOI10.1007/978-3-642-18029-3_11
    Anotace17 cluster analysis techniques proposed for document clustering in terms of internal and external quality measures of clustering and computing time demands are compared. These are combinations of three basic methods (direct, repeated bisection and agglomerative) and five clustering criterion functions for solution assessment (two intra-cluster, one inter-cluster, and two complex ones); all implemented in the CLUTO software package. Furthermore, in the case of the agglomerative method we also applied a single linkage and complete linkage clustering as a criterion function. Collection 20 Newsgroups, a binary vector representation of e-mail messages, was used for comparing the methods. Experiments with document clustering have proved that, from the point of view of entropy and purity, the direct method provides the best results. As regards computing time, the repeated bisection (divisive) method has been the fastest.
    PracovištěÚstav informatiky
    KontaktTereza Šírová, sirova@cs.cas.cz, Tel.: 266 053 800
    Rok sběru2011
Počet záznamů: 1  

  Tyto stránky využívají soubory cookies, které usnadňují jejich prohlížení. Další informace o tom jak používáme cookies.