Building a Croatian language stemmer

Pandžić, Ivan

Rasprave Instituta za hrvatski jezik, Vol. 41 No. 2, 2015.

Izvorni znanstveni članak

Building a Croatian language stemmer

Ivan Pandžić orcid.org/0000-0002-7741-8996 ; Institut za hrvatski jezik i jezikoslovlje Ulica Republike Austrije 16, HR-10000 Zagreb

Puni tekst: hrvatski pdf 816 Kb

str. 301-327

preuzimanja: 2.847

citiraj

APA 6th Edition

Pandžić, I. (2015). Building a Croatian language stemmer. Rasprave Instituta za hrvatski jezik, 41 (2), 301-327. Preuzeto s https://hrcak.srce.hr/150047

MLA 8th Edition

Pandžić, Ivan. "Building a Croatian language stemmer." Rasprave Instituta za hrvatski jezik, vol. 41, br. 2, 2015, str. 301-327. https://hrcak.srce.hr/150047. Citirano 23.02.2025.

Chicago 17th Edition

Pandžić, Ivan. "Building a Croatian language stemmer." Rasprave Instituta za hrvatski jezik 41, br. 2 (2015): 301-327. https://hrcak.srce.hr/150047

Harvard

Pandžić, I. (2015). 'Building a Croatian language stemmer', Rasprave Instituta za hrvatski jezik, 41(2), str. 301-327. Preuzeto s: https://hrcak.srce.hr/150047 (Datum pristupa: 23.02.2025.)

Vancouver

Pandžić I. Building a Croatian language stemmer. Rasprave Instituta za hrvatski jezik [Internet]. 2015 [pristupljeno 23.02.2025.];41(2):301-327. Dostupno na: https://hrcak.srce.hr/150047

IEEE

I. Pandžić, "Building a Croatian language stemmer", Rasprave Instituta za hrvatski jezik, vol.41, br. 2, str. 301-327, 2015. [Online]. Dostupno na: https://hrcak.srce.hr/150047. [Citirano: 23.02.2025.]

Sažetak

The paper presents two conservative Croatian language stemmers, k2 and k3. These stemmers are based on the k1 stemmer, an aggressive Croatian language stemmer presented by Nikola Ljubešić in a 2007 paper. By introducing an expanded set of rules that use derivational morphemes of nouns, verbs, and adjectives to determine the stems of words, we hoped to create a more efficient
stemmer. In order to test whether the k2 and k3 stemmers were more efficient than the k1 stemmer, we calculated their precision, recall, and F1-score using a 9775 token corpus, and compared the results with the precision, recall, and F1-score of the k1 stemmer.

Ključne riječi

rule-based stemming; computational linguistics; natural language processing; Croatian language

Hrčak ID:

150047

URI

https://hrcak.srce.hr/150047

Datum izdavanja:

29.12.2015.

Podaci na drugim jezicima: hrvatski

Posjeta: 4.707 *

Prijava i registracija

Rasprave Instituta za hrvatski jezik, Vol. 41 No. 2, 2015.

Sažetak

Ključne riječi

Hrčak ID:

URI

Datum izdavanja:

closePristupačnostrefresh

Pristupačnost