Building a Croatian language stemmer

Pandžić, Ivan

Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje, Vol. 41 No. 2, 2015.

Original scientific paper

Building a Croatian language stemmer

Ivan Pandžić orcid.org/0000-0002-7741-8996 ; Institut za hrvatski jezik i jezikoslovlje Ulica Republike Austrije 16, HR-10000 Zagreb

Full text: croatian pdf 816 Kb

page 301-327

downloads: 2.801

cite

APA 6th Edition

Pandžić, I. (2015). Building a Croatian language stemmer. Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje, 41 (2), 301-327. Retrieved from https://hrcak.srce.hr/150047

MLA 8th Edition

Pandžić, Ivan. "Building a Croatian language stemmer." Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje, vol. 41, no. 2, 2015, pp. 301-327. https://hrcak.srce.hr/150047. Accessed 19 Dec. 2024.

Chicago 17th Edition

Pandžić, Ivan. "Building a Croatian language stemmer." Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje 41, no. 2 (2015): 301-327. https://hrcak.srce.hr/150047

Harvard

Pandžić, I. (2015). 'Building a Croatian language stemmer', Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje, 41(2), pp. 301-327. Available at: https://hrcak.srce.hr/150047 (Accessed 19 December 2024)

Vancouver

Pandžić I. Building a Croatian language stemmer. Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje [Internet]. 2015 [cited 2024 December 19];41(2):301-327. Available from: https://hrcak.srce.hr/150047

IEEE

I. Pandžić, "Building a Croatian language stemmer", Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje, vol.41, no. 2, pp. 301-327, 2015. [Online]. Available: https://hrcak.srce.hr/150047. [Accessed: 19 December 2024]

Abstract

The paper presents two conservative Croatian language stemmers, k2 and k3. These stemmers are based on the k1 stemmer, an aggressive Croatian language stemmer presented by Nikola Ljubešić in a 2007 paper. By introducing an expanded set of rules that use derivational morphemes of nouns, verbs, and adjectives to determine the stems of words, we hoped to create a more efficient
stemmer. In order to test whether the k2 and k3 stemmers were more efficient than the k1 stemmer, we calculated their precision, recall, and F1-score using a 9775 token corpus, and compared the results with the precision, recall, and F1-score of the k1 stemmer.

Keywords

rule-based stemming; computational linguistics; natural language processing; Croatian language

Hrčak ID:

150047

URI

https://hrcak.srce.hr/150047

Publication date:

29.12.2015.

Article data in other languages: croatian

Visits: 4.557 *

Login and registration

Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje, Vol. 41 No. 2, 2015.

Abstract

Keywords

Hrčak ID:

URI

Publication date: