Vektorski prikaz riječi utemeljen na velikim mrežnim korpusima kao moćan leksikografski alat

Garabík, Radovan

doi:10.31724/rihjj.46.2.8

Rasprave Instituta za hrvatski jezik, Vol. 46 No. 2, 2020.

Professional paper

https://doi.org/10.31724/rihjj.46.2.8

Vektorski prikaz riječi utemeljen na velikim mrežnim korpusima kao moćan leksikografski alat

Radovan Garabík ; Ľ. Štúr Institute of Linguistics, Slovak Academy of Sciences

Full text: english pdf 1.013 Kb

page 603-618

downloads: 1.086

cite

APA 6th Edition

Garabík, R. (2020). Vektorski prikaz riječi utemeljen na velikim mrežnim korpusima kao moćan leksikografski alat. Rasprave Instituta za hrvatski jezik, 46 (2), 603-618. https://doi.org/10.31724/rihjj.46.2.8

MLA 8th Edition

Garabík, Radovan. "Vektorski prikaz riječi utemeljen na velikim mrežnim korpusima kao moćan leksikografski alat." Rasprave Instituta za hrvatski jezik, vol. 46, no. 2, 2020, pp. 603-618. https://doi.org/10.31724/rihjj.46.2.8. Accessed 26 Jul. 2026.

Chicago 17th Edition

Garabík, Radovan. "Vektorski prikaz riječi utemeljen na velikim mrežnim korpusima kao moćan leksikografski alat." Rasprave Instituta za hrvatski jezik 46, no. 2 (2020): 603-618. https://doi.org/10.31724/rihjj.46.2.8

Harvard

Garabík, R. (2020). 'Vektorski prikaz riječi utemeljen na velikim mrežnim korpusima kao moćan leksikografski alat', Rasprave Instituta za hrvatski jezik, 46(2), pp. 603-618. https://doi.org/10.31724/rihjj.46.2.8

Vancouver

Garabík R. Vektorski prikaz riječi utemeljen na velikim mrežnim korpusima kao moćan leksikografski alat. Rasprave Instituta za hrvatski jezik [Internet]. 2020 [cited 2026 July 26];46(2):603-618. https://doi.org/10.31724/rihjj.46.2.8

IEEE

R. Garabík, "Vektorski prikaz riječi utemeljen na velikim mrežnim korpusima kao moćan leksikografski alat", Rasprave Instituta za hrvatski jezik, vol.46, no. 2, pp. 603-618, 2020. [Online]. https://doi.org/10.31724/rihjj.46.2.8

Abstract

Projekt Aranea sadržava niz usporednih korpusa za 24 (uglavnom europskih) jezika. On pruža prikladan skup podataka za aplikacije za obradu prirodnoga jezika (nLP) koje zahtijevaju učenje na velikoj količini podataka. U radu se prikazuju modeli vektorskoga prikaza riječi koji su uspostavljeni učenjem na korpusima Aranea te mrežno sučelje kako bi se propitali modeli i vizualizirali rezultati. To može biti korisno za leksikografsku praksu, ali i u drugim područjima leksikografskoga proučavanja jer je vektorski prostor vjerodostojan model semantičkoga prostora značenja riječi. Postoje tri moguća modela: prvi za kombinaciju vrste riječi i leme, drugi za sirove forme riječi i treći koji se temelji na algoritmu fastText koji upotrebljava vektore na razini nižoj od riječi i nije ograničen na cijele riječi ili poznate riječi pri pronalaženju semantičkih odnosa. U radu se opisuju sučelje i osnovni modeli njegova funkcioniranja, ali se ne pokušava provesti iscrpna jezična analiza prikazanih primjera.

Keywords

korpus; vektorski prikaz riječi; vektorska sličnost; semantička sličnost; mrežni korpusi; vizualizacija

Hrčak ID:

245458

URI

https://hrcak.srce.hr/245458

Publication date:

30.10.2020.

Article data in other languages: english

Visits: 3.365 *

Login and registration

Rasprave Instituta za hrvatski jezik, Vol. 46 No. 2, 2020.

Abstract

Keywords

Hrčak ID:

URI

Publication date: