Vektorski prikaz riječi utemeljen na velikim mrežnim korpusima kao moćan leksikografski alat

Garabík, Radovan

doi:10.31724/rihjj.46.2.8

Rasprave Instituta za hrvatski jezik, Vol. 46 No. 2, 2020.

Stručni rad

https://doi.org/10.31724/rihjj.46.2.8

Vektorski prikaz riječi utemeljen na velikim mrežnim korpusima kao moćan leksikografski alat

Radovan Garabík ; Ľ. Štúr Institute of Linguistics, Slovak Academy of Sciences

Puni tekst: engleski pdf 1.013 Kb

str. 603-618

preuzimanja: 1.086

citiraj

APA 6th Edition

Garabík, R. (2020). Vektorski prikaz riječi utemeljen na velikim mrežnim korpusima kao moćan leksikografski alat. Rasprave Instituta za hrvatski jezik, 46 (2), 603-618. https://doi.org/10.31724/rihjj.46.2.8

MLA 8th Edition

Garabík, Radovan. "Vektorski prikaz riječi utemeljen na velikim mrežnim korpusima kao moćan leksikografski alat." Rasprave Instituta za hrvatski jezik, vol. 46, br. 2, 2020, str. 603-618. https://doi.org/10.31724/rihjj.46.2.8. Citirano 17.07.2026.

Chicago 17th Edition

Garabík, Radovan. "Vektorski prikaz riječi utemeljen na velikim mrežnim korpusima kao moćan leksikografski alat." Rasprave Instituta za hrvatski jezik 46, br. 2 (2020): 603-618. https://doi.org/10.31724/rihjj.46.2.8

Harvard

Garabík, R. (2020). 'Vektorski prikaz riječi utemeljen na velikim mrežnim korpusima kao moćan leksikografski alat', Rasprave Instituta za hrvatski jezik, 46(2), str. 603-618. https://doi.org/10.31724/rihjj.46.2.8

Vancouver

Garabík R. Vektorski prikaz riječi utemeljen na velikim mrežnim korpusima kao moćan leksikografski alat. Rasprave Instituta za hrvatski jezik [Internet]. 2020 [pristupljeno 17.07.2026.];46(2):603-618. https://doi.org/10.31724/rihjj.46.2.8

IEEE

R. Garabík, "Vektorski prikaz riječi utemeljen na velikim mrežnim korpusima kao moćan leksikografski alat", Rasprave Instituta za hrvatski jezik, vol.46, br. 2, str. 603-618, 2020. [Online]. https://doi.org/10.31724/rihjj.46.2.8

Sažetak

Projekt Aranea sadržava niz usporednih korpusa za 24 (uglavnom europskih) jezika. On pruža prikladan skup podataka za aplikacije za obradu prirodnoga jezika (nLP) koje zahtijevaju učenje na velikoj količini podataka. U radu se prikazuju modeli vektorskoga prikaza riječi koji su uspostavljeni učenjem na korpusima Aranea te mrežno sučelje kako bi se propitali modeli i vizualizirali rezultati. To može biti korisno za leksikografsku praksu, ali i u drugim područjima leksikografskoga proučavanja jer je vektorski prostor vjerodostojan model semantičkoga prostora značenja riječi. Postoje tri moguća modela: prvi za kombinaciju vrste riječi i leme, drugi za sirove forme riječi i treći koji se temelji na algoritmu fastText koji upotrebljava vektore na razini nižoj od riječi i nije ograničen na cijele riječi ili poznate riječi pri pronalaženju semantičkih odnosa. U radu se opisuju sučelje i osnovni modeli njegova funkcioniranja, ali se ne pokušava provesti iscrpna jezična analiza prikazanih primjera.

Ključne riječi

korpus; vektorski prikaz riječi; vektorska sličnost; semantička sličnost; mrežni korpusi; vizualizacija

Hrčak ID:

245458

URI

https://hrcak.srce.hr/245458

Datum izdavanja:

30.10.2020.

Podaci na drugim jezicima: engleski

Posjeta: 3.365 *

Prijava i registracija

Rasprave Instituta za hrvatski jezik, Vol. 46 No. 2, 2020.

Sažetak

Ključne riječi

Hrčak ID:

URI

Datum izdavanja: