Skip to the main content

Professional paper

https://doi.org/10.31724/rihjj.46.2.8

Vektorski prikaz riječi utemeljen na velikim mrežnim korpusima kao moćan leksikografski alat

Radovan Garabík ; Ľ. Štúr Institute of Linguistics, Slovak Academy of Sciences


Full text: english pdf 1.013 Kb

page 603-618

downloads: 712

cite


Abstract

Projekt Aranea sadržava niz usporednih korpusa za 24 (uglavnom europskih) jezika. On pruža prikladan skup podataka za aplikacije za obradu prirodnoga jezika (nLP) koje zahtijevaju učenje na velikoj količini podataka. U radu se prikazuju modeli vektorskoga prikaza riječi koji su uspostavljeni učenjem na korpusima Aranea te mrežno sučelje kako bi se propitali modeli i vizualizirali rezultati. To može biti korisno za leksikografsku praksu, ali i u drugim područjima leksikografskoga proučavanja jer je vektorski prostor vjerodostojan model semantičkoga prostora značenja riječi. Postoje tri moguća modela: prvi za kombinaciju vrste riječi i leme, drugi za sirove forme riječi i treći koji se temelji na algoritmu fastText koji upotrebljava vektore na razini nižoj od riječi i nije ograničen na cijele riječi ili poznate riječi pri pronalaženju semantičkih odnosa. U radu se opisuju sučelje i osnovni modeli njegova funkcioniranja, ali se ne pokušava provesti iscrpna jezična analiza prikazanih primjera.

Keywords

korpus; vektorski prikaz riječi; vektorska sličnost; semantička sličnost; mrežni korpusi; vizualizacija

Hrčak ID:

245458

URI

https://hrcak.srce.hr/245458

Publication date:

30.10.2020.

Article data in other languages: english

Visits: 2.269 *