Stručni rad
https://doi.org/10.31724/rihjj.46.2.8
Vektorski prikaz riječi utemeljen na velikim mrežnim korpusima kao moćan leksikografski alat
Radovan Garabík
; Ľ. Štúr Institute of Linguistics, Slovak Academy of Sciences
Sažetak
Projekt Aranea sadržava niz usporednih korpusa za 24 (uglavnom europskih) jezika. On pruža prikladan skup podataka za aplikacije za obradu prirodnoga jezika (nLP) koje zahtijevaju učenje na velikoj količini podataka. U radu se prikazuju modeli vektorskoga prikaza riječi koji su uspostavljeni učenjem na korpusima Aranea te mrežno sučelje kako bi se propitali modeli i vizualizirali rezultati. To može biti korisno za leksikografsku praksu, ali i u drugim područjima leksikografskoga proučavanja jer je vektorski prostor vjerodostojan model semantičkoga prostora značenja riječi. Postoje tri moguća modela: prvi za kombinaciju vrste riječi i leme, drugi za sirove forme riječi i treći koji se temelji na algoritmu fastText koji upotrebljava vektore na razini nižoj od riječi i nije ograničen na cijele riječi ili poznate riječi pri pronalaženju semantičkih odnosa. U radu se opisuju sučelje i osnovni modeli njegova funkcioniranja, ali se ne pokušava provesti iscrpna jezična analiza prikazanih primjera.
Ključne riječi
korpus; vektorski prikaz riječi; vektorska sličnost; semantička sličnost; mrežni korpusi; vizualizacija
Hrčak ID:
245458
URI
Datum izdavanja:
30.10.2020.
Posjeta: 2.269 *