Skoči na glavni sadržaj

Stručni rad

https://doi.org/10.31724/rihjj.46.2.8

Vektorski prikaz riječi utemeljen na velikim mrežnim korpusima kao moćan leksikografski alat

Radovan Garabík ; Ľ. Štúr Institute of Linguistics, Slovak Academy of Sciences


Puni tekst: engleski pdf 1.013 Kb

str. 603-618

preuzimanja: 549

citiraj


Sažetak

Projekt Aranea sadržava niz usporednih korpusa za 24 (uglavnom europskih) jezika. On pruža prikladan skup podataka za aplikacije za obradu prirodnoga jezika (nLP) koje zahtijevaju učenje na velikoj količini podataka. U radu se prikazuju modeli vektorskoga prikaza riječi koji su uspostavljeni učenjem na korpusima Aranea te mrežno sučelje kako bi se propitali modeli i vizualizirali rezultati. To može biti korisno za leksikografsku praksu, ali i u drugim područjima leksikografskoga proučavanja jer je vektorski prostor vjerodostojan model semantičkoga prostora značenja riječi. Postoje tri moguća modela: prvi za kombinaciju vrste riječi i leme, drugi za sirove forme riječi i treći koji se temelji na algoritmu fastText koji upotrebljava vektore na razini nižoj od riječi i nije ograničen na cijele riječi ili poznate riječi pri pronalaženju semantičkih odnosa. U radu se opisuju sučelje i osnovni modeli njegova funkcioniranja, ali se ne pokušava provesti iscrpna jezična analiza prikazanih primjera.

Ključne riječi

korpus; vektorski prikaz riječi; vektorska sličnost; semantička sličnost; mrežni korpusi; vizualizacija

Hrčak ID:

245458

URI

https://hrcak.srce.hr/245458

Datum izdavanja:

30.10.2020.

Podaci na drugim jezicima: engleski

Posjeta: 1.551 *