Skoči na glavni sadržaj

Izvorni znanstveni članak

https://doi.org/10.31745/s.69.1

O PITANJU PRIMJENE STATISTIČKIH METODA U PRONALAŽENJU KOLOKACIJA I KOLIGACIJA U NAJSTARIJIM SLAVENSKIM TEKSTOVIMA (NA MATERIJALU GLAGOLJSKIH RUKOPISA KORPUSA »manuscripts.ru«)

Виктор A. БАРАНОВ orcid id orcid.org/0000-0003-1730-6359 ; Ижевский государственный технический университет имени М. Т. Калашникова, Ижевск, Россия


Puni tekst: ruski pdf 481 Kb

str. 1-33

preuzimanja: 526

citiraj


Sažetak

Rad je posvećen pitanjima metodologije pretraživanja i procjene stabilnosti ustaljenih kolokacija u zbirci glagoljskih tekstova povijesnog korpusa Manuskript: slavjanskoe pis’mennoe nasledie ( Rukopis: slavensko pismeno nasljeđe – manuscripts.ru). Prikazane su mogućnosti
modula n-gram za ekstrakciju kolokacija – koje se sastoje od riječi i njihovih oblika ili lema – s različitim brojem komponenata i različitom učestalošću. Analiziraju se bigrami i trigrami izdvojeni pomoću statističke mjere uzajamne obavijesti (Mutual Information – MI), koji se pojavljuju istodobno u nekoliko rukopisa ove zbirke.
Posebna se pozornost posvećuje n-gramima s visokom statističkom vrijednošću mjere MI. U skladu s obilježjima mjere, najveću vrijednost u zbirci imaju rijetke kombinacije. Analiza takvih rijetkih bigrama na temelju oblika riječi omogućila je identificiranje koherentnih gramatičkih
konstrukcija – koligacija. Pokazano je da su trigrami koji se sastoje od tekstualnih oblika,ne samo gramatičke, već i semantičke cjeline – kolokacije. Bigrami s komponentama-lemamasu raznoliki – prijedložno-padežne kolokacije s imenicama i povratno-posvojnim zamjenicama
te ostale atributivne konstrukcije, glagolsko-imeničke odnosne konstrukcije itd. Pomoću analize ovih skupina pronađene su kako koligacije, tako i kolokacije. Najproduktivniji rezultat bilo
je izdvajanje trigrama na temelju lema: većina prvih nekoliko desetaka kombinacija koje imaju maksimalnu vrijednost u skladu sa statističkom mjerom Mutual Information – gramatičke su i semantičke cjeline ili njihovi dijelovi.
Donosi se zaključak o učinkovitosti primjene statističkih metoda za ekstrakciju kolokacija i koligacija iz korpusa srednjovjekovnih slavenskih rukopisa. Navedeno je da se za složeno rješenje postavljenog zadatka trebaju koristiti različite vrste n-grama – dvokomponentne i trokomponentne, utemeljene na tekstualnim oblicima i lemama, sa slobodnim i fiksnim redoslijedom komponenata. Prisutnost gramatički i semantički cjelovitih kolokacija koje se ponavljaju u različitim rukopisima omogućuje nam zaključak o nadtekstnoj prirodi takvih kolokacija.

Ključne riječi

tekstualni korpus »Manuskript«; manuscripts.ru; glagoljski rukopis; jezična statistika; modul n-gram; kolokacija; koligacija

Hrčak ID:

231473

URI

https://hrcak.srce.hr/231473

Datum izdavanja:

30.12.2019.

Podaci na drugim jezicima: engleski ruski

Posjeta: 1.584 *