Original scientific paper
https://doi.org/10.31745/s.69.1
O PITANJU PRIMJENE STATISTIČKIH METODA U PRONALAŽENJU KOLOKACIJA I KOLIGACIJA U NAJSTARIJIM SLAVENSKIM TEKSTOVIMA (NA MATERIJALU GLAGOLJSKIH RUKOPISA KORPUSA »manuscripts.ru«)
Виктор A. БАРАНОВ
orcid.org/0000-0003-1730-6359
; Izhevsk State Technical University after M.T. Kalashnikov Izhevsk (Russia)
Abstract
Rad je posvećen pitanjima metodologije pretraživanja i procjene stabilnosti ustaljenih kolokacija u zbirci glagoljskih tekstova povijesnog korpusa Manuskript: slavjanskoe pis’mennoe nasledie ( Rukopis: slavensko pismeno nasljeđe – manuscripts.ru). Prikazane su mogućnosti
modula n-gram za ekstrakciju kolokacija – koje se sastoje od riječi i njihovih oblika ili lema – s različitim brojem komponenata i različitom učestalošću. Analiziraju se bigrami i trigrami izdvojeni pomoću statističke mjere uzajamne obavijesti (Mutual Information – MI), koji se pojavljuju istodobno u nekoliko rukopisa ove zbirke.
Posebna se pozornost posvećuje n-gramima s visokom statističkom vrijednošću mjere MI. U skladu s obilježjima mjere, najveću vrijednost u zbirci imaju rijetke kombinacije. Analiza takvih rijetkih bigrama na temelju oblika riječi omogućila je identificiranje koherentnih gramatičkih
konstrukcija – koligacija. Pokazano je da su trigrami koji se sastoje od tekstualnih oblika,ne samo gramatičke, već i semantičke cjeline – kolokacije. Bigrami s komponentama-lemamasu raznoliki – prijedložno-padežne kolokacije s imenicama i povratno-posvojnim zamjenicama
te ostale atributivne konstrukcije, glagolsko-imeničke odnosne konstrukcije itd. Pomoću analize ovih skupina pronađene su kako koligacije, tako i kolokacije. Najproduktivniji rezultat bilo
je izdvajanje trigrama na temelju lema: većina prvih nekoliko desetaka kombinacija koje imaju maksimalnu vrijednost u skladu sa statističkom mjerom Mutual Information – gramatičke su i semantičke cjeline ili njihovi dijelovi.
Donosi se zaključak o učinkovitosti primjene statističkih metoda za ekstrakciju kolokacija i koligacija iz korpusa srednjovjekovnih slavenskih rukopisa. Navedeno je da se za složeno rješenje postavljenog zadatka trebaju koristiti različite vrste n-grama – dvokomponentne i trokomponentne, utemeljene na tekstualnim oblicima i lemama, sa slobodnim i fiksnim redoslijedom komponenata. Prisutnost gramatički i semantički cjelovitih kolokacija koje se ponavljaju u različitim rukopisima omogućuje nam zaključak o nadtekstnoj prirodi takvih kolokacija.
Keywords
tekstualni korpus »Manuskript«; manuscripts.ru; glagoljski rukopis; jezična statistika; modul n-gram; kolokacija; koligacija
Hrčak ID:
231473
URI
Publication date:
30.12.2019.
Visits: 2.394 *