Skoči na glavni sadržaj

Izvorni znanstveni članak

https://doi.org/10.31745/s.69.1

К вопросу об использовании статистических методов для поиска коллокаций и коллигаций в древнейших славянских текстах (на материале глаголических рукописей корпуса »Манускрипт«)

Виктор A. БАРАНОВ orcid id orcid.org/0000-0003-1730-6359 ; Ижевский государственный технический университет имени М. Т. Калашникова, Ижевск, Россия


Puni tekst: ruski pdf 481 Kb

str. 1-33

preuzimanja: 532

citiraj


Sažetak

Работа посвящена вопросам методики поиска цельных сочетаний в коллекции глаголических текстов исторического корпуса Манускрипт: славянское письменное наследие (manuscripts.ru) и оценки их устойчивости. Демонстрируются возможности модуля
n-грамм, позволяющие извлекать сочетания, имеющие разное количество компонентов, различную частотность, состоящие из текстовых форм или из лемм. Анализируются биграммы и триграммы, извлеченные с помощью статистической меры Mutual Information
и встречающиеся одновременно в нескольких рукописях коллекции.
Особое внимание обращается на n-граммы, имеющие высокие статистические значения меры. В соответствии с особенностями меры наибольшие значения имеют редкие в коллекции сочетания. Анализ таких биграмм на основе словоформ позволил выявить устойчивые грамматические конструкции – коллигации. Показывается, что триграммы, состоящие из текстовых форм, являются не только грамматически, но и семантически цельными – коллокациями. Разнообразны биграммы с компонентами-леммами – предложно-падежные сочетания, именные сочетания с зависимыми притяжательными местоимениями и иные атрибутивные конструкции, глагольные конструкции с зависимыми существительными и другиe. Анализ этих групп позволил выявить как коллигации, так и коллокации. Наиболее результативным стало извлечение триграмм на основе лемм – подавляющая часть первых нескольких десятков сочетаний, имеющих максимальное значение в соответствии со статистической мерой MI, представляет собой грамматически и
семантически цельные конструкции или их части.
Делается вывод об эффективности использования статистических методов для извлечения коллокаций и коллигаций из корпусов, содержащих средневековые славянские рукописи. Указывается, что для комплексного решения поставленной задачи должны быть использованы различные виды n-грамм – двукомпонентные и трехкомпонентные, на основе текстовых форм и лемм, со свободным и фиксированным порядком следования компонентов. Наличие повторяющихся в различных рукописях грамматически и семантически цельных сочетаний позволяет сделать вывод о надтекстовой природе таких сочетаний.

Ključne riječi

текстовый корпус »Манускрипт«; manuscripts.ru; глаголическая ру- копись; лингвистическая статистика; модуль n-грамм; коллокация; коллигация

Hrčak ID:

231473

URI

https://hrcak.srce.hr/231473

Datum izdavanja:

30.12.2019.

Podaci na drugim jezicima: hrvatski engleski

Posjeta: 1.630 *