Skip to the main content

Original scientific paper

https://doi.org/10.21857/ygjwrcj56y

РАЗМЕТКА ЦЕРКОВНОСЛАВЯНСКИХ И ДРЕВНЕРУССКИХ ТЕКСТОВ: ПРОБЛЕМЫ ЛЕММАТИЗАЦИИ

Анна Пичхадзе orcid id orcid.org/0000-0003-0034-5546 ; Институт русского языка им. В. В. Виноградова


Full text: russian pdf 428 Kb

page 143-155

downloads: 380

cite


Abstract

при электронной разметке древнерусских текстов, и способы оформления проблемных лемм: введение дополнительных полей, альтернативный разбор и объединение разных вариантов леммы в одной словарной статье. Каждый из способов является оптимальным в разных ситуациях. Для различения семантических омонимов и видовых пар глаголов достаточно введения дополнительных полей. Если отсутствуют критерии, на основании которых можно было бы однозначно реконструировать лемму из-за орфографических или фонетико-орфографических эффектов, свойственных древним памятникам письменности, целесообразно применять альтернативный разбор, допускающий восстановление нескольких лемм для одной словоформы. В случаях, когда варьированию подвержена только словарная форма, предлагается использовать специальный алгоритм лемматизации: занесение в словарь леммы в её исконном (древнейшем) виде вместе со всеми позднейшими вариантами, причем все позднейшие варианты указываются также в специальном поле и автоматически связываются с исходной леммой. Такой алгоритм обеспечивает переадресацию к древнейшему виду леммы, даже если при разметке будет выбран позднейший вариант.

Keywords

Грамматическая разметка текстов; лемматизация; церковнославянский язык; древнерусский язык

Hrčak ID:

206458

URI

https://hrcak.srce.hr/206458

Publication date:

6.10.2018.

Article data in other languages: croatian

Visits: 1.327 *