Skip to the main content

Review article

https://doi.org/10.21857/yrvgqtkj39

ДИАХРОННЫЙ КОРПУС БОЛГАРСКОГО ЯЗЫКА: СОСТОЯНИЕ И ПЕРСПЕКТИВЫ

Анна Марија Тотоманова ; Софийски университет «Св. Климент Охридски»


Full text: russian pdf 2.136 Kb

page 223-242

downloads: 628

cite


Abstract

Доклад отражает историю создания Диахронного корпуса болгарского языка и электронных инструментов для обработки средневековых славянских текстов с целью создания веб базированного исторического словаря болгарского языка. В диахронный корпус входят тексты доказанно болгарского происхождения Х—ХVІІІ вв., принадлежащие к разным жанрам средневековой книжности. Корпус обладает своим собственным софтвером, который позволяет адекватное комментирование текста с палеографической, кодикологической и текстологической точки зрения. Тексты набраны специально разработанными для этой цели шрифтами по стандарту UTF-‑8. К настоящему моменту мы располагаем тремя шрифтами, которые инсталированы в конвертор, позволяющий превращение ранее набранных текстов в документы по новому стандарту. Сам корпус содержит свыше 130 текстов и постоянно пополняется новыми текстами по адресу http://histdict.uni-sofia.bg/. Перед каждым текстом опубликована информация об его источниках, датировке, издании, авторе и т.п. На том же сайте находится и полностью оцифрованный словарь древнеболгарского языка (Старобългарски речник), созданный Институтом болгарского языка при БАН. И корпус, и словарь находятся в свободном доступе, но потребителям видны только полностью отредактированные тексты.
Для разработки исторического словаря был создан специализированный софтвер для редактирования словарных статьей древнеболгарского словаря и создания новых словарных статей, так как исторический словарь разрабатывается на базе оцифрованного древнеболгарского словаря. К словарю разработана поисковая машина, которая облегчает работу по созданию новых словарных статьей. Ускоренным ходом идет работа и по созданию морфологического аннотатора (таггера), прототип которого тоже расположен на сайте. Аннотатор разрабатывается с помощью сoзданного тагсета и грамматического словаря древнеболгарского языка, которые учитывают все возможные формы средневекового славянского языка разных изводов. И тагсет, и грамматический словарь опубликованы на сайте в свободном доступе.

Keywords

диахронный корпус болгарского языка; поисковая машина; специализированный софтвер для словарь древнеболгарского языка (Старобългарски речник); морфологическый аннотатор

Hrčak ID:

206462

URI

https://hrcak.srce.hr/206462

Publication date:

6.10.2018.

Article data in other languages: croatian

Visits: 1.559 *