Filologija, No. 68, 2017.
Review article
https://doi.org/10.21857/yrvgqtkj39
ДИАХРОННЫЙ КОРПУС БОЛГАРСКОГО ЯЗЫКА: СОСТОЯНИЕ И ПЕРСПЕКТИВЫ
Анна Марија Тотоманова
; Софийски университет «Св. Климент Охридски»
Abstract
Доклад отражает историю создания Диахронного корпуса болгарского языка и электронных инструментов для обработки средневековых славянских текстов с целью создания веб базированного исторического словаря болгарского языка. В диахронный корпус входят тексты доказанно болгарского происхождения Х—ХVІІІ вв., принадлежащие к разным жанрам средневековой книжности. Корпус обладает своим собственным софтвером, который позволяет адекватное комментирование текста с палеографической, кодикологической и текстологической точки зрения. Тексты набраны специально разработанными для этой цели шрифтами по стандарту UTF-‑8. К настоящему моменту мы располагаем тремя шрифтами, которые инсталированы в конвертор, позволяющий превращение ранее набранных текстов в документы по новому стандарту. Сам корпус содержит свыше 130 текстов и постоянно пополняется новыми текстами по адресу http://histdict.uni-sofia.bg/. Перед каждым текстом опубликована информация об его источниках, датировке, издании, авторе и т.п. На том же сайте находится и полностью оцифрованный словарь древнеболгарского языка (Старобългарски речник), созданный Институтом болгарского языка при БАН. И корпус, и словарь находятся в свободном доступе, но потребителям видны только полностью отредактированные тексты.
Для разработки исторического словаря был создан специализированный софтвер для редактирования словарных статьей древнеболгарского словаря и создания новых словарных статей, так как исторический словарь разрабатывается на базе оцифрованного древнеболгарского словаря. К словарю разработана поисковая машина, которая облегчает работу по созданию новых словарных статьей. Ускоренным ходом идет работа и по созданию морфологического аннотатора (таггера), прототип которого тоже расположен на сайте. Аннотатор разрабатывается с помощью сoзданного тагсета и грамматического словаря древнеболгарского языка, которые учитывают все возможные формы средневекового славянского языка разных изводов. И тагсет, и грамматический словарь опубликованы на сайте в свободном доступе.
Keywords
диахронный корпус болгарского языка; поисковая машина; специализированный софтвер для словарь древнеболгарского языка (Старобългарски речник); морфологическый аннотатор
Hrčak ID:
206462
URI
Publication date:
6.10.2018.
Visits: 1.559 *