Skoči na glavni sadržaj

Pregledni rad

https://doi.org/10.21857/yrvgqtkj39

ДИАХРОННЫЙ КОРПУС БОЛГАРСКОГО ЯЗЫКА: СОСТОЯНИЕ И ПЕРСПЕКТИВЫ

Анна Марија Тотоманова ; Софийски университет «Св. Климент Охридски»


Puni tekst: ruski pdf 2.136 Kb

str. 223-242

preuzimanja: 636

citiraj


Sažetak

Доклад отражает историю создания Диахронного корпуса болгарского языка и электронных инструментов для обработки средневековых славянских текстов с целью создания веб базированного исторического словаря болгарского языка. В диахронный корпус входят тексты доказанно болгарского происхождения Х—ХVІІІ вв., принадлежащие к разным жанрам средневековой книжности. Корпус обладает своим собственным софтвером, который позволяет адекватное комментирование текста с палеографической, кодикологической и текстологической точки зрения. Тексты набраны специально разработанными для этой цели шрифтами по стандарту UTF-‑8. К настоящему моменту мы располагаем тремя шрифтами, которые инсталированы в конвертор, позволяющий превращение ранее набранных текстов в документы по новому стандарту. Сам корпус содержит свыше 130 текстов и постоянно пополняется новыми текстами по адресу http://histdict.uni-sofia.bg/. Перед каждым текстом опубликована информация об его источниках, датировке, издании, авторе и т.п. На том же сайте находится и полностью оцифрованный словарь древнеболгарского языка (Старобългарски речник), созданный Институтом болгарского языка при БАН. И корпус, и словарь находятся в свободном доступе, но потребителям видны только полностью отредактированные тексты.
Для разработки исторического словаря был создан специализированный софтвер для редактирования словарных статьей древнеболгарского словаря и создания новых словарных статей, так как исторический словарь разрабатывается на базе оцифрованного древнеболгарского словаря. К словарю разработана поисковая машина, которая облегчает работу по созданию новых словарных статьей. Ускоренным ходом идет работа и по созданию морфологического аннотатора (таггера), прототип которого тоже расположен на сайте. Аннотатор разрабатывается с помощью сoзданного тагсета и грамматического словаря древнеболгарского языка, которые учитывают все возможные формы средневекового славянского языка разных изводов. И тагсет, и грамматический словарь опубликованы на сайте в свободном доступе.

Ključne riječi

диахронный корпус болгарского языка; поисковая машина; специализированный софтвер для словарь древнеболгарского языка (Старобългарски речник); морфологическый аннотатор

Hrčak ID:

206462

URI

https://hrcak.srce.hr/206462

Datum izdavanja:

6.10.2018.

Podaci na drugim jezicima: hrvatski

Posjeta: 1.597 *