Skoči na glavni sadržaj

Stručni rad

Teimark program - obradba transkribirane stare knjižne građe

Mario Essert ; Fakultet strojarstva i brodogradnje Sveučilišta u Zagrebu, Zagreb, Hrvatska
Vlado Cingel orcid id orcid.org/0000-0002-1121-8430
Nikola Glumac orcid id orcid.org/0000-0003-0716-0405
Mario Lončarić orcid id orcid.org/0000-0001-7735-3697
Božidar Štimac


Puni tekst: hrvatski pdf 5.649 Kb

str. 197-210

preuzimanja: 627

citiraj


Sažetak

U hrvatskim se institucijama čuva poveći korpus digitalizirane baštine koji je u svrhu predstavljanja često dostupan preko interneta. Digitalizirani dokumenti čuvaju tako istinu o bogatoj hrvatskoj kulturnoj i pisanoj baštini. Nakon izgradnje programa DocMark, čija je svrha označivanje digitaliziranih slikovnih dokumenata u svrhu analize tih oznaka na pojedinačnim dokumentima i/ili njihove usporedbe, kao rezultat trogodišnjeg rada načinjen je TEIMark – program za označivanje teksta: utipkanoga, transliteriranoga ili strojno prepoznatoga. Dok je označivanje u DocMarku izvedeno nad slikom dokumenta (u kojem su zanimljiva i dohvatljiva materijalne osobine/vlastitosti, ali ne i sadržaj teksta), u TEIMarku se označivanje odvija nad stvarnim tekstom, a ne njegovom slikom, čime su omogućena lingvistička i druga istraživanja usmjerena na sadržaj dokumenata. Program je dobio ime po oznakama TEI (Text Encoding Initiative), no za razliku od njihova uobičajenoga unosa (pomoću komercijalnih editora oXygen, XMLSpy, XmlBlueprint i sl.) s XML-elementima i pripadajućim atributima (što stvara poteškoće u čitanju i analizi označenog teksta), ovdje je riječ o jednostavnijem, potpuno novom vizualnom pristupu koji isključuje potrebe poznavanja i čitanja XML-a (eXtensible Markup Language) ili XSLT programa za transformaciju (ali ih niti ne odbacuje u naknadnoj analizi i obradbi označenog teksta). Program ima sve napredne generičke osobine pa se osim TEI označivanja može koristiti za tvorbu Wiki stranica, ReST ili Markdown aplikacija i slično. Označivanje dokumenata može se provoditi lokalno (s tekstom u HTML formatu), ali i preko interneta, pri čemu je, slično kao i kod DocMarka, omogućeno vizualno označivanje u više nezavisnih slojeva. To omogućuje rad više osoba, npr. stručnjaka iz različitih područja, na istom dokumentu. Za rad je potreban samo WEB preglednik. Rezultati označivanja mogu se izvoziti u XML-u i u drugim formatima te naknadno obrađivati poznatim ili novostvorenim programima za analizu (npr. prebrojavanje oznaka, proučavanje pojmovnih klasa, gramatička istraživanja i slično). TEIMark osim ručnog ima ugrađeno i automatsko označivanje, i to na temelju unaprijed zadanih riječi (npr. iz računalne baze), njihovih dijelova pa čak i fraza (raspršenih riječi). Vizualne oznake moguće je definirati po hijerarhijskoj strukturi u dubinu i po pojmovnim domenama u širinu, te prikazivati skupno, pojedinačno ili po slojevima u označenom dokumentu.
TEIMark program ugrađen je u novu (petu) inačicu elektroničkog izdanja Biblije (© KS, Zagreb) i predstavljen u knjižnici HAZU-a na označivanju i analizi odabranih digitaliziranih dokumenata Instituta za jezik i jezikoslovlje i on-line enciklopedije Leksikografskoga zavoda Miroslav Krleža.

Ključne riječi

digitalizirana baština; TEIMark program; stvarni tekst; sadržaj; digitalizirani dokumenti

Hrčak ID:

150028

URI

https://hrcak.srce.hr/150028

Datum izdavanja:

10.11.2015.

Podaci na drugim jezicima: engleski

Posjeta: 1.664 *