Skip to the main content

Professional paper

Računalna obradba hrvatskih korpusa: povijest, stanje i perspektive

Marko Tadić ; Zavod za lingvistiku Filozofskoga fakulteta, Zagreb


Full text: croatian pdf 124 Kb

page 387-394

downloads: 697

cite


Abstract

Članak daje pregled obradbe hrvatskih korpusa. Navode se najvažniji korpusni projekti od
prvoga hrvatskoga računalno podržanoga korpusa - Gundulićev Osman (Bujas 1967), preko
Moguševa milijunskoga korpusa do današnjih dana. Nadalje se rad usredotočuje na Hrvatski
nacionalni korpus koji je središnji projekt na području korpusne lingvistike u Hrvatskoj danas.
Hrvatski nacionalni korpus (Tadić 1996) čine dvije sastavnice: 1) reprezentativni 30-milijunski
korpus suvremenoga hrvatskoga jezika (30M) i 2) Hrvatski elektronski tekstovni arhiv
(HETA). U prvoj fazi sastavljanja Hrvatskoga nacionalnoga korpusa naglasak je na zaokruživanju 30-milijunskoga korpusa, dok će se u drugoj fazi sav napor preusmjeriti na širenje
obuhvata Hrvatskoga elektronskog tekstovnoga arhiva. U sadašnjem stanju rad na 30-
milijunskom korpusu, koji bi trebao biti završen 2000, u fazi je uznapredovala planiranja i
javnoga testiranja probne inačice korpusa (7,68 milijuna pojavnica) putem WWW-a.

Keywords

Hrčak ID:

23806

URI

https://hrcak.srce.hr/23806

Publication date:

28.5.1997.

Visits: 1.329 *