Skoči na glavni sadržaj

Izvorni znanstveni članak

https://doi.org/10.22210/suvlin.2022.094.01

Kompiliranje korpusa u digitalnim humanističkim znanostima u jezicima s ograničenim resursima: o praksi kompiliranja tematskih korpusa iz digitalnih medija za srpski, hrvatski i slovenski

Ksenija Bogetić ; Research Centre of the Slovenian Academy of Sciences and Arts, Slovenija
Vuk Batanović orcid id orcid.org/0000-0003-2639-9091 ; Innovation Center of the School of Electrical Engineering, University of Belgrade, Srbija
Nikola Ljubešić orcid id orcid.org/0000-0001-7169-9152 ; Jožef Stefan Institute, Ljubljana Faculty of Computer and Information Science, University of Ljubljana, Slovenija


Puni tekst: engleski pdf 162 Kb

str. 129-152

preuzimanja: 266

citiraj


Sažetak

Digitalno doba otvorilo je nove mogućnosti za sastavljanje korpusa društvenog diskursa, što je
korpusnolingvističke metode približilo drugim metodama analize diskursa te humanističkim znanostima.
Čak i kada se ne koriste nikakve specifične tehnike korpusne lingvistike, danas je za empirijski utemeljenu
društveno–znanstvenu analizu sve učestalije korištenje neke vrste korpusa (‘korpusno–asistirana analiza
diskursa’ ili ‘kritička korpusna analiza’, Hardt–Mautner 1995; Baker 2016). U postjugoslavenskom
prostoru, nedavni razvoj korpusne lingvistike donio je prednosti u mnogim područjima istraživanja.
Ipak, za lingviste i analitičare diskursa koji se upuštaju u prikupljanje specijaliziranih korpusa za vlastite
istraživačke svrhe, i dalje ostaju otvorena mnoga pitanja – djelomično zbog pozadine korpusne lingvistike
koja se brzo mijenja, ali i zbog činjenice da još uvijek postoji rascjep u poznavanju korpusnih metoda, kao
i metodologije sastavljanja korpusa izvan anglofonskog konteksta. Ovim radom pokušavamo smanjiti
spomenuti rascjep predstavljajući jedan postupni prikaz postupka izgradnje korpusa za hrvatski, srpski
i slovenski, kroz primjer sastavljanja tematskog korpusa iz digitalnih medija (novinski članci i komentari
čitatelja). Nakon pregleda tipova korpusa, korištenja i prednosti u društvenim znanostima i digitalnim
humanističkim znanostima, predstavljamo mogućnosti sastavljanja korpusa u južnoslavenskim jezičnim
kontekstima, uključujući opcije preuzimanja podataka s mreže, dozvola i etičkih pitanja, čimbenika koji
olakšavaju ili otežavaju automatizirano prikupljanje i označavanje korpusa i mogućnosti obrade. Studija
otkriva sve veće mogućnosti za rad s danim jezicima, ali i neka uporno siva područja u kojima istraživači
trebaju donositi odluke na temelju istraživačkih očekivanja. Općenito, rad ima za cilj rekapitulirati
vlastito iskustvo sastavljanja korpusa u širem kontekstu južnoslavenske korpusne lingvistike i korpusnih
lingvističkih pristupa u humanističkim znanostima općenito.

Ključne riječi

korpusna lingvistika, kompilacija korpusa, korpusi i analiza diskursa, digitalni mediji

Hrčak ID:

289474

URI

https://hrcak.srce.hr/289474

Datum izdavanja:

29.12.2022.

Podaci na drugim jezicima: engleski

Posjeta: 667 *