Original scientific paper
https://doi.org/10.22210/suvlin.2022.094.01
Kompiliranje korpusa u digitalnim humanističkim znanostima u jezicima s ograničenim resursima: o praksi kompiliranja tematskih korpusa iz digitalnih medija za srpski, hrvatski i slovenski
Ksenija Bogetić
; Research Centre of the Slovenian Academy of Sciences and Arts, Slovenija
Vuk Batanović
orcid.org/0000-0003-2639-9091
; Innovation Center of the School of Electrical Engineering, University of Belgrade, Srbija
Nikola Ljubešić
orcid.org/0000-0001-7169-9152
; Jožef Stefan Institute, Ljubljana Faculty of Computer and Information Science, University of Ljubljana, Slovenija
Abstract
Digitalno doba otvorilo je nove mogućnosti za sastavljanje korpusa društvenog diskursa, što je
korpusnolingvističke metode približilo drugim metodama analize diskursa te humanističkim znanostima.
Čak i kada se ne koriste nikakve specifične tehnike korpusne lingvistike, danas je za empirijski utemeljenu
društveno–znanstvenu analizu sve učestalije korištenje neke vrste korpusa (‘korpusno–asistirana analiza
diskursa’ ili ‘kritička korpusna analiza’, Hardt–Mautner 1995; Baker 2016). U postjugoslavenskom
prostoru, nedavni razvoj korpusne lingvistike donio je prednosti u mnogim područjima istraživanja.
Ipak, za lingviste i analitičare diskursa koji se upuštaju u prikupljanje specijaliziranih korpusa za vlastite
istraživačke svrhe, i dalje ostaju otvorena mnoga pitanja – djelomično zbog pozadine korpusne lingvistike
koja se brzo mijenja, ali i zbog činjenice da još uvijek postoji rascjep u poznavanju korpusnih metoda, kao
i metodologije sastavljanja korpusa izvan anglofonskog konteksta. Ovim radom pokušavamo smanjiti
spomenuti rascjep predstavljajući jedan postupni prikaz postupka izgradnje korpusa za hrvatski, srpski
i slovenski, kroz primjer sastavljanja tematskog korpusa iz digitalnih medija (novinski članci i komentari
čitatelja). Nakon pregleda tipova korpusa, korištenja i prednosti u društvenim znanostima i digitalnim
humanističkim znanostima, predstavljamo mogućnosti sastavljanja korpusa u južnoslavenskim jezičnim
kontekstima, uključujući opcije preuzimanja podataka s mreže, dozvola i etičkih pitanja, čimbenika koji
olakšavaju ili otežavaju automatizirano prikupljanje i označavanje korpusa i mogućnosti obrade. Studija
otkriva sve veće mogućnosti za rad s danim jezicima, ali i neka uporno siva područja u kojima istraživači
trebaju donositi odluke na temelju istraživačkih očekivanja. Općenito, rad ima za cilj rekapitulirati
vlastito iskustvo sastavljanja korpusa u širem kontekstu južnoslavenske korpusne lingvistike i korpusnih
lingvističkih pristupa u humanističkim znanostima općenito.
Keywords
korpusna lingvistika, kompilacija korpusa, korpusi i analiza diskursa, digitalni mediji
Hrčak ID:
289474
URI
Publication date:
29.12.2022.
Visits: 1.268 *