Kompiliranje korpusa u digitalnim humanističkim znanostima u jezicima s ograničenim resursima: o praksi kompiliranja tematskih korpusa iz digitalnih medija za srpski, hrvatski i slovenski

Bogetić, Ksenija; Batanović, Vuk; Ljubešić, Nikola

doi:10.22210/suvlin.2022.094.01

Contemporary Linguistics, Vol. 48 No. 94, 2022.

Original scientific paper

https://doi.org/10.22210/suvlin.2022.094.01

Kompiliranje korpusa u digitalnim humanističkim znanostima u jezicima s ograničenim resursima: o praksi kompiliranja tematskih korpusa iz digitalnih medija za srpski, hrvatski i slovenski

Ksenija Bogetić ; Research Centre of the Slovenian Academy of Sciences and Arts, Slovenija
Vuk Batanović orcid.org/0000-0003-2639-9091 ; Innovation Center of the School of Electrical Engineering, University of Belgrade, Srbija
Nikola Ljubešić orcid.org/0000-0001-7169-9152 ; Jožef Stefan Institute, Ljubljana Faculty of Computer and Information Science, University of Ljubljana, Slovenija

Full text: english pdf 162 Kb

page 129-152

downloads: 899

cite

APA 6th Edition

Bogetić, K., Batanović, V. & Ljubešić, N. (2022). Kompiliranje korpusa u digitalnim humanističkim znanostima u jezicima s ograničenim resursima: o praksi kompiliranja tematskih korpusa iz digitalnih medija za srpski, hrvatski i slovenski. Suvremena lingvistika, 48 (94), 129-152. https://doi.org/10.22210/suvlin.2022.094.01

MLA 8th Edition

Bogetić, Ksenija, et al. "Kompiliranje korpusa u digitalnim humanističkim znanostima u jezicima s ograničenim resursima: o praksi kompiliranja tematskih korpusa iz digitalnih medija za srpski, hrvatski i slovenski." Suvremena lingvistika, vol. 48, no. 94, 2022, pp. 129-152. https://doi.org/10.22210/suvlin.2022.094.01. Accessed 30 Jul. 2026.

Chicago 17th Edition

Bogetić, Ksenija, Vuk Batanović and Nikola Ljubešić. "Kompiliranje korpusa u digitalnim humanističkim znanostima u jezicima s ograničenim resursima: o praksi kompiliranja tematskih korpusa iz digitalnih medija za srpski, hrvatski i slovenski." Suvremena lingvistika 48, no. 94 (2022): 129-152. https://doi.org/10.22210/suvlin.2022.094.01

Harvard

Bogetić, K., Batanović, V., and Ljubešić, N. (2022). 'Kompiliranje korpusa u digitalnim humanističkim znanostima u jezicima s ograničenim resursima: o praksi kompiliranja tematskih korpusa iz digitalnih medija za srpski, hrvatski i slovenski', Suvremena lingvistika, 48(94), pp. 129-152. https://doi.org/10.22210/suvlin.2022.094.01

Vancouver

Bogetić K, Batanović V, Ljubešić N. Kompiliranje korpusa u digitalnim humanističkim znanostima u jezicima s ograničenim resursima: o praksi kompiliranja tematskih korpusa iz digitalnih medija za srpski, hrvatski i slovenski. Suvremena lingvistika [Internet]. 2022 [cited 2026 July 30];48(94):129-152. https://doi.org/10.22210/suvlin.2022.094.01

IEEE

K. Bogetić, V. Batanović and N. Ljubešić, "Kompiliranje korpusa u digitalnim humanističkim znanostima u jezicima s ograničenim resursima: o praksi kompiliranja tematskih korpusa iz digitalnih medija za srpski, hrvatski i slovenski", Suvremena lingvistika, vol.48, no. 94, pp. 129-152, 2022. [Online]. https://doi.org/10.22210/suvlin.2022.094.01

Abstract

Digitalno doba otvorilo je nove mogućnosti za sastavljanje korpusa društvenog diskursa, što je
korpusnolingvističke metode približilo drugim metodama analize diskursa te humanističkim znanostima.
Čak i kada se ne koriste nikakve specifične tehnike korpusne lingvistike, danas je za empirijski utemeljenu
društveno–znanstvenu analizu sve učestalije korištenje neke vrste korpusa (‘korpusno–asistirana analiza
diskursa’ ili ‘kritička korpusna analiza’, Hardt–Mautner 1995; Baker 2016). U postjugoslavenskom
prostoru, nedavni razvoj korpusne lingvistike donio je prednosti u mnogim područjima istraživanja.
Ipak, za lingviste i analitičare diskursa koji se upuštaju u prikupljanje specijaliziranih korpusa za vlastite
istraživačke svrhe, i dalje ostaju otvorena mnoga pitanja – djelomično zbog pozadine korpusne lingvistike
koja se brzo mijenja, ali i zbog činjenice da još uvijek postoji rascjep u poznavanju korpusnih metoda, kao
i metodologije sastavljanja korpusa izvan anglofonskog konteksta. Ovim radom pokušavamo smanjiti
spomenuti rascjep predstavljajući jedan postupni prikaz postupka izgradnje korpusa za hrvatski, srpski
i slovenski, kroz primjer sastavljanja tematskog korpusa iz digitalnih medija (novinski članci i komentari
čitatelja). Nakon pregleda tipova korpusa, korištenja i prednosti u društvenim znanostima i digitalnim
humanističkim znanostima, predstavljamo mogućnosti sastavljanja korpusa u južnoslavenskim jezičnim
kontekstima, uključujući opcije preuzimanja podataka s mreže, dozvola i etičkih pitanja, čimbenika koji
olakšavaju ili otežavaju automatizirano prikupljanje i označavanje korpusa i mogućnosti obrade. Studija
otkriva sve veće mogućnosti za rad s danim jezicima, ali i neka uporno siva područja u kojima istraživači
trebaju donositi odluke na temelju istraživačkih očekivanja. Općenito, rad ima za cilj rekapitulirati
vlastito iskustvo sastavljanja korpusa u širem kontekstu južnoslavenske korpusne lingvistike i korpusnih
lingvističkih pristupa u humanističkim znanostima općenito.

Keywords

korpusna lingvistika, kompilacija korpusa, korpusi i analiza diskursa, digitalni mediji

Hrčak ID:

289474

URI

https://hrcak.srce.hr/289474

Publication date:

29.12.2022.

Article data in other languages: english

Visits: 2.456 *

Login and registration

Contemporary Linguistics, Vol. 48 No. 94, 2022.

Abstract

Keywords

Hrčak ID:

URI

Publication date: