hrcak mascot   Srce   HID

Izvorni znanstveni članak

Korpusnojezikoslovna obradba tekstova Sportskih novosti

Tomislav Stojanov   ORCID icon orcid.org/0000-0002-6972-6518 ; Institut za hrvatski jezik i jezikoslovlje
Zoran Vučić

Puni tekst: hrvatski, pdf (785 KB) str. 103-129 preuzimanja: 465* citiraj
APA 6th Edition
Stojanov, T. i Vučić, Z. (2012). Korpusnojezikoslovna obradba tekstova Sportskih novosti. Filologija, (59), 103-129. Preuzeto s https://hrcak.srce.hr/98089
MLA 8th Edition
Stojanov, Tomislav i Zoran Vučić. "Korpusnojezikoslovna obradba tekstova Sportskih novosti." Filologija, vol. , br. 59, 2012, str. 103-129. https://hrcak.srce.hr/98089. Citirano 26.10.2020.
Chicago 17th Edition
Stojanov, Tomislav i Zoran Vučić. "Korpusnojezikoslovna obradba tekstova Sportskih novosti." Filologija , br. 59 (2012): 103-129. https://hrcak.srce.hr/98089
Harvard
Stojanov, T., i Vučić, Z. (2012). 'Korpusnojezikoslovna obradba tekstova Sportskih novosti', Filologija, (59), str. 103-129. Preuzeto s: https://hrcak.srce.hr/98089 (Datum pristupa: 26.10.2020.)
Vancouver
Stojanov T, Vučić Z. Korpusnojezikoslovna obradba tekstova Sportskih novosti. Filologija [Internet]. 2012 [pristupljeno 26.10.2020.];(59):103-129. Dostupno na: https://hrcak.srce.hr/98089
IEEE
T. Stojanov i Z. Vučić, "Korpusnojezikoslovna obradba tekstova Sportskih novosti", Filologija, vol., br. 59, str. 103-129, 2012. [Online]. Dostupno na: https://hrcak.srce.hr/98089. [Citirano: 26.10.2020.]

Sažetak
U radu se propitkuje uloga korpusa za jezikoslovna istraživanja i testiraju sučelja dvaju hrvatskih korpusa, Philologic i Bonito, za jezične upite na razini dokumenta i sadržaja, prikazbe te znakova i forme. Za specijalizirane jezikoslovne pretraživačke upite izgradili smo sportsku novinsku bazu internetskih tekstova Sportskih novosti od travnja 2008. do srpnja 2009. godine (3,6 milijuna pojavnica).
Pokazat će se računalni postupci dohvaćanja teksta, n‑gramski SQL/regex‑upiti u cilju izvlačenja supojavnih čestotnica i otkrivanja frazema, naziva i stalnijih sintagmema, te njihova vizualizacija u prebirniku (browseru) uz pomoć javaskriptne biblioteke WireIt.
Ukazali smo da izgrađena metodologija može poslužiti za dobivanje jedinstvenih informacija za jezikoslovna istraživanja, te usporedili rezultate našega pristupa s tražilicom Google na osnovi kojih smo istaknuli sedam nedostataka rezultata Googleovih pretraživanja za jezikoslovna istraživanja.

Ključne riječi
pretraživanje teksta; SQLite; dohvaćanje podataka; tražilica Google; korpusno jezikoslovlje; Sportske novosti; n-gram; kolokacija; hrvatski jezik

Hrčak ID: 98089

URI
https://hrcak.srce.hr/98089

[engleski]

Posjeta: 900 *