Korpusnojezikoslovna obradba tekstova Sportskih novosti

Stojanov, Tomislav; Vučić, Zoran

Filologija, No. 59, 2012.

Original scientific paper

Korpusnojezikoslovna obradba tekstova Sportskih novosti

Tomislav Stojanov orcid.org/0000-0002-6972-6518 ; Institut za hrvatski jezik i jezikoslovlje
Zoran Vučić

Full text: croatian pdf 785 Kb

page 103-129

downloads: 844

cite

APA 6th Edition

Stojanov, T. & Vučić, Z. (2012). Korpusnojezikoslovna obradba tekstova Sportskih novosti. Filologija, (59), 103-129. Retrieved from https://hrcak.srce.hr/98089

MLA 8th Edition

Stojanov, Tomislav and Zoran Vučić. "Korpusnojezikoslovna obradba tekstova Sportskih novosti." Filologija, vol. , no. 59, 2012, pp. 103-129. https://hrcak.srce.hr/98089. Accessed 18 Dec. 2024.

Chicago 17th Edition

Stojanov, Tomislav and Zoran Vučić. "Korpusnojezikoslovna obradba tekstova Sportskih novosti." Filologija , no. 59 (2012): 103-129. https://hrcak.srce.hr/98089

Harvard

Stojanov, T., and Vučić, Z. (2012). 'Korpusnojezikoslovna obradba tekstova Sportskih novosti', Filologija, (59), pp. 103-129. Available at: https://hrcak.srce.hr/98089 (Accessed 18 December 2024)

Vancouver

Stojanov T, Vučić Z. Korpusnojezikoslovna obradba tekstova Sportskih novosti. Filologija [Internet]. 2012 [cited 2024 December 18];(59):103-129. Available from: https://hrcak.srce.hr/98089

IEEE

T. Stojanov and Z. Vučić, "Korpusnojezikoslovna obradba tekstova Sportskih novosti", Filologija, vol., no. 59, pp. 103-129, 2012. [Online]. Available: https://hrcak.srce.hr/98089. [Accessed: 18 December 2024]

Abstract

U radu se propitkuje uloga korpusa za jezikoslovna istraživanja i testiraju sučelja dvaju hrvatskih korpusa, Philologic i Bonito, za jezične upite na razini dokumenta i sadržaja, prikazbe te znakova i forme. Za specijalizirane jezikoslovne pretraživačke upite izgradili smo sportsku novinsku bazu internetskih tekstova Sportskih novosti od travnja 2008. do srpnja 2009. godine (3,6 milijuna pojavnica).
Pokazat će se računalni postupci dohvaćanja teksta, n‑gramski SQL/regex‑upiti u cilju izvlačenja supojavnih čestotnica i otkrivanja frazema, naziva i stalnijih sintagmema, te njihova vizualizacija u prebirniku (browseru) uz pomoć javaskriptne biblioteke WireIt.
Ukazali smo da izgrađena metodologija može poslužiti za dobivanje jedinstvenih informacija za jezikoslovna istraživanja, te usporedili rezultate našega pristupa s tražilicom Google na osnovi kojih smo istaknuli sedam nedostataka rezultata Googleovih pretraživanja za jezikoslovna istraživanja.

Keywords

pretraživanje teksta; SQLite; dohvaćanje podataka; tražilica Google; korpusno jezikoslovlje; Sportske novosti; n-gram; kolokacija; hrvatski jezik

Hrčak ID:

98089

URI

https://hrcak.srce.hr/98089

Publication date:

12.3.2013.

Article data in other languages: english

Visits: 2.288 *

Login and registration

Filologija, No. 59, 2012.

Abstract

Keywords

Hrčak ID:

URI

Publication date: