Funkcionalna leksikografija mrežnoga pravopisnog provjernika

Dembitz, Šandor

Filologija, No. 58, 2012.

Izvorni znanstveni članak

Funkcionalna leksikografija mrežnoga pravopisnog provjernika

Šandor Dembitz orcid.org/0000-0002-0642-845X ; Fakultet elektrotehnike i računarstva

Puni tekst: hrvatski pdf 474 Kb

str. 55-98

preuzimanja: 827

citiraj

APA 6th Edition

Dembitz, Š. (2012). Funkcionalna leksikografija mrežnoga pravopisnog provjernika. Filologija, (58), 55-98. Preuzeto s https://hrcak.srce.hr/98051

MLA 8th Edition

Dembitz, Šandor. "Funkcionalna leksikografija mrežnoga pravopisnog provjernika." Filologija, vol. , br. 58, 2012, str. 55-98. https://hrcak.srce.hr/98051. Citirano 24.11.2024.

Chicago 17th Edition

Dembitz, Šandor. "Funkcionalna leksikografija mrežnoga pravopisnog provjernika." Filologija , br. 58 (2012): 55-98. https://hrcak.srce.hr/98051

Harvard

Dembitz, Š. (2012). 'Funkcionalna leksikografija mrežnoga pravopisnog provjernika', Filologija, (58), str. 55-98. Preuzeto s: https://hrcak.srce.hr/98051 (Datum pristupa: 24.11.2024.)

Vancouver

Dembitz Š. Funkcionalna leksikografija mrežnoga pravopisnog provjernika. Filologija [Internet]. 2012 [pristupljeno 24.11.2024.];(58):55-98. Dostupno na: https://hrcak.srce.hr/98051

IEEE

Š. Dembitz, "Funkcionalna leksikografija mrežnoga pravopisnog provjernika", Filologija, vol., br. 58, str. 55-98, 2012. [Online]. Dostupno na: https://hrcak.srce.hr/98051. [Citirano: 24.11.2024.]

Sažetak

Mrežni pravopisni provjernici nude jedinstvenu priliku za popravljanje vlastite jezične funkcionalnosti interakcijom sa svojim korisnicima. Navedenu mogućnost posebno je važno iskoristiti u jezičnotehnološki perifernim jezicima, kakav je hrvatski, radi prevladavanja jaza koji postoji u tehnologiji obrade prirodnoga jezika između njih i jezičnotehnološki središnjih jezika. Načini na koje je ta mogućnost iskorištena u slučaju hrvatskoga jezika bit će opisana na primjeru mrežnoga pravopisnog provjernika poznatog pod imenom Hascheck. Hascheck je prvi hrvatski javni pravopisni provjernik u uporabi od početka 1993. godine. Njegov je početni rječnik obasezao 100.000 različnica hrvatskoga općejezičnog fonda. Učenjem iz tekstova koji su mu pristizali na obradu opseg je njegova rječnika do svibnja 2010. godine narastao na 830 tisuća općejezičnih različnica i 600.000 različnica posebnojezičnoga fonda (osobna, vlastita i druga imena, kratice i tako dalje). To je rezultat obrade korpusa od 260 milijuna pojavnica ostvaren zahvaljujući ekspertnom sustavu za učenje inkorporiranom u programski sustav pravopisnoga provjernika. Iako je sustav za učenje visokoautomatiziran, nove se različnice ne uvrštavaju u leksičku bazu bez prethodnog ljudskog nadzora. Nadzor je potreban radi očuvanja točnosti rječnika. Tijekom nadzora posebno se vodi računa da u rječnik ne uđu različnice koje se vrlo rijetko javljaju u uporabi, a identične su pogreškama u pisanju mnogo učestalijih riječi hrvatskoga jezika. Velika količina podataka prikupljana godinama omogućuje i pouzdano matematičko modeliranje mnogih aspekata Hascheckova života, što će također biti iscrpno opisano u ovome radu.

Ključne riječi

pravopisni provjernik; korpus; indeks učenja; pokrivanje teksta; Heapsov zakon

Hrčak ID:

98051

URI

https://hrcak.srce.hr/98051

Datum izdavanja:

28.1.2013.

Podaci na drugim jezicima: engleski

Posjeta: 2.044 *

Prijava i registracija

Filologija, No. 58, 2012.

Sažetak

Ključne riječi

Hrčak ID:

URI

Datum izdavanja: