Kako „razmišljaju“ veliki jezični modeli i možemo li im vjerovati: studija slučaja testiranja ChatGPT-a na zadacima uvodnog statističkog kolegija

Dobša, Jasminka

doi:10.36978/cte.7.2.2

Polytechnica : Journal of Technology Education, Vol. 7 No. 2, 2023.

Preliminary communication

https://doi.org/10.36978/cte.7.2.2

Kako „razmišljaju“ veliki jezični modeli i možemo li im vjerovati: studija slučaja testiranja ChatGPT-a na zadacima uvodnog statističkog kolegija

Jasminka Dobša orcid.org/0000-0002-1684-1010 ; Faculty of Organization and Informatics, Varaždin, Croatia *

* Corresponding author.

Full text: croatian pdf 872 Kb

page 18-25

downloads: 264

cite

APA 6th Edition

Dobša, J. (2023). Kako „razmišljaju“ veliki jezični modeli i možemo li im vjerovati: studija slučaja testiranja ChatGPT-a na zadacima uvodnog statističkog kolegija. Politehnika, 7 (2), 18-25. https://doi.org/10.36978/cte.7.2.2

MLA 8th Edition

Dobša, Jasminka. "Kako „razmišljaju“ veliki jezični modeli i možemo li im vjerovati: studija slučaja testiranja ChatGPT-a na zadacima uvodnog statističkog kolegija." Politehnika, vol. 7, no. 2, 2023, pp. 18-25. https://doi.org/10.36978/cte.7.2.2. Accessed 19 Nov. 2024.

Chicago 17th Edition

Dobša, Jasminka. "Kako „razmišljaju“ veliki jezični modeli i možemo li im vjerovati: studija slučaja testiranja ChatGPT-a na zadacima uvodnog statističkog kolegija." Politehnika 7, no. 2 (2023): 18-25. https://doi.org/10.36978/cte.7.2.2

Harvard

Dobša, J. (2023). 'Kako „razmišljaju“ veliki jezični modeli i možemo li im vjerovati: studija slučaja testiranja ChatGPT-a na zadacima uvodnog statističkog kolegija', Politehnika, 7(2), pp. 18-25. https://doi.org/10.36978/cte.7.2.2

Vancouver

Dobša J. Kako „razmišljaju“ veliki jezični modeli i možemo li im vjerovati: studija slučaja testiranja ChatGPT-a na zadacima uvodnog statističkog kolegija. Politehnika [Internet]. 2023 [cited 2024 November 19];7(2):18-25. https://doi.org/10.36978/cte.7.2.2

IEEE

J. Dobša, "Kako „razmišljaju“ veliki jezični modeli i možemo li im vjerovati: studija slučaja testiranja ChatGPT-a na zadacima uvodnog statističkog kolegija", Politehnika, vol.7, no. 2, pp. 18-25, 2023. [Online]. https://doi.org/10.36978/cte.7.2.2

Abstract

Cilj rada je pokušati, u kontekstu testiranja modela ChatGPT na studentskim zadacima iz područja statistike, prepoznati slučajeve u kojima veliki jezični modeli pokazuju slično ponašanje ljudskom razmišljanju, a u kojima „razmišljaju“ na drugačiji način te identificirati prilike, rizike i ograničenja kod primjene umjetne inteligencije u nastavi. Analizirat će se mogućnosti i ograničenja velikih jezičnih modela te načini na koje se u ovom brzo rastućem području nastoji nadići postojeće pristranosti i nedostatke. U radu će se testirati chatbot na temelju velikoga jezičnoga modela GPT-4 ChatGPT u znanju uvodnog statističkog kolegija koji se predaje na drugoj godini studija studentima informatičkog studija. Testiranje je provedeno ručnim unošenjem 170 kviz pitanja iz područja statistike u preglednik ChatGPT-a. Pitanja su podijeljena u tri kategorije: teorijska pitanja u kojim se reproducira znanje, teorijska pitanja u kojim se testira razumijevanje područja i zadaci. Kviz pitanja su postavljena na hrvatskom jeziku i analizirani su odgovori dobiveni na hrvatskom jeziku. Uspoređena je točnost rješavanja kviz pitanja za studente i ChatGPT po kategorijama pitanja korištenjem Wilcoxonovog testa sume rangova. Rezultati pokazuju da ChatGPT daje statistički bolje rezultate od studenata u kategorijama teorijskih pitanja u kojima se traži reprodukcija znanja i razumijevanje, dok su kod rješavanja zadataka studenti uspješniji, ali razlika u točnosti nije statistički značajna (p<0,01).

Keywords

veliki jezični modeli; ChatGPT; statistika; testiranje; hrvatski jezik

Hrčak ID:

311603

URI

https://hrcak.srce.hr/311603

Publication date:

18.12.2023.

Article data in other languages: english

Visits: 729 *

Login and registration

Polytechnica : Journal of Technology Education, Vol. 7 No. 2, 2023.

Abstract

Keywords

Hrčak ID:

URI

Publication date: