Original scientific paper
ZAKON O VELIČINI VOKABULARA TEKSTA Heapsov zakon i određivanje veličine vokabulara tekstova na hrvatskom jeziku
Miroslav TUĐMAN
Abstract
Postoje}a formula Heapsova zakona o veli~ini vokabulara
teksta nije univerzalna te zakon treba redefinirati, kako bi se
mogao rabiti za analizu korpusa na raznim jezicima. Analiza
korpusa tekstova na hrvatskom jeziku potvr|uje hipotezu da je
broj funkcionalnih pojavnica u tekstu konstantan te iznosi 21%
veli~ine teksta. Autor dokazuje da se postotak funkcionalnih
pojavnica u tekstu mo`e uzimati kao vrijednost za parametar K
te da je parametar K konstantna vrijednost za svaki jezi~ni
korpus. Empirijska istra`ivanja potvr|uju autorovu tezu da se
broj funkcionalnih pojavnica u tekstu mo`e izra~unati po
formuli F = nK/100, a da za veli~inu najfrekventnije pojavnice
(MF) vrijedi formula MF = n (K/100)2. Vrijednost drugoga
parametra Heapsova zakona tako|er se mo`e precizno
odrediti i zato autor predla`e novi oblik zakona o veli~ini
vokabulara teksta. Istra`ivanja potvr|uju da je vrlo visoka
korelacija izme|u izra~unanih i stvarnih vrijednosti veli~ine
vokabulara, odnosno izme|u stvarnih i izra~unanih vrijednosti
jednokratnih rije~i u tekstu. Ovako interpretiran i definiran
zakon o veli~ini vokabulara teksta omogu}uje izra~un veli~ine
vokabulara teksta na svakom jeziku, kada se zna postotak
funkcionalnih rije~i koji je konstantan za taj jezik. No ova
interpretacija zakona omogu}uje, osim izra~una veli~ine
vokabulara teksta, i odre|ivanje broja funkcionalnih pojavnica
u tekstu, veli~ine najfrekventnije rije~i u tekstu te broja
jednokratnih pojavnica koje tvore vokabular teksta.
Keywords
Hrčak ID:
16266
URI
Publication date:
30.4.2005.
Visits: 3.497 *