hrcak mascot   Srce   HID

Izvorni znanstveni članak

Percepcijska utemeljenost kepstranih mjera udaljenosti za primjene u obradi govora

Antonio Vasilijević   ORCID icon orcid.org/0000-0002-0862-3726 ; Faculty of Electrical Engineering and Computing, University of Zagreb, Unska 3, 10000 Zagreb, Croatia
Davor Petrinović ; Faculty of Electrical Engineering and Computing, University of Zagreb, Unska 3, 10000 Zagreb, Croatia

Puni tekst: engleski, pdf (1 MB) str. 132-146 preuzimanja: 1.848* citiraj
APA 6th Edition
Vasilijević, A. i Petrinović, D. (2011). Perceptual Significance of Cepstral Distortion Measures in Digital Speech Processing. Automatika, 52 (2), 132-146. Preuzeto s https://hrcak.srce.hr/71297
MLA 8th Edition
Vasilijević, Antonio i Davor Petrinović. "Perceptual Significance of Cepstral Distortion Measures in Digital Speech Processing." Automatika, vol. 52, br. 2, 2011, str. 132-146. https://hrcak.srce.hr/71297. Citirano 21.10.2021.
Chicago 17th Edition
Vasilijević, Antonio i Davor Petrinović. "Perceptual Significance of Cepstral Distortion Measures in Digital Speech Processing." Automatika 52, br. 2 (2011): 132-146. https://hrcak.srce.hr/71297
Harvard
Vasilijević, A., i Petrinović, D. (2011). 'Perceptual Significance of Cepstral Distortion Measures in Digital Speech Processing', Automatika, 52(2), str. 132-146. Preuzeto s: https://hrcak.srce.hr/71297 (Datum pristupa: 21.10.2021.)
Vancouver
Vasilijević A, Petrinović D. Perceptual Significance of Cepstral Distortion Measures in Digital Speech Processing. Automatika [Internet]. 2011 [pristupljeno 21.10.2021.];52(2):132-146. Dostupno na: https://hrcak.srce.hr/71297
IEEE
A. Vasilijević i D. Petrinović, "Perceptual Significance of Cepstral Distortion Measures in Digital Speech Processing", Automatika, vol.52, br. 2, str. 132-146, 2011. [Online]. Dostupno na: https://hrcak.srce.hr/71297. [Citirano: 21.10.2021.]

Sažetak
Jedna od danas najčešće korištenih mjera u automatskom prepoznavanju govora i govornika je mjera euklidske udaljenosti MFCC vektora. Algoritam za izračunavanje mel frekvencijskih kepstralnih koeficijenata zasniva se na filtarskom slogu kod kojeg su pojasi ekvidistantno raspoređeni na percepcijski motiviranoj mel skali. Na vrijednost mel kepstralnog vektora, a samim time i na svojstva kepstralne mjere udaljenosti glasova, utječe veći broj parametara sustava za kepstralnu analizu. Tema ovog rada je ispitati usklađenost MFCC mjere sa stvarnim percepcijskim razlikama za različite vrijednosti parametara analize. Analizom parametara mel filtarskog sloga utvrdili smo da filtar sa 24 pojasa, širine 220 mel-a i faktorom preklapanja filtra većim ili jednakim jedan, daje optimalne SD mjere koje se najbolje slažu s percepcijom. Za takav mel filtarski slog granica čujnosti razlike između glasova je 0.4-0.5 dB, mjereno SD RMS razlikom potpunih mel kepstralnih vektora. Također, pokazat ćemo da je korištenje mel kepstralnog vektora odrezanog na konačnu dužinu (12 koeficijenata) opravdano za prepoznavanje govora, ali da bi moglo biti upitno u primjenama prepoznavanja govornika. Analizirali smo i utjecaj preklapanja spektara u kepstralnoj domeni na mjere udaljenosti glasova. Utvrđena je izrazita koreliranost SD razlika izračunatih iz aperiodskog i periodičkog mel kepstra iz čega zaključujemo da je utjecaj preklapanja spektara generalno zanemariv. Postoje rijetke iznimke kod kojih je utjecaj preklapanja spektara prisutan, te su one posebno analizirane.

Ključne riječi
preklapanje spektara; digitalna obrada govora; MFCC; mel kepstar; SD mjera; prepoznavanje govora

Hrčak ID: 71297

URI
https://hrcak.srce.hr/71297

[engleski]

Posjeta: 2.315 *