Đánh giá các hệ thống nhận dạng giọng nói tiếng việt (vais, viettel, zalo, fpt và google) trong bản tin
Email tác giả liên hệ:
quy.dao@eiu.edu.vnDOI:
https://doi.org/10.54644/jte.63.2021.46Từ khóa:
Xử lý ngôn ngữ tự nhiên, Nhận dạng tiếng nói, WER, tin tức, ApiTóm tắt
Bài báo này giới thiệu kết quả đánh giá các hệ thống nhận dạng giọng nói tiếng Việt (VASP-Vietnamese Automatic Speech Recognition) trong bản tin từ các công ty hàng đầu của Việt Nam như Vais (Vietnam AI System), Viettel, Zalo, Fpt và công ty hàng đầu thế giới Google. Để đánh giá các hệ thống nhận dạng giọng nói, chúng tôi sử dụng hệ số Word Error Rate (WER) với đầu vào là văn bản thu được từ các hệ thống Vais VASP, Viettel VASP, Zalo VASP, Fpt VASP và Google VASP. Ở đây, chúng tôi sử dụng tập tin âm thanh là các bản tin và API từ các hệ thống Vais VASP, Viettel VASP, Zalo VASP, Fpt VASP và Google VASP để đưa ra văn bản được nhận dạng tương ứng. Kết quả so sánh WER từ Vais, Viettel, Zalo, Fpt và Google cho thấy hệ thống nhận dạng tiếng nói tiếng Việt trong các bản tin từ Viettel, Zalo, Fpt và Google đều có kết quả tốt, trong đó Vais cho kết quả vượt trội hơn.
Tải xuống: 0
Tài liệu tham khảo
V. Këpuska and G. Bohouta, Comparing speech recognition systems (Microsoft API, Google API and CMU Sphinx), Int. J. Eng. Res. Appl, 7(03), pp. 20-24. 2017. DOI: https://doi.org/10.9790/9622-0703022024
F. Filippidou and L. Moussiades, Α Benchmarking of IBM, Google and Wit Automatic Speech Recognition Systems, IFIP International Conference on Artificial Intelligence Applications and Innovations, pp. 73-82, 2020. DOI: https://doi.org/10.1007/978-3-030-49161-1_7
L.C. Mai and D.Q. Truong, Report on the Speech-to-Text Shared Task in VLSP Campaign 2019, Vietnamese Language Signal Processing, 2019. (https://vlsp.org.vn/sites/default/files/2019-10/VLSP2019-ASR-summary.pdf )
A. C. Morris, V. Maier and P. Green, From WER and RIL to MER and WIL: improved evaluation measures for connected speech recognition, Eighth International Conference on Spoken Language Processing, pp. 2786-2768, 2004. DOI: https://doi.org/10.21437/Interspeech.2004-668
Jitsi, JiWER: Similarity measures for automatic speech recognition evaluation. https://github.com/jitsi/jiwer
Giải vô địch quốc gia trở lại với những trận đấu đầy sôi động – VTV24 https://youtu.be/N2FfBEWO84A
Ngôi làng của những đầu sư tử thổi nữa – VTV24 https://youtu.be/YZc5TiXi_DE
Thiệt hại ban đầu do bão số 5 tại Huế - VTV Go https://youtu.be/kqnmPdwk62A
Phản ứng của Quốc tế trước thông tin Tổng thống Mỹ mắc covid-19 – HTV tin tức https://youtu.be/k6OTsmpKtbc
Ông Trump mắc covid-19-Chiến dịch tranh cử Tổng thống Mỹ có thể vỡ trận – VTC Now https://youtu.be/QehJIcATgH8
Tải xuống
Đã Xuất bản
Cách trích dẫn
Giấy phép
Tác phẩm này được cấp phép theo Giấy phép quốc tế Creative Commons Attribution-NonCommercial 4.0 .
Bản quyền thuộc về JTE.


