Đánh giá các hệ thống nhận dạng giọng nói tiếng việt (vais, viettel, zalo, fpt và google) trong bản tin

Các tác giả

  • Nguyễn Thị Mỹ Thanh Trường Đại Học Quốc Tế Miền Đông, Việt Nam
  • Phan Xuân Dũng Trường Đại Học Quốc Tế Miền Đông, Việt Nam
  • Nguyễn Ngọc Hay Trường Đại Học Quốc Tế Miền Đông, Việt Nam
  • Lê Ngọc Bích Trường Đại Học Quốc Tế Miền Đông, Việt Nam
  • Đào Xuân Quy Trường Đại Học Quốc Tế Miền Đông, Việt Nam

Email tác giả liên hệ:

quy.dao@eiu.edu.vn

DOI:

https://doi.org/10.54644/jte.63.2021.46

Từ khóa:

Xử lý ngôn ngữ tự nhiên, Nhận dạng tiếng nói, WER, tin tức, Api

Tóm tắt

Bài báo này giới thiệu kết quả đánh giá các hệ thống nhận dạng giọng nói tiếng Việt (VASP-Vietnamese Automatic Speech Recognition) trong bản tin từ các công ty hàng đầu của Việt Nam như Vais (Vietnam AI System), Viettel, Zalo, Fpt và công ty hàng đầu thế giới Google. Để đánh giá các hệ thống nhận dạng giọng nói, chúng tôi sử dụng hệ số Word Error Rate (WER) với đầu vào là văn bản thu được từ các hệ thống Vais VASP, Viettel VASP, Zalo VASP, Fpt VASP và Google VASP. Ở đây, chúng tôi sử dụng tập tin âm thanh là các bản tin và API từ các hệ thống Vais VASP, Viettel VASP, Zalo VASP, Fpt VASP và Google VASP để đưa ra văn bản được nhận dạng tương ứng. Kết quả so sánh WER từ Vais, Viettel, Zalo, Fpt và Google cho thấy hệ thống nhận dạng tiếng nói tiếng Việt trong các bản tin từ Viettel, Zalo, Fpt và Google đều có kết quả tốt, trong đó Vais cho kết quả vượt trội hơn.

Tải xuống: 0

Dữ liệu tải xuống chưa có sẵn.

Tài liệu tham khảo

V. Këpuska and G. Bohouta, Comparing speech recognition systems (Microsoft API, Google API and CMU Sphinx), Int. J. Eng. Res. Appl, 7(03), pp. 20-24. 2017. DOI: https://doi.org/10.9790/9622-0703022024

F. Filippidou and L. Moussiades, Α Benchmarking of IBM, Google and Wit Automatic Speech Recognition Systems, IFIP International Conference on Artificial Intelligence Applications and Innovations, pp. 73-82, 2020. DOI: https://doi.org/10.1007/978-3-030-49161-1_7

L.C. Mai and D.Q. Truong, Report on the Speech-to-Text Shared Task in VLSP Campaign 2019, Vietnamese Language Signal Processing, 2019. (https://vlsp.org.vn/sites/default/files/2019-10/VLSP2019-ASR-summary.pdf )

A. C. Morris, V. Maier and P. Green, From WER and RIL to MER and WIL: improved evaluation measures for connected speech recognition, Eighth International Conference on Spoken Language Processing, pp. 2786-2768, 2004. DOI: https://doi.org/10.21437/Interspeech.2004-668

Jitsi, JiWER: Similarity measures for automatic speech recognition evaluation. https://github.com/jitsi/jiwer

Giải vô địch quốc gia trở lại với những trận đấu đầy sôi động – VTV24 https://youtu.be/N2FfBEWO84A

Ngôi làng của những đầu sư tử thổi nữa – VTV24 https://youtu.be/YZc5TiXi_DE

Thiệt hại ban đầu do bão số 5 tại Huế - VTV Go https://youtu.be/kqnmPdwk62A

Phản ứng của Quốc tế trước thông tin Tổng thống Mỹ mắc covid-19 – HTV tin tức https://youtu.be/k6OTsmpKtbc

Ông Trump mắc covid-19-Chiến dịch tranh cử Tổng thống Mỹ có thể vỡ trận – VTC Now https://youtu.be/QehJIcATgH8

Tải xuống

Đã Xuất bản

2021-04-29

Cách trích dẫn

[1]
Nguyễn Thị Mỹ Thanh, Phan Xuân Dũng, Nguyễn Ngọc Hay, Lê Ngọc Bích, và Đào Xuân Quy, “Đánh giá các hệ thống nhận dạng giọng nói tiếng việt (vais, viettel, zalo, fpt và google) trong bản tin”, JTE, vol 16, số p.h 2, tr 28–36, tháng 4 2021.

Số

Chuyên mục

Bài báo khoa học

Categories

Các bài báo được đọc nhiều nhất của cùng tác giả