Mục lục
Speech-to-Text và ứng dụng trong doanh nghiệp
Cách đây 2 năm, tôi có cơ hội trao đổi với một PM ở một công ty fintech Việt Nam về việc tích hợp tính năng nghe lệnh để phục vụ khách hàng gọi vào. Anh ta nói: "Sử dụng bàn phím quá tốn thời gian, khách hàng muốn nói tiếng Việt thôi." Nghe có vẻ đơn giản, nhưng điều anh ta đang nói lại là một trong những vấn đề khó nhất trong công nghệ hiện tại - speech-to-text (STT) tiếng Việt có độ chính xác cao trong môi trường ồn ào, với lối nói nhanh và những từ ngành chuyên môn mà máy không từng nghe qua.
Tại sao doanh nghiệp vẫn chần chừ với STT?
Câu trả lời không phải vì công nghệ không tồn tại. Google Cloud Speech-to-Text, Azure Speech Services, hay Amazon Transcribe đều đạt độ chính xác trên 95% với tiếng Anh trong studio. Nhưng với tiếng Việt? Con số đó thường xoay quanh 85-90%, và khi nhân viên gọi từ một call center với tiếng gọi nhau xung quanh, độ chính xác rơi xuống 75-80%.
Cái mà ít ai nói là: những thứ giữ lại các doanh nghiệp Việt không phải là vấn đề kỹ thuật, mà là vấn đề chi phí hoạt động. Google tính phí 0,024 USD per 15 giây audio cho STT tiếng Việt. Nếu một công ty call center xử lý 10,000 cuộc gọi mỗi ngày, trung bình 4 phút mỗi cuộc - đó là 40,000 phút/ngày, tương đương 2.4 triệu phút/tháng. Với Azure Speech Services ở mức 1 USD per giờ, tổng chi phí sẽ là khoảng 40,000 USD/tháng chỉ để convert audio.
Thêm vào đó là vấn đề accuracy in real-time. Một cuộc gọi khách hàng bảo: "Tôi muốn transfer tiền 5 triệu vào tài khoản 1234567890," nhưng STT nghe thành "Tôi muốn transfer tiền tư triệu" hoặc nhận nhầm số tài khoản. Nếu chỉ dựa 100% vào STT mà không có xác thực thêm, rủi ro là cực kỳ cao.
Insight mà kinh nghiệm thực tế dạy tôi
Công nghệ STT hiện nay hoạt động rất tốt khi bạn đã biết rõ ràng những gì bạn đang nghe. Nếu bạn xây dựng mô hình với từ vựng hạn chế - ví dụ chỉ 100 lệnh như "chuyển tiền", "kiểm tra số dư", "thanh toán hóa đơn" - độ chính xác sẽ lên tới 97-98%. Nhưng khi cho phép người dùng nói bất cứ điều gì, hoặc khi cần xử lý dữ liệu tài chính với những con số chính xác, STT lại trở thành một công cụ hỗ trợ chứ không phải giải pháp chính.
Những công ty thực sự thành công với STT thường sử dụng nó theo cách : - STT chuyển đổi audio thành text - NLU (Natural Language Understanding) xác định ý định - Một lớp xác thực thứ hai (verification layer) kiểm tra những thông tin tài chính - Con người vẫn có quyền can thiệp nếu cần
Chia sẻ bài viết


