Tôi vừa thấy một thông báo trên Slack: "Ai đó vừa scan 500 hóa đơn bằng điện thoại nhưng quên chọn 'phát hiện văn bản tự động', nên giờ phải gõ tay từng số chứng thư từ ảnh". Đã năm cách đây, câu chuyện như này sẽ bình thường. Nhưng hôm nay? Đó là câu chuyện đáng buồn cười của ai đó chưa cập nhật công việc.
OCR – Optical Character Recognition – không còn là công nghệ tương lai. Nó là công cụ thực tế mà những ai làm việc với giấy tờ phải hiểu để không lỗi thời. Nhưng điều mà hầu hết mọi người không nhận ra là: OCR chỉ là cái nắm đầu của một quy trình xử lý tài liệu thông minh.
Tại sao OCR thôi chưa đủ?
Khi bạn scan một hóa đơn, OCR có thể nhìn thấy chữ "10.000 đồng" và chuyển thành text. Nghe hay. Nhưng đó là điều máy ngu nhất có thể làm.
Vấn đề thực sự:
Ảnh bị lật, mờ, hoặc chụp từ góc kỳ lạ → OCR sẽ "nhìn thấy" nhưng sai. Một số 5 bị xoay có thể trở thành 2.
Hóa đơn có bố cục khác nhau → OCR chỉ trích xuất text, không hiểu số tiền ở đâu, ngày ở đâu, tên công ty ở đâu.
Hàng dùng tay viết trộn lẫn in ấn → OCR sẽ có độ chính xác khoảng 70-80%, và 20% sai lầm đó sẽ phá hủy cả bộ dữ liệu của bạn.
Điều này là lý do tại sao hầu hết các công ty ngân hàng, bảo hiểm ở Việt Nam vẫn phải thuê nhân viên kiểm duyệt. Không phải vì OCR không tồn tại – mà vì họ cần xử lý tài liệu thông minh, chứ không phải chỉ "nhìn thấy chữ".
Xử lý tài liệu thông minh là gì, thực ra?
Nếu OCR là "đọc chữ", thì xử lý tài liệu thông minh là "hiểu ý nghĩa của tài liệu". Nó bao gồm:
Chia sẻ bài viết
Bài viết liên quan
Bạn cần tư vấn về công nghệ?
Đội ngũ Idflow luôn sẵn sàng hỗ trợ bạn trong hành trình chuyển đổi số.
1. Phân loại tự động
Nhận một stack tài liệu hỗn hợp (hóa đơn, bảng lương, hợp đồng, chứng chỉ) và hệ thống tự động biết đó là loại nào – không cần con người điểm từng cái.
2. Trích xuất dữ liệu có cấu trúc
Không chỉ đọc chữ, mà hiểu: "Trường này là ngày tháng", "Trường này là số tiền", "Trường này là chữ ký" → đưa vào database đúng định dạng.
3. Xác thực tính hợp lệ
Kiểm tra: Tổng cộng có bằng tổng các hạng mục? Ngày lập có logic (không phải ngày 31 tháng 2)? Con số có nằm trong range hợp lý?
4. Matching và reconciliation
Ghép một hóa đơn với một phiếu nhập kho, với một dòng trong sổ chi – tất cả tự động.
Những công ty như VNPay, Grab, Teko ở Việt Nam đã áp dụng điều này để tự động hóa thanh toán B2B. Thay vì người lấy ảnh hóa đơn → gõ tay → kiểm tra → xác nhận, giờ chỉ cần: ảnh → máy xử lý → duyệt 1-2 trường nghi ngờ → xong.
Những điều mà không ai nói
Vấn đề lớn nhất không phải là OCR không chính xác, mà là dữ liệu đầu vào lộn xộn.
Một hóa đơn từ năm 2015 có định dạng hoàn toàn khác với năm 2024. Một nhà cung cấp sử dụng chứng chỉ số, nhà cung cấp khác dùng chứng chỉ cũ. Một số tài liệu được scan bằng iPhone 12, số khác bằng máy scan 10 năm tuổi. Bạn có thể tối ưu OCR tới 99% chính xác, nhưng nếu bố cục tài liệu thay đổi, bạn lại phải viết lại quy tắc trích xuất.
Chính vì thế, IDP (Intelligent Document Processing) – một bước tiến hơn – sử dụng machine learning để tự học các biến thể mới. Bạn không cần lập trình lại, chỉ cần feed dữ liệu mới, hệ thống tự thích ứng.
Thực tế chi phí
Nghe có vẻ như OCR là giải pháp rẻ tiền. Nhưng:
Tools OCR đơn giản (Tesseract, Textract) miễn phí, nhưng kết quả chỉ tốt với tài liệu sạch sẽ
Tools OCR cao cấp (Abbyy, Amazon Textract, Google Cloud Vision) tính phí theo API call – từ $0.001 đến $0.005 mỗi ảnh
Xử lý tài liệu thông minh với ML tính phí theo mô hình: setup một lần ($5-50K), sau đó tính phí mỗi lần xử lý ($0.01-$0.10 mỗi tài liệu)
Nếu bạn xử lý 10,000 tài liệu/tháng, công nghệ gì bạn chọn sẽ quyết định chi phí: từ $10/tháng đến $10,000/tháng. Và tất cả phụ thuộc vào độ phức tạp của loại tài liệu, không phải chỉ công nghệ.
Khi nào bạn cần gì?
Chỉ OCR thôi: Tài liệu có định dạng nhất quán, chất lượng tốt, bạn chỉ cần trích xuất text thuần túy
OCR + rule-based extraction: Hóa đơn, bảng lương – có bố cục chuẩn, cần trích xuất các trường cụ thể
IDP full-stack: Tài liệu hỗn hợp, định dạng không nhất quán, volume cao, cần tự động hóa toàn bộ quy trình
Ở Việt Nam, phần lớn doanh nghiệp còn đang ở giai đoạn "OCR + rule-based". Cơ hội lớn của IDP vẫn chưa khai thác hết.
---
Nếu bạn đang xây dựng quy trình xử lý tài liệu và cảm thấy lúc nào cũng phải điều chỉnh code cho từng loại tài liệu mới, có lẽ bạn cần nhìn lại kiến trúc – và Idflow là một trong những giải pháp có thể giúp bạn tiếp cận vấn đề này khác hơn.