Năm ngoái, tôi được làm việc với một công ty logistics ở Tp.HCM đang vật lộn với bài toán: mỗi ngày, họ phải kiểm tra hàng chục nghìn cái hộp để xác định tình trạng, tách loại, và phân bổ vào các tuyến vận chuyển phù hợp. Công việc được giao cho các công nhân, và sai sót là không thể tránh khỏi—cứ mỗi 1000 cái hộp, khoảng 3-5% bị phân loại sai. Thiệt hại tích lũy lên thành hàng trăm triệu đồng mỗi tháng.
Rồi họ triển khai một hệ thống computer vision đơn giản, chỉ sử dụng các model mã nguồn mở (YOLO) chạy trên hardware khá bình thường. Độ chính xác tăng lên 99.2% ngay từ tháng đầu. Con số khiêm tốn này, nhưng trong ngữ cảnh logistics, nó có nghĩa là tiền.
Đó là lúc tôi nhận ra rằng computer vision tại Việt Nam không phải là những dự án "futuristic" hay các startup khoa học tưởng tượng. Nó là những ứng dụng rất thực tế, rất gần gũi, và đang thay đổi cách các doanh nghiệp hoạt động hàng ngày.
Lý do mà CV nổ ra ở Việt Nam bây giờ
Năm 2015-2018, computer vision ở Việt Nam chủ yếu là sở thích của các nhà nghiên cứu trong các trường đại học. Model lớn chạy quá chậm, cần GPU đắt tiền, và những framework như TensorFlow còn chưa sẵn sàng cho production.
Nhưng mấy năm gần đây, ba thứ đã thay đổi cơ bản:
1Hardware rẻ đi – Raspberry Pi, NVIDIA Jetson, thậm chí các chip chuyên dụng từ các nhà sản xuất Trung Quốc. Một edge device giá dưới 10 triệu đồng giờ có thể chạy real-time inference.
1Model nhỏ gọn hơn – YOLO v8, MobileNet, các phiên bản lightweight của transformers. Tôi từng phải biên dịch C++ để deploy model, bây giờ có thể chỉ dùng Python và một vài lớp inference.
1
Chia sẻ bài viết
Bài viết liên quan
Bạn cần tư vấn về công nghệ?
Đội ngũ Idflow luôn sẵn sàng hỗ trợ bạn trong hành trình chuyển đổi số.
Dữ liệu và công cụ annotation rẻ hơn – Các dịch vụ như Roboflow, Labelimg, thậm chí crowdsourcing qua Upwork. Bây giờ, bạn có thể xây dựng dataset từ hình ảnh Việt Nam với chi phí hợp lý.
Những ứng dụng đang chạy thực tế
Kiểm soát chất lượng sản xuất – Một nhà máy sản xuất quần áo ở Hà Nội dùng CV để phát hiện lỗi may (khuyết tật), thay vì kiểm tra bằng mắt. Tốc độ tăng 3 lần, sai sót giảm đáng kể.
Nhận dạng biển số xe – Công nghệ này được sử dụng khá rộng rãi ở Việt Nam cho hệ thống thu phí tự động, quản lý gửi xe. Độ chính xác của các hệ thống này đã đạt 95%+ với điều kiện ánh sáng tốt.
Giám sát nông nghiệp – Các công ty startup công nghệ nông nghiệp ở Mekong Delta đang dùng drone + CV để phát hiện bệnh lúa, tính diện tích lúa bị hạn hán, dự báo năng suất. Có thể tiết kiệm được vài chục triệu chi phí cho một vụ mưa.
Nhân diện khuôn mặt – Ứng dụng này đã có tại các sân bay lớn (Nội Bài, Tân Sơn Nhất), các ngân hàng lớn, và một số cơ sở giáo dục. Độ chính xác cao, nhưng một số lo ngại về bảo mật dữ liệu vẫn còn.
Những điều ít ai nói ra
1. Dataset chính là bài toán thực sự – Mô hình CV tốt không nhất thiết phải phức tạp. Nhiều khi, bài toán lớn nhất là có đủ dữ liệu đúng loại. Nếu bạn định deploy một model cho ghi nhận hàng hóa trong kho ở Sài Gòn, nhưng bạn chỉ train trên dữ liệu từ kho ở Tokyo, kết quả sẽ buồn cười. Lighting, góc quay, chất lượng camera—tất cả đều khác.
2. Chi phí ngầm rất lớn – Mô hình chỉ là một phần nhỏ. Bạn phải tính chi phí cho annotation, deployment, maintenance, monitoring, retrain định kỳ. Một hệ thống CV trong sản xuất phải "học" thêm khi có thay đổi sản phẩm, thay đổi lighting, hay thay đổi camera.
3. Hiệu suất không phải là mục tiêu duy nhất – Một hệ thống đạt 99% chính xác nhưng chạy quá chậm (5 giây/frame) có thể không bao giờ được sử dụng trong thực tế. Tôi từng thấy những dự án "khoa học" tuyệt vời mà tốc độ inference chỉ vài fps, hoàn toàn không dùng được để thay thế lao động.
4. Sự kỳ vọng quá cao – Khi mọi người nghe "AI + computer vision", họ tưởng tượng một hệ thống có thể giải quyết mọi vấn đề. Thực tế, CV giỏi ở những task rất cụ thể. Dùng nó cho việc không phù hợp, bạn sẽ thất vọng.
Tinh thần CV tại Việt Nam
Những dự án CV tốt nhất tôi thấy không phải là những cái có kiến trúc phức tạp nhất, mà là những cái giải quyết đúng bài toán. Một công ty logistics dùng YOLO v5 có thể kiếm được nhiều tiền hơn một startup với ResNet-152 + Transformer architecture nhưng chưa biết bán cho ai.
Xu hướng ở Việt Nam là practical, efficient, và focused. Chúng ta không có budget để burn tiền vào research, vì thế các team ở đây phải giỏi ở việc chọn tool đúng và implement nó tốt.
---
Nếu bạn đang xem xét triển khai CV cho một bài toán cụ thể, hãy bắt đầu bằng việc làm rõ: bạn cần giải quyết cái gì, bạn có dữ liệu gì, và bạn có bao nhiêu resource. Rồi mới chọn công cụ, không phải ngược lại. Ở Idflow Technology, chúng tôi thường bắt đầu với những câu hỏi này trước khi bất cứ dòng code nào được viết.