Mục lục
Xây dựng mô hình AI từ dữ liệu doanh nghiệp
Tuần trước tôi nghe một CEO công ty logistics nói: "Chúng tôi có 5 năm dữ liệu nhưng AI không làm được gì với nó". Câu nói đó cứ ám ảnh tôi vì nó chính xác đến mức đáng sợ. Vấn đề không nằm ở AI, mà nằm ở con đường từ dữ liệu thô tới dữ liệu dùng được. Mọi người nhìn thấy một cục dữ liệu khổng lồ và tưởng là vàng, nhưng thực ra đó là một đống bùn chứa có vàng.
Bẩn bẩn bên trong
Dữ liệu doanh nghiệp không bao giờ sạch. Tôi nói không bao giờ, không phải là hiếm khi, mà là không bao giờ.
Một công ty bán lẻ ở TP.HCM từng gửi cho tôi dataset khách hàng: 2 triệu hàng. Nhìn sơ qua có vẻ OK. Nhưng khi bắt đầu kỳ cạn: - Tên khách hàng viết thường tổng, đôi chỗ lại viết hoa, có chỗ viết cả tiếng Anh lẫn tiếng Việt - Email bị trùng lặp 30% (máy chủ SMTP cũ bị lỗi nên copy được vài lần) - Địa chỉ của 15% khách hàng ghi vào trường "ghi chú" thay vì cột địa chỉ - Ngày sinh không có định dạng thống nhất: DD/MM/YYYY, DD-MM-YYYY, thậm chí viết chữ "mười hai tháng"
Lúc đó bạn mới hiểu: AI model tốt nhất cũng chỉ là garbage in, garbage out. Không có dữ liệu sạch, không có kết quả tốt. Đơn giản vậy.
Hành trình tẩy rửa dữ liệu - chán và cần thiết
Ở giai đoạn này, bạn sẽ dành 60-70% thời gian để làm công việc mà không ai yêu cầu và không ai biết ơn. Bạn viết script để loại bỏ duplicate, chuẩn hóa format ngày tháng, điền các giá trị bị thiếu, và kiểm tra outlier.
Các công cụ như Pandas (Python) và dbt (data transformation tool) sẽ là bạn đồng hành. dbt đặc biệt tuyệt vời vì nó cho phép bạn viết SQL với versioning, testing, và documentation - thứ mà spreadsheet không bao giờ làm được.
Một insight mà ít ai nói: dữ liệu xấu thường cây nguyên nhân từ quy trình kinh doanh xấu. Nếu anh sale nhập dữ liệu vào CRM một cách bừa bộ vì không ai kiểm tra, thì đó là vấn đề của hệ thống, không phải vấn đề của dữ liệu. Khi bạn sửa dữ liệu mà không sửa quy trình tạo ra nó, bạn sẽ lại thấy rác lần tới.
Tính năng không phải chỉ là con số
Chia sẻ bài viết


