Tại sao hầu hết các đội nhóm AI bị mắc kẹt và khó phát triển hơn được nữa?

Vài năm trước, tôi đã tham gia vào một dự án AI tạo sinh – một trợ lý AI dành cho khách hàng. Công ty sở hữu một lượng dữ liệu tuyệt vời và tin rằng AI có thể biến nó thành thứ gì đó có giá trị.

Chúng tôi nhanh chóng xây dựng một nguyên mẫu. Người dùng rất hào hứng.

Quá trình cải tiến diễn ra nhanh chóng. Mỗi lần điều chỉnh khiến AI trở nên tốt hơn.

Rồi chúng tôi đụng phải một bức tường.

Chúng tôi tiếp tục thay đổi mọi thứ, nhưng… AI có thực sự tốt hơn không? Hay chỉ đơn giản là khác đi?

Chúng tôi không biết.

Khi "cải thiện" chỉ là những thay đổi ngẫu nhiên

Ban đầu, việc cải thiện AI dường như rất rõ ràng. Chúng tôi phát hiện vấn đề, sửa chúng, và thấy tiến bộ thực sự. Nhưng rồi đột nhiên, mọi thứ chững lại.

Một số thay đổi giúp AI tốt hơn, nhưng chúng tôi không biết tại sao.
Một số thay đổi làm AI tệ đi, nhưng chúng tôi không thể giải thích được.
Đôi khi, AI chỉ đơn giản là khác đi, chứ không hẳn là tốt hơn.

Phải mất một khoảng thời gian dài tôi mới nhận ra: Chúng tôi không thực sự cải thiện AI. Chúng tôi chỉ đang đoán mò.

Chúng tôi tinh chỉnh prompt, điều chỉnh tham số truy xuất, fine-tune mô hình… nhưng chẳng có gì được đo lường. Chúng tôi chỉ kiểm tra một số ví dụ được chọn lọc và tự thuyết phục bản thân rằng AI đang trở nên tốt hơn.

Và đó chính là cách mà hầu hết các đội ngũ AI bị mắc kẹt.

Tốt hơn trên một vài ví dụ không có nghĩa là tốt hơn

Khi làm việc sát với một dự án, thật dễ để nghĩ rằng bạn có thể nhận ra sự cải thiện. Bạn chạy một vài thử nghiệm. Đầu ra trông có vẻ tốt hơn. Vậy là bạn cho rằng mình đã tiến bộ.

Nhưng:

Nó có thực sự tốt hơn trên toàn hệ thống không?
Nó có vô tình phá hỏng những thứ đã hoạt động tốt trước đó không?
Bạn có đang cải thiện đúng thứ mà người dùng quan tâm không, hay chỉ là những gì bạn nhìn thấy?

Hầu hết các đội ngũ nghĩ rằng họ đang cải tiến. Nhưng thực tế, họ chỉ đang đi theo những hướng ngẫu nhiên.

Không đo lường khi cải tiến? Chắc chắn thất bại!

Và đó chính là vấn đề cốt lõi.

Hầu hết các đội ngũ, khi gặp bức tường này, đều làm điều mà chúng tôi đã làm: Thử thêm nhiều thứ hơn.

Chỉnh sửa prompt nhiều hơn.
Điều chỉnh mô hình nhiều hơn.
Fine-tune truy xuất nhiều hơn.

Nhưng cải tiến thực sự không chỉ là tạo ra thay đổi. Nó là việc biết rõ, ở từng bước, liệu những thay đổi đó có thực sự hiệu quả hay không.

Nếu không, bạn chỉ đang tối ưu hóa trong bóng tối.

Giải pháp là gì?

Những đội ngũ vượt qua được vấn đề này không chỉ xây dựng mô hình AI tốt hơn, mà họ còn xây dựng những cách đo lường chính xác xem "tốt hơn" thực sự có nghĩa là gì.

Thay vì dựa vào cảm giác, họ:

Xác định rõ tiêu chí thành công – điều gì thực sự khiến một câu trả lời hữu ích?
Đo lường các thay đổi một cách hệ thống – không chỉ trên một vài ví dụ chọn lọc.
Đảm bảo rằng các cải tiến không làm hỏng những gì đã hoạt động tốt.

Kết luận

Hầu hết các đội ngũ AI không gặp khó khăn trong việc xây dựng AI. Họ gặp khó khăn trong việc cải tiến nó.

Tôi đã học được bài học này theo cách khó khăn. Nhưng khi tôi bắt đầu coi quá trình cải tiến như một vòng lặp phản hồi rõ ràng thay vì chỉ dựa vào cảm giác, mọi thứ đã thay đổi.

Hy vọng các bạn cũng đồng tình với tôi qua bài viết này!

Khi "cải thiện" chỉ là những thay đổi ngẫu nhiên

Tốt hơn trên một vài ví dụ không có nghĩa là tốt hơn

Không đo lường khi cải tiến? Chắc chắn thất bại!

Giải pháp là gì?

Kết luận

Mục lục