Phát hiện nội dung tạo bởi AI bằng AI hay bằng con người?

LLM thay đổi cuộc chơi

Như chúng ta đã biết, từ khi ChatGPT và các mô hình ngôn ngữ lớn (Large Language Model – LLM) xuất hiện và thay đổi toàn bộ thế giới công nghệ trong đó có … các bạn sinh viên thì mô hình đánh giá bằng viết luận (Assignment, Coursework) đã ngay lập tức trở nên lỗi thời. Việc sinh viên sử dụng ChatGPT nói riêng và các LLM khác nói chung khi viết luận đã trở nên quá phổ biến chỉ trong một thời gian ngắn. Trước đây khi giáo viên của trường ta chấm bài, đọc các đoạn văn có thể còn nhiều lỗi chính tả hoặc ý tứ trúc trắc (do Google dịch) thì nay các câu văn trôi trảy mượt mà, từ ngữ hoành tráng nhiều khi các thầy cô còn phải tra từ điển xem là gì 😀

Thực tế thì không chỉ sinh viên sử dụng LLM để viết luận, tất cả các lĩnh vực liên quan tới viết lách đều có dấu ấn rõ rệt của các mô hình AI này: các nhà sáng tạo nội dung dùng để viết blog, các nhà quảng cáo dùng để viết quảng cáo, thầy cô giáo dùng để soạn bài, các nhà nghiên cứu dùng để viết bài.

AI phát hiện AI …

(Tiêu đề này bạn đọc có thể đọc là Ây ai phát hiện ây ai hay ai phát hiện ây ai đều đúng!)

Do sự thay đổi quá nhanh chóng, về mặt liêm chính khoa học chưa có một quy định thống nhất trong việc sử dụng LLM trong học thuật. Các công cụ phát hiện nội dung viết bằng AI nhanh chóng xuất hiện để giải quyết vấn đề này. Các công cụ AI detector này cũng dùng chính … AI trong việc huấn luyện. Nôm na là lấy mỡ nó rán nó. Tuy thế, độ chính xác của chúng, mặc dù được quảng cáo khá rầm rộ lại không đáng tin lắm. Nhiều thử nghiệm cho thấy các nội dung viết bằng AI vẫn qua mặt được các công cụ này hay ngược lại, nhiều nội dung do con người viết 100% thì lại bị đánh giá là … 98% AI viết. Có thể là AI không muốn bị con người nhận diện nhằm che giấu một âm mưu gì to lớn như trong các phim khoa học viễn tưởng chăng?

Nếu AI không làm được thì để … con người làm. Khared Khan mới đây đã công bố một phát hiện khá thú vị trên trang Medium về việc tần suất các từ tiếng Anh hay xuất hiện trong các nội dung tạo ra bởi AI. Theo tác giả, các từ bôi đỏ trong đoạn văn sau thường xuyên xuất hiện trong các nội dung AI tạo ra.

Để chứng minh, tác giả đã bỏ công cào (crawl) dữ liệu trên mạng từ các nguồn như blog, tin tức, bài báo, v.v từ năm 2010 trở lại và đếm tần suất suất hiện của từ delve. Ảnh dưới cho thấy sự gia tăng đột biến của từ này kể từ năm 2022, trùng hợp với thời điểm ChatGPT ra đời. Không hẳn là “trùng hợp”, đúng không?

Trong lĩnh vực viết báo khoa học, tốc độ tăng của từ delve còn kinh khủng hơn. Các nhà khoa học hiển nhiên là những người nắm bắt công nghệ mới rất nhanh chóng. Ảnh dưới thể hiện tuần suất của từ delve thậm chí chỉ trong phần abstract của các bài báo xuất bản trên cơ sở dữ liệu arXiv.

Một số từ “hàn lâm” khác cũng được ChatGPT hay các LLM khác thích dùng:

Theo tác giả bỏ công thống kê, có khoảng 100 từ như thế. Điều này có nghĩa là chẳng cần đến AI, chỉ bằng mắt thường, khi đọc nội dung mà có những từ này xuất hiện, khả năng rất lớn là do AI trợ giúp viết ra!

Mọi người có thể truy cập các từ đó ở đây: [Danh sách 100 từ AI hay dùng] Tác giả cũng viết một công cụ phát hiện AI ở đây: https://ai-text-detect-easy.streamlit.app/, mọi người có thể thử để so sánh với các công cụ phát hiện AI khác. Điều khác biệt duy nhất là các công cụ AI detector khác sử dụng AI còn công cụ này đơn giản chỉ tìm trong danh sách 100 từ kia.

… và hành động của chúng ta

Các thầy cô giáo, khi các thầy cô đọc đến cuối bài, các thầy cô biết phải làm gì khi nghi ngờ bài viết của sinh viên là do AI trợ giúp rồi đúng không? Tuy thế, các em sinh viên cũng không nên quá lo lắng, chỉ với một lệnh nhỏ thêm vào trong prompt là hoàn toàn có thể qua mặt được công cụ này. Tất nhiên tôi không nói cho các bạn lệnh đó là gì. Nếu các bạn tự tìm hiểu và sử dụng được, thì bạn đã thành thạo một kỹ năng cũng rất cần thiết trong thời đại người người sử dụng AI, nhà nhà sử dụng AI này. Đó là prompt engineering! Hẹn gặp lại các bạn trong một bài khác về chủ đề này.

PS: Bài viết này HOÀN TOÀN không sử dụng AI để viết 😀

Tham khảo

Bài viết có sử dụng thông tin và hỉnh ảnh từ bài của tác giả Khared Khan đăng trên Medium: https://levelup.gitconnected.com/detect-ai-text-by-just-looking-at-it-24604008027c

Comments: 96

3 thoughts on “Phát hiện nội dung tạo bởi AI bằng AI hay bằng con người?

Để lại một bình luận