Tranh nhau khai thác dữ liệu

Để huấn luyện các mô hình trí tuệ nhân tạo (AI) tạo sinh, các hãng công nghệ phải khai thác mọi cơ sở dữ liệu, hút mọi tài nguyên từ Internet, sách, báo, thậm chí ghi âm các video do người dùng tải lên YouTube. Trong quá trình này nhiều nơi bất kể nguyên tắc, chính sách bản quyền… chỉ chăm chăm làm sao có 'thức ăn' cho các mô hình AI đói kiến thức.

Theo tờ New York Times, khi OpenAI nhận ra họ đã xài hết mọi nguồn văn bản tiếng Anh trên Internet để huấn luyện cho hệ thống AI mới nhất của họ, hãng công nghệ này bèn tạo ra một phần mềm nhận dạng giọng nói, chuyển âm thanh từ các video trên YouTube thành văn bản, gọi là Whisper. Dù trong nội bộ OpenAI có tiếng nói cho rằng làm như thế sẽ vi phạm chính sách của YouTube, đội ngũ OpenAI cuối cùng cũng chuyển thành văn bản hơn một triệu giờ video của YouTube rồi dùng các văn bản này dạy cho GPT-4, mô hình AI biết đối đáp khôn ngoan đưa tên tuổi OpenAI lan khắp thế giới.

Còn ở Meta, công ty sở hữu mạng Facebook và Instagram, giới lãnh đạo bàn khả năng mua lại nhà xuất bản Simon & Schuster để có quyền sử dụng các văn bản dài, các tác phẩm văn học, đủ loại sách… nhằm huấn luyện hệ thống AI của riêng họ. Simon & Schuster là một trong những nhà xuất bản lớn nhất thế giới. Tháng 3-2020, công ty mẹ của nhà xuất bản này là Paramount Global công bố ý định bán Simon & Schuster và cuối cùng đã bán nó cho hãng KKR vào tháng 8-2023 sau khi sáp nhập thất bại với nhà xuất bản Penguine Random House. Thông tin nội bộ do tờ New York Times tiết lộ cho thấy, Meta cũng bàn chuyện thu gom văn bản có bản quyền bất kể khả năng bị kiện vì thương lượng mua bản quyền từ từng nguồn rất mất thời gian.

Dĩ nhiên, Google là chủ của YouTube từng ghi âm, chuyển thành văn bản các video trên nền tảng này để huấn luyện AI. Việc này cũng vi phạm chính sách bản quyền do chính YouTube đề ra, vì quyền quyết định thuộc về người sáng tạo ra các video này. Năm ngoái Google cũng sửa đổi điều khoản dịch vụ nhằm giúp Google chính thức khai thác các văn bản công khai trên Google Docs, các bài nhận xét quán ăn, dịch vụ… trên Google Maps và các nguồn dữ liệu trực tuyến khác. Tất cả đều nhằm tìm nguồn “dưỡng chất” cho các hệ thống AI luôn “đói khát”.

Hiện nay các nguồn thông tin trực tuyến – như bài báo, bản tin, tác phẩm hư cấu, tác phẩm phi hư cấu, các mẩu truyện ngắn trên mạng xã hội, bài viết trên Wikipedia, hình ảnh đủ loại, các podcast, video, đoạn phim ngắn… đã trở thành nguồn nuôi sống các hệ thống AI tạo sinh, giúp chúng liên tục đẻ ra văn bản, hình ảnh, âm thanh, kể cả video bắt chước con người.

Theo OpenAI, mô hình GPT-3 của họ gồm hàng trăm tỉ “token”, tức từ hay nhóm từ phân bổ như sau: 410 tỉ token là văn bản lấy từ các trang web thu gom từ năm 2007 đến nay; 3 tỉ token từ Wikipedia; 67 tỉ token được xem là lấy từ hàng triệu cuốn sách từng được xuất bản; 19 tỉ token lấy từ mạng Reddit gồm những mẩu được ít nhất 3 phiếu bầu của người dùng. OpenAI không công khai cách huấn luyện các mô hình sau đó như GPT-4, được dự đoán bao gồm hơn 3.000 tỉ token.

Nhiều phân tích cho rằng các hãng công nghệ đang xây dựng AI có thể xài hết nguồn dữ liệu huấn luyện vào năm 2026 bởi họ đang sử dụng dữ liệu nhiều hơn mức được tạo ra. Họ đang đói dữ liệu đến mức đang phải xài dữ liệu “tổng hợp”, tức dữ liệu không phải do con người tạo ra mà là văn bản, hình ảnh, mã máy tính do chính AI tạo ra trong quá trình hoạt động. Nói cách khác, các hãng công nghệ phải dùng chính những gì AI của họ sản sinh ra để huấn luyện tiếp cho chính các AI đó.

Với hiện tượng bị ảo giác, các hệ thống AI thỉnh thoảng lại bịa chuyện và trả lời sai. Từ đó các dữ liệu “tổng hợp” luôn mang trong mình khả năng chứa thông tin sai sót. Huấn luyện AI bằng dữ liệu tổng hợp có tiềm năng phóng to các sai sót cũ thành sai sót mới.

Với các bên sáng tạo nội dung như các nhà văn, nhà báo đã phát sinh nhiều vụ kiện vi phạm bản quyền, như vụ tờ New York Times kiện OpenAI và Microsoft đã tùy tiện sử dụng các bài báo của họ để huấn luyện AI mà không xin phép. OpenAI và Microsoft biện bạch sử dụng như thế nằm trong phạm vi “sử dụng hợp lý – fair use”, được luật bản quyền cho phép khi biến chuyển tác phẩm cho một mục đích khác.

Ngoài ra, hơn 10.000 ý kiến từ công luận đã được gửi về Văn phòng Bản quyền Mỹ, bày tỏ quan điểm của họ về việc công ty công nghệ sử dụng văn bản có bản quyền để huấn luyện AI. Nhiều người cho rằng đây là một sự “ăn cắp” trắng trợn, cần chấm dứt.

Nguyễn Vũ

Nguồn Saigon Times: https://thesaigontimes.vn/tranh-nhau-khai-thac-du-lieu/