Google xây dựng mô hình AI dịch thuật có thể xử lý tới 1.000 ngôn ngữ

Nguồn: Shutterstock

* TikTok nỗ lực xoa dịu lo ngại về bảo mật dữ liệu người dùng châu Âu

Hệ thống mà Google đang nghiên cứu phát triển hiện đã có thể dịch được 100 ngôn ngữ khác nhau. Nhưng đây mới chỉ là bước đi đầu tiên.

ChatGPT có thể đang là chủ đề nóng nhất vào lúc này. Nhưng thay vì chạy theo xu thế thời thượng mà ChatGPT tạo ra, Google đã thực hiện việc đa dạng hóa hoạt động đầu tư vào nhiều mô hình AI khác nhau.

Đặc biệt, một trong những dự án mà công ty đang triển khai nhắm tới mục tiêu tạo ra một mô hình AI dịch thuật, với khả năng hỗ trợ hơn 1.000 ngôn ngữ khác nhau.

Theo bản cập nhật mới nhất mà Google công bố, công ty đã có những bước đi quan trọng đầu tiên. Hiện nay, mô hình đã hỗ trợ hơn 100 ngôn ngữ khác nhau, dù rằng nó mới chỉ là 10% con số mà Google dự tính.

Google đã công bố kế hoạch tạo ra mô hình AI ngôn ngữ, được đặt tên là “Mô hình Giọng nói Toàn diện” (USM) vào tháng 11.

USM được đánh giá là một hệ thống các mô hình giọng nói hiện đại" với 2 tỉ thông số, và được đào tạo trên các ghi âm giọng nói kéo dài tới 12 triệu giờ, cùng 28 tỉ câu văn bản thuộc hơn 300 ngôn ngữ khác nhau.

Các chức năng của mô hình bao gồm tự động nhận diện giọng nói, đặc biệt là với những ngôn ngữ hiếm, không có nhiều nguồn dữ liệu để sử dụng như tiếng Anh hay tiếng Trung.

Mô hình ngôn ngữ này hiện đã được được sử dụng trên mạng xã hội chia sẻ video YouTube để tạo phụ đề cho các video. Tuy nhiên mới chỉ có 73 trong số 100 ngôn ngữ của USM được hỗ trợ hiển thị trên YouTube.

Google hiện không phải là công ty duy nhất trong lĩnh vực dịch thuật dựa trên AI, nhưng triển vọng áp dụng công nghệ máy học vào dịch thuật là một hướng đi thú vị.

Hiện chưa rõ Google dự định sẽ làm điều gì với USM, nhưng khả năng ứng dụng của nó là vô tận. Mô hình này càng có giá trị nếu nó có thể ghi nhận và dịch các câu nói theo thời gian thực, với kết quả dịch có thể hiển thị dưới dạng ký tự hoặc lời nói do AI tổng hợp. Và giá trị của USM sẽ chỉ càng tăng thêm nếu nó có khả năng dịch các văn bản nhanh hơn, hiệu quả hơn.

Một kịch bản hay ho có thể tính tới là chúng ta có những chiếc kính thực tế ảo tăng cường, với khả năng tự động nhận diện rồi dịch các ngôn ngữ khác nhau về ngôn ngữ mẹ đẻ mà không cần chờ ra lệnh.

Sẽ còn hay hơn nữa nếu AI tự nhận diện những thứ gì nó không nên dịch ra. Ví dụ như nó tự lọc các cuộc trò chuyện của những người ở xung quanh và không bơm vào tai chúng ta đủ loại câu chuyện khác nhau.

Tuy nhiên vẫn còn một chặng đường dài trước khi USM đạt được mục tiêu ban đầu là bao gồm tới 1.000 ngôn ngữ. 100 ngôn ngữ là một khởi đầu tuyệt vời, nhưng vẫn còn nhiều ngôn ngữ hơn thế đang tồn tại trên thế giới. Vì thế, chúng ta sẽ phải chờ xem điều gì sẽ xảy ra tiếp theo.

Sự kiện Google I/O (một hội nghị thường niên của Google) sắp sửa diễn ra. Với những tin đồn về việc Google đang phát triển khoảng 20 sản phẩm AI, chúng ta có thể sẽ được nghe về chúng cũng như USM trong các bài phát biểu chính tại sự kiện.

* Nền tảng truyền thông xã hội TikTok thuộc sở hữu công ty ByteDance của Trung Quốc ngày 8/3 đã công bố gói biện pháp mới với tên gọi "Project Clover", nhằm tăng cường bảo vệ dữ liệu người dùng ở châu Âu.

Theo kế hoạch, Project Clover sẽ được thực hiện trong các năm 2023 và 2024. Các biện pháp mới bao gồm tăng cường kiểm soát quyền truy cập dữ liệu người dùng, thông qua việc triển khai các cổng bảo mật xác định quyền truy cập đối với dữ liệu TikTok ở châu Âu và chuyển dữ liệu ra bên ngoài châu Âu.

TikTok cho hay toàn bộ quá trình trên sẽ do bên thứ ba - một công ty bảo mật của châu Âu - giám sát. Ngoài ra, TikTok cũng sẽ ứng dụng các công nghệ tiên tiến để đảm bảo quyền riêng tư của thông tin người dùng, như đặt mật danh cho mỗi dữ liệu cá nhân để các đối tượng tiếp cận trái phép khó có thể xác định mục tiêu nếu không có thông tin bổ sung.

Tại cuộc họp báo vào thứ tư, TikTok cũng cho biết họ sẽ bắt đầu lưu trữ dữ liệu người dùng châu Âu tại khu vực trong năm nay.

Việc chuyển dữ liệu sẽ kéo dài đến năm 2024. Hiện dữ liệu người dùng châu Âu của TikTok đang được lưu trữ tại Mỹ và Singapore.

Là một phần của động thái trên, công ty xác nhận sẽ sớm mở trung tâm dữ liệu thứ hai ở Ireland và một trung tâm khác ở vùng Hamar của Na Uy.

Các trung tâm dữ liệu này sẽ được vận hành bởi một bên thứ ba không được tiết lộ với tổng chi phí hàng năm dự kiến 1,2 tỉ euro (1,3 tỉ USD).

Công ty cho biết họ sẽ giảm việc truyền dữ liệu ra bên ngoài khu vực và giảm quyền truy cập của nhân viên vào dữ liệu người dùng trong nội bộ.

TikTok đã thực hiện một chiến lược tương tự ở Mỹ, có biệt danh là "Dự án Texas", nhằm xoa dịu các nhà lập pháp nơi đây. Động thái của TikTok được đưa ra khi Nghị viện châu Âu, Ủy ban châu Âu và Hội đồng châu Âu gần đây đã cấm nhân viên sử dụng TikTok trên điện thoại làm việc.

Các cơ quan này viện dẫn lo ngại ngày càng tăng về khả năng ứng dụng thuộc sở hữu của công ty ByteDance thu thập dữ liệu của người dùng và chuyển chúng cho phía Chính phủ Trung Quốc.

Trong khi đó, Nhà Trắng đã ủng hộ luật trao cho chính quyền quyền hạn mới để cấm ứng dụng TikTok cùng các công nghệ nước ngoài khác nếu chúng gây ra các mối đe dọa an ninh quốc gia.

T.LÊ (tổng hợp từ Vietnam+)

Nguồn Phú Yên: http://baophuyen.vn/92/296183/google-xay-dung-mo-hinh-ai-dich-thuat-co-the-xu-ly-toi-1-000-ngon-ngu.html