Dữ Liệu Tiếng Trung Chiếm Hơn 60% trong Đào Tạo Mô Hình AI Trong Nước
Dữ liệu tiếng Trung đóng vai trò quan trọng trong việc nâng cao hiệu suất đào tạo các mô hình AI quy mô lớn trong nước. Số liệu do Cục Quản lý Dữ liệu Quốc gia công bố gần đây cho thấy, hiện nay tỷ lệ dữ liệu tiếng Trung được sử dụng trong đào tạo mô hình AI trong nước đã vượt quá 60%, một số mô hình thậm chí đạt 80%. Khả năng phát triển và cung cấp dữ liệu tiếng Trung chất lượng cao tiếp tục được tăng cường, thúc đẩy hiệu suất mô hình trí tuệ nhân tạo của Trung Quốc nâng cao nhanh chóng.
Ông Lưu Liệt Hồng, Cục trưởng Cục Quản lý Dữ liệu Quốc gia, cho biết sự phát triển nhanh chóng của trí tuệ nhân tạo tại Trung Quốc gắn liền với việc coi trọng công tác dữ liệu. Là một trong những yếu tố cốt lõi của phát triển trí tuệ nhân tạo, dữ liệu đóng vai trò then chốt trong thúc đẩy quá trình "AI+", việc xây dựng các bộ dữ liệu chất lượng cao là vô cùng quan trọng.
"Trong thời đại trí tuệ nhân tạo, Token, hay còn gọi là đơn vị từ vựng, là đơn vị dữ liệu nhỏ nhất để xử lý văn bản, giống như 'lưu lượng' trong thời đại internet," ông Lưu Liệt Hồng giải thích. Đầu năm 2024, mức tiêu thụ Token trung bình hàng ngày của Trung Quốc là 100 tỷ. Đến cuối tháng 6 năm nay, mức tiêu thụ Token hàng ngày đã vượt 30 nghìn tỷ, tăng hơn 300 lần trong một năm rưỡi, phản ánh sự tăng trưởng nhanh chóng về quy mô ứng dụng trí tuệ nhân tạo tại Trung Quốc.
Theo thông tin, tính đến cuối tháng 6 năm nay, Trung Quốc đã xây dựng hơn 35.000 bộ dữ liệu chất lượng cao với tổng dung lượng vượt 400 PB (1 PB có thể lưu trữ khoảng 500 triệu bức ảnh độ phân giải cao 2 MB). Tổng dung lượng 400 PB tương đương khoảng 140 lần tổng tài nguyên số của Thư viện Quốc gia Trung Quốc.
Việc đào tạo mô hình AI cũng thúc đẩy nhu cầu giao dịch dữ liệu tăng cao. Tính đến cuối tháng 6, tổng giá trị giao dịch tích lũy của các bộ dữ liệu chất lượng cao trên toàn quốc đạt gần 4 tỷ nhân dân tệ, với tổng quy mô dữ liệu chất lượng cao được niêm yết trên các cơ quan giao dịch dữ liệu đạt 246 PB.
Trong thời gian tới, Cục Quản lý Dữ liệu Quốc gia sẽ tiếp tục thúc đẩy xây dựng các bộ dữ liệu chất lượng cao thông qua bố trí hệ thống, đẩy nhanh việc xây dựng các trung tâm dữ liệu trọng điểm trong các lĩnh vực như trí tuệ thể hiện, kinh tế không gian thấp và sản xuất sinh học, thúc đẩy xã hội tăng cường nhận thức về giá trị của yếu tố dữ liệu, đẩy nhanh việc cùng tạo ra giá trị yếu tố dữ liệu và nuôi dưỡng sự đồng thuận thị trường "chi trả cho dữ liệu chất lượng cao".