Trong một động thái được xem là bảo vệ tài sản trí tuệ của mình, OpenAI vừa triển khai yêu cầu xác minh ID chính phủ đối với các nhà phát triển muốn truy cập vào các mô hình AI tiên tiến nhất của họ. Mặc dù công ty đưa ra lý do chính thức là nhằm ngăn chặn việc lạm dụng, nhưng có vẻ như mối quan ngại sâu sắc hơn đã thúc đẩy hành động này: đó là việc đầu ra từ các mô hình của OpenAI đang bị các đối thủ cạnh tranh thu thập để huấn luyện hệ thống AI riêng của họ.
Một nghiên cứu mới từ Copyleaks, công ty chuyên về phát hiện nội dung AI, đã cung cấp bằng chứng ủng hộ cho quyết định này của OpenAI. Bằng cách sử dụng hệ thống nhận dạng “dấu vân tay” phong cách của các mô hình AI lớn, Copyleaks phát hiện rằng khoảng 74% đầu ra từ mô hình đối thủ Trung Quốc DeepSeek-R1 có thể được phân loại là do OpenAI viết. Con số này không chỉ cho thấy sự trùng lặp mà còn ngụ ý một mức độ bắt chước đáng kể.
Điều thú vị là khi Copyleaks kiểm tra các mô hình AI khác như phi-4 của Microsoft và Grok-1 của Elon Musk, họ ghi nhận gần như không có sự tương đồng với OpenAI, với tỷ lệ “không đồng thuận” lần lượt là 99,3% và 100%. Mô hình Mixtral của Mistral có một số điểm tương đồng, nhưng con số của DeepSeek vẫn nổi bật một cách đáng ngạc nhiên.
OpenAI đang yêu cầu các nhà phát triển phải xác thực định danh nếu muốn sử dụng API của mình
Nghiên cứu này nhấn mạnh một thực tế đáng chú ý: ngay cả khi các mô hình được yêu cầu viết với giọng điệu hoặc định dạng khác nhau, chúng vẫn để lại các chữ ký phong cách có thể phát hiện được – tương tự như dấu vân tay ngôn ngữ. Những dấu vân tay này tồn tại xuyên suốt các nhiệm vụ, chủ đề và prompt khác nhau, và giờ đây có thể được truy nguyên về nguồn gốc với độ chính xác nhất định.
Đầu năm nay, chỉ sau khi DeepSeek gây ấn tượng với cộng đồng AI bằng các mô hình lý luận có hiệu suất tương tự như sản phẩm của OpenAI, công ty do Sam Altman đứng đầu đã bày tỏ quan ngại công khai: “Chúng tôi biết và đang xem xét những dấu hiệu cho thấy DeepSeek có thể đã không phù hợp khi ‘chưng cất’ các mô hình của chúng tôi.”
“Chưng cất” (Distillation) là một kỹ thuật trong nghiên cứu AI, trong đó các nhà phát triển huấn luyện các mô hình mới bằng cách sử dụng đầu ra của các mô hình hiện có khác. Mặc dù phương pháp này phổ biến trong nghiên cứu học thuật, việc thực hiện mà không có sự cho phép có thể vi phạm điều khoản dịch vụ của OpenAI và đặt ra câu hỏi về sở hữu trí tuệ trong lĩnh vực AI.
Bài báo nghiên cứu của DeepSeek về mô hình R1 của họ có mô tả việc sử dụng kỹ thuật chưng cất với các mô hình mã nguồn mở, nhưng không hề đề cập đến OpenAI. Khi được hỏi về những cáo buộc này đầu năm nay, DeepSeek đã không đưa ra phản hồi.
DeepSeek vướng phải nhiều nghi vấn về việc sao chép kết quả đầu ra từ ChatGPT của OpenAI
Tuy nhiên, tình huống này đặt ra một câu hỏi về tính nhất quán của OpenAI. Một số nhà phê bình chỉ ra rằng chính OpenAI đã xây dựng các mô hình ban đầu của mình bằng cách thu thập dữ liệu từ web, bao gồm nội dung từ các nhà xuất bản tin tức, tác giả và người sáng tạo – thường không có sự đồng ý. Liệu có phải là đạo đức giả khi OpenAI phàn nàn khi người khác sử dụng đầu ra của họ theo cách tương tự?
“Mọi thứ thực sự xoay quanh sự đồng ý và minh bạch,” Alon Yamin, CEO của Copyleaks giải thích. Ông phân biệt giữa hai vấn đề: huấn luyện trên nội dung của con người có bản quyền mà không có sự cho phép là một loại vấn đề, nhưng việc sử dụng đầu ra của các hệ thống AI độc quyền để huấn luyện các mô hình cạnh tranh lại là một vấn đề khác – nó giống như đảo ngược kỹ thuật sản phẩm của đối thủ.
Yamin lập luận rằng trong khi cả hai phương thức đều gây tranh cãi về mặt đạo đức, việc huấn luyện trên đầu ra của OpenAI đặt ra rủi ro cạnh tranh, vì nó về cơ bản chuyển giao các đổi mới khó khăn mà không có sự đồng ý hoặc bồi thường cho nhà phát triển ban đầu.
Khi các công ty AI đua nhau xây dựng các mô hình ngày càng mạnh mẽ hơn, cuộc tranh luận về ai sở hữu cái gì và ai có thể huấn luyện trên dữ liệu nào đang trở nên gay gắt hơn. Các công cụ như hệ thống lấy dấu vân tay kỹ thuật số của Copyleaks cung cấp một cách tiềm năng để theo dõi và xác minh quyền tác giả ở cấp độ mô hình.
Đối với OpenAI và các đối thủ của họ, cuộc chiến bảo vệ tài sản trí tuệ AI mới chỉ bắt đầu, và có vẻ như việc yêu cầu xác minh ID chỉ là bước đầu tiên trong một hành trình dài để xác định ranh giới pháp lý và đạo đức trong thời đại trí tuệ nhân tạo.

Nguồn tin: https://genk.vn/openai-tim-ra-cach-ngan-chan-deepseek-sao-chep-cau-tra-loi-cua-minh-20250418201153279.chn