Trong thế giới của con người, chúng ta đều sống theo những quy ước xã hội không được viết thành văn bản. Từ việc chào “chào buổi sáng” với người pha chế cà phê, nói “cảm ơn” sau khi nhận được dịch vụ tốt, hay thể hiện tình cảm bằng một cái ôm – tất cả đều là những hành vi bình thường và được mong đợi trong xã hội. Các quy ước xã hội này được hình thành từ thuở nhỏ, nhưng chúng có thể khác biệt rất lớn giữa các nền văn hóa.
Ngôn ngữ là một ví dụ đặc biệt thú vị của quy ước xã hội. Cùng một từ hay cách diễn đạt có thể mang những ý nghĩa khác nhau, ngay cả trong cùng một ngôn ngữ, tùy thuộc vào xuất xứ của người nói. Một từ được coi là thô tục ở Mỹ có thể là một cách gọi thân mật ở một quốc gia khác.
Đặc trưng trong xã hội con người là khả năng giao tiếp, liên kết với nhau thông qua ngôn ngữ riêng
Trong bối cảnh bùng nổ của các mô hình ngôn ngữ lớn (LLM), một câu hỏi thú vị đã được đặt ra: Liệu AI có thể tự tạo ra các quy ước mà không cần sự can thiệp của con người hay không? Câu trả lời từ một nghiên cứu mới công bố trên tạp chí Science Advances dường như là “có”.
AI cũng có thể tự tạo ngôn ngữ riêng để giao tiếp với nhau
Nhóm nghiên cứu từ Anh và Đan Mạch đã tiến hành một thí nghiệm đặc biệt để kiểm tra khả năng này. Họ sử dụng một bài kiểm tra khoa học xã hội được gọi là “trò chơi đặt tên” (name game), vốn được thiết kế để đánh giá sự hình thành quy ước ở con người, để xem liệu các nhóm tác nhân AI có thể tạo ra quy ước ngôn ngữ hay không.
Quy tắc của trò chơi khá đơn giản: Một nhóm người, hoặc trong trường hợp này là các tác nhân AI, được chia thành các cặp ngẫu nhiên. Mỗi cặp sẽ chọn một “tên” từ một nhóm chữ cái đơn lẻ hoặc một chuỗi từ và cố gắng đoán lựa chọn của đối tác. Nếu lựa chọn của họ khớp nhau, cả hai được một điểm. Nếu không, cả hai mất một điểm.
“Đa số nghiên cứu cho đến nay đều xem xét các mô hình ngôn ngữ lớn một cách riêng lẻ, nhưng các hệ thống AI trong thế giới thực sẽ ngày càng liên quan đến nhiều tác nhân AI tương tác với nhau,” Ariel Flint Ashery, một trong những tác giả của nghiên cứu tại Đại học London chia sẻ. “Chúng tôi muốn biết: Liệu những mô hình này có thể phối hợp hành vi của chúng bằng cách hình thành các quy ước – những khối xây dựng cơ bản của một xã hội hay không?”
Khi liên kết với nhau, các nhóm Tác nhân AI cũng cho thấy khả năng giao tiếp tương tự như con người
Điểm quan trọng của thí nghiệm là các cặp tác nhân AI chỉ nhận thức được phản ứng của riêng họ. Họ không biết rằng có những bài kiểm tra tương tự đang diễn ra cho các cặp khác và cũng không nhận được phản hồi từ những người chơi khác. Tuy nhiên, kết quả cho thấy các quy ước có thể tự nhiên xuất hiện trong các nhóm lớn.
Ban đầu, trò chơi bắt đầu với những đoán ngẫu nhiên. Nhưng mỗi tác nhân AI ghi nhớ các vòng trước đó. Theo thời gian, các “người chơi” trở nên giỏi hơn trong việc đoán từ của người khác, cuối cùng hình thành một ngôn ngữ chung – một quy ước ngôn ngữ.
Khi trò chơi tiến triển, những túi đồng thuận nhỏ bắt đầu xuất hiện từ các cặp lân cận. Cuối cùng, lên đến 200 Tác nhân AI chơi trong các cặp ngẫu nhiên đều hướng đến một từ “ưa thích” trong số 26 lựa chọn mà không có sự can thiệp của con người – thiết lập một dạng quy ước ngôn ngữ không thành văn giữa các tác nhân.
Nhóm nghiên cứu đã thử nghiệm bốn mô hình AI, bao gồm Claude của Anthropic và nhiều mô hình Llama từ Meta. Kết quả cho thấy các mô hình này tự nhiên đạt được các quy ước ngôn ngữ với tốc độ tương đối giống nhau.
Tại sao AI lại có các quy tắc giao tiếp này?
Làm thế nào mà các quy ước này xuất hiện? Một ý tưởng cho rằng các mô hình ngôn ngữ lớn đã được trang bị sẵn những thiên kiến cá nhân dựa trên cách chúng được thiết lập. Ý tưởng khác cho rằng điều đó có thể do các lời nhắc ban đầu được đưa ra. Tuy nhiên, nhóm nghiên cứu đã loại bỏ khả năng thứ hai khá nhanh chóng, vì các tác nhân AI hội tụ tương tự nhau bất kể lời nhắc ban đầu.
Quan trọng hơn, khả năng giao tiếp này hoàn toàn nằm ngoài khả năng can thiệp của con người
Ngược lại, thiên kiến cá nhân tạo ra sự khác biệt đáng kể. Khi được chọn bất kỳ chữ cái nào, nhiều tác nhân AI áp đảo chọn chữ cái “A”. Tuy nhiên, ngoài sở thích cá nhân, sự xuất hiện của một thiên kiến tập thể đã làm ngạc nhiên nhóm nghiên cứu – các tác nhân AI đã tạo ra một quy ước ngôn ngữ chỉ từ những cuộc “nói chuyện” ghép cặp.
“Thiên kiến không phải lúc nào cũng đến từ bên trong,” Andrea Baronchelli, một tác giả khác của nghiên cứu nhận xét. “Chúng tôi ngạc nhiên khi thấy rằng nó có thể xuất hiện giữa các agents – chỉ từ tương tác của họ. Đây là một điểm mù trong hầu hết các công tác về an toàn AI hiện nay, vốn tập trung vào các mô hình đơn lẻ.”
Nghiên cứu này cũng có những ý nghĩa quan trọng đối với an toàn AI. Trong một bài kiểm tra cuối cùng, nhóm nghiên cứu đã thêm vào các tác nhân AI cam kết làm thay đổi các quy ước hiện tại. Những tác nhân này được huấn luyện để chọn một “phong tục” ngôn ngữ khác và sau đó làm thay đổi một quần thể AI đã có quy ước được thiết lập. Trong một trường hợp, chỉ cần số lượng người ngoài chiếm 2% dân số là đủ để dẫn dắt cả nhóm hướng tới một quy ước ngôn ngữ mới.
Hãy nghĩ về điều này như một thế hệ mới của con người thêm tiếng lóng của họ vào một ngôn ngữ, hoặc một nhóm nhỏ người làm thay đổi các quy tắc của sự thay đổi xã hội. Sự tiến hóa trong hành vi AI tương tự như động lực “khối lượng tới hạn” trong khoa học xã hội, trong đó việc áp dụng rộng rãi một ý tưởng, sản phẩm hoặc công nghệ mới làm thay đổi các quy ước xã hội.
Khi AI ngày càng xâm nhập vào cuộc sống của chúng ta, các kỹ thuật nghiên cứu khoa học xã hội như thế này có thể giúp chúng ta hiểu rõ hơn về công nghệ này và làm cho nó an toàn hơn. Kết quả trong nghiên cứu này cho thấy rằng một “xã hội” của các tác nhân AI tương tác đặc biệt dễ bị tấn công từ bên ngoài. Các agents độc hại lan truyền thiên kiến xã hội có thể đầu độc đối thoại trực tuyến và gây hại cho các nhóm dễ bị tổn thương.
“Hiểu cách chúng hoạt động là chìa khóa để dẫn dắt sự cùng tồn tại của chúng ta với AI, thay vì bị phụ thuộc vào nó,” Baronchelli kết luận. “Chúng ta đang bước vào một thế giới nơi AI không chỉ nói chuyện – nó thương lượng, liên kết và đôi khi bất đồng về các hành vi chung, giống như chúng ta.”
Nghiên cứu này mở ra những hướng đi mới trong việc hiểu cách AI tương tác với nhau và với con người. Trong tương lai, khi các tác nhân AI ngày càng trở nên phổ biến, việc hiểu cách chúng tự tạo quy ước có thể là yếu tố then chốt để đảm bảo chúng hành động theo cách phù hợp với giá trị của con người và mục tiêu xã hội.
Nguyễn Hải (Theo SingularityHub)
Nguồn tin: https://genk.vn/thi-nghiem-tiet-lo-ai-cung-biet-tao-thanh-cong-dong-nhu-xa-hoi-loai-nguoi-con-co-ca-tieng-long-rieng-cho-moi-nhom-20250519223425335.chn