Purple Llama của Meta là một dự án dành riêng cho việc tạo ra các công cụ nguồn mở để những nhà phát triển đánh giá và nâng cao độ tin cậy cũng như an toàn của các mô hình trí tuệ nhân tạo (AI) tạo sinh trước khi chúng được đưa vào sử dụng.
Meta đang nỗ lực khẳng định vai trò tiên phong trong quá trình phát triển những công nghệ AI. |
Meta cũng nhấn mạnh sự cần thiết của sự nỗ lực hợp tác trong việc đảm bảo an toàn cho AI, đồng thời cho rằng những thách thức về AI không thể được giải quyết một cách biệt lập.
Công ty công nghệ Mỹ cho biết mục tiêu của dự án Purple Llama là thiết lập một nền tảng chung để phát triển AI tạo sinh an toàn hơn khi mối lo ngại ngày càng tăng về những mô hình ngôn ngữ lớn và các công nghệ AI khác.
Ông Gareth Lindahl-Wise, Giám đốc An ninh thông tin của Công ty an ninh mạng Ontinue, cho rằng Purple Llama là “một bước đi tích cực và chủ động” hướng đến công nghệ AI an toàn hơn.
Dự án Purple Llama của Meta hợp tác với những nhà phát triển AI; dịch vụ đám mây như AWS và Google Cloud; những công ty bán dẫn như Intel, AMD và Nvidia; cùng các công ty phần mềm, có cả Microsoft.
Bộ công cụ đầu tiên sẽ được phát hành thông qua Purple Llama là CyberSecEval - công cụ đánh giá rủi ro an ninh mạng trong phần mềm được AI tạo ra. Nó có mô hình ngôn ngữ xác định văn bản không phù hợp hoặc là có hại, bao gồm những cuộc thảo luận về bạo lực hoặc hành vi bất hợp pháp.
Những nhà phát triển có thể sử dụng CyberSecEval để kiểm tra mô hình AI của mình có xu hướng tạo mã không an toàn hoặc là hỗ trợ những cuộc tấn công mạng hay không.
Nghiên cứu của Meta đã phát hiện ra rằng những mô hình ngôn ngữ lớn thường đề xuất mã dễ bị tấn công, nêu bật tầm quan trọng của việc thử nghiệm cũng như cải tiến liên tục đối với bảo mật AI.
Llama Guard cũng là một bộ công cụ khác - một mô hình ngôn ngữ lớn được đào tạo để xác định ngôn ngữ có khả năng gây hại hoặc là xúc phạm.
Những nhà phát triển có thể sử dụng Llama Guard của Meta để kiểm tra xem mô hình của mình có tạo ra hoặc chấp nhận nội dung không an toàn hay là không, giúp lọc ra những lời nhắc có thể dẫn đến kết quả đầu ra không phù hợp.