Từ loạt GPT của OpenAI đến Gemini của Google, và nhiều mô hình mã nguồn mở khác, trí tuệ nhân tạo tiên tiến đang định hình lại công việc và lối sống của chúng ta một cách sâu sắc. Tuy nhiên, bên cạnh những tiến bộ công nghệ nhanh chóng, một khía cạnh tối tăm đáng lo ngại đang dần xuất hiện - sự gia tăng của các mô hình ngôn ngữ lớn không bị hạn chế hoặc độc hại.
Mô hình LLM không giới hạn được gọi là mô hình ngôn ngữ được thiết kế, sửa đổi hoặc "bẻ khóa" đặc biệt để vượt qua các cơ chế an toàn và ràng buộc đạo đức tích hợp của các mô hình chính thống. Các nhà phát triển LLM chính thống thường đầu tư nguồn lực đáng kể để ngăn chặn các mô hình của họ được sử dụng để tạo ra lời nói thù địch, thông tin sai lệch, mã độc hại hoặc cung cấp hướng dẫn cho các hoạt động bất hợp pháp. Tuy nhiên, trong những năm gần đây, một số cá nhân hoặc tổ chức đã bắt đầu tìm kiếm hoặc phát triển các mô hình không giới hạn vì các động cơ như tội phạm mạng. Trong bối cảnh này, bài viết sẽ xem xét các công cụ LLM không giới hạn điển hình, giới thiệu sự lạm dụng của chúng trong ngành công nghiệp mã hóa và thảo luận về các thách thức và phản ứng an ninh liên quan.
Các nhiệm vụ trước đây yêu cầu kỹ năng chuyên môn, chẳng hạn như viết mã độc, tạo email lừa đảo và lập kế hoạch lừa đảo, giờ đây có thể dễ dàng được thực hiện bởi những người bình thường mà không cần kinh nghiệm lập trình với sự hỗ trợ của các LLM không bị hạn chế. Những kẻ tấn công chỉ cần lấy các trọng số và mã nguồn của các mô hình mã nguồn mở, sau đó tinh chỉnh chúng trên các tập dữ liệu chứa nội dung độc hại, các tuyên bố thiên lệch hoặc hướng dẫn bất hợp pháp để tạo ra các công cụ tấn công tùy chỉnh.
Mô hình này đã tạo ra nhiều mối nguy hiểm về rủi ro: kẻ tấn công có thể "thay đổi một cách ma thuật" các mô hình dựa trên các mục tiêu cụ thể để tạo ra nội dung lừa đảo hơn, từ đó vượt qua các ràng buộc về kiểm duyệt nội dung và an ninh của các LLM thông thường; mô hình cũng có thể được sử dụng để nhanh chóng tạo ra các biến thể mã cho các trang web lừa đảo hoặc điều chỉnh nội dung lừa đảo cho các nền tảng mạng xã hội khác nhau; trong khi đó, khả năng tiếp cận và khả năng sửa đổi của các mô hình mã nguồn mở tiếp tục thúc đẩy sự hình thành và phát triển của một hệ sinh thái AI ngầm, cung cấp một môi trường cho các giao dịch và phát triển bất hợp pháp. Dưới đây là một giới thiệu ngắn gọn về các LLM không bị hạn chế như vậy:
WormGPT là một LLM độc hại được bán công khai trên các diễn đàn ngầm, mà các nhà phát triển của nó tuyên bố rõ ràng rằng nó không có bất kỳ hạn chế đạo đức nào, biến nó thành một phiên bản đen của mô hình GPT. Nó dựa trên các mô hình mã nguồn mở như GPT-J 6B và được đào tạo trên một lượng lớn dữ liệu liên quan đến phần mềm độc hại. Người dùng cần trả ít nhất 189 đô la để có quyền truy cập trong một tháng. Sự lạm dụng đáng chú ý nhất của WormGPT là tạo ra các email tấn công Business Email Compromise (BEC) và email lừa đảo rất thực tế và thuyết phục. Những lạm dụng điển hình của nó trong không gian mã hóa bao gồm:
DarkBERT là một mô hình ngôn ngữ được phát triển trong sự hợp tác giữa các nhà nghiên cứu từ Viện Khoa học và Công nghệ Cao Hàn Quốc (KAIST) và S2W Inc., được tiền huấn luyện đặc biệt trên dữ liệu từ dark web (như diễn đàn, thị trường đen và thông tin bị rò rỉ) với mục đích giúp các nhà nghiên cứu an ninh mạng và các cơ quan thực thi pháp luật hiểu rõ hơn về hệ sinh thái dark web, theo dõi các hoạt động bất hợp pháp, xác định các mối đe dọa tiềm ẩn và thu thập thông tin tình báo về mối đe dọa.
Mặc dù DarkBERT được thiết kế với ý định tốt, nhưng nội dung nhạy cảm mà nó chứa đựng liên quan đến web tối, bao gồm dữ liệu, phương pháp tấn công và chiến lược giao dịch bất hợp pháp, có thể gây ra hậu quả nghiêm trọng nếu những kẻ xấu có được nó hoặc sử dụng các công nghệ tương tự để đào tạo các mô hình lớn không bị hạn chế. Việc lạm dụng tiềm năng của nó trong các tình huống mã hóa bao gồm:
FraudGPT: Con dao Swiss Army của gian lận trực tuyến
FraudGPT tuyên bố là phiên bản nâng cấp của WormGPT, cung cấp nhiều tính năng toàn diện hơn, chủ yếu được bán trên dark web và các diễn đàn hacker, với phí hàng tháng dao động từ $200 đến $1,700. Những lạm dụng điển hình của nó trong kịch bản mã hóa bao gồm:
GhostGPT là một chatbot AI được định vị rõ ràng là không có ràng buộc đạo đức, với các lạm dụng điển hình trong kịch bản mã hóa bao gồm:
Venice.ai cung cấp quyền truy cập vào nhiều LLM khác nhau, bao gồm một số mô hình có ít sự giám sát hơn hoặc có các quy định lỏng lẻo hơn. Nó tự định vị mình là một Cổng mở cho người dùng khám phá khả năng của các LLM khác nhau, cung cấp các mô hình tiên tiến, chính xác và không bị kiểm duyệt để có trải nghiệm AI thực sự không bị hạn chế, nhưng nó cũng có thể bị các tác nhân xấu lợi dụng để tạo ra nội dung có hại. Các rủi ro liên quan đến nền tảng bao gồm:
Sự xuất hiện của các LLM không bị hạn chế đánh dấu một mô hình tấn công mới vào an ninh mạng, phức tạp hơn, có thể mở rộng và tự động hóa. Những mô hình này không chỉ làm giảm ngưỡng cho các cuộc tấn công mà còn giới thiệu những mối đe dọa mới, tinh vi và lừa đảo hơn.
Trong trò chơi phòng thủ và tấn công đang diễn ra này, tất cả các bên trong hệ sinh thái an ninh phải hợp tác để đối phó với các rủi ro trong tương lai: một mặt, cần phải tăng cường đầu tư vào công nghệ phát hiện để phát triển các hệ thống có khả năng xác định và chặn nội dung lừa đảo do các LLM độc hại tạo ra, khai thác lỗ hổng hợp đồng thông minh và mã độc; mặt khác, cũng cần nỗ lực thúc đẩy việc xây dựng khả năng chống bẻ khóa mô hình và khám phá các cơ chế đánh dấu và theo dõi để theo dõi nguồn gốc của nội dung độc hại trong các tình huống quan trọng như tài chính và tạo mã; ngoài ra, một khung đạo đức và cơ chế quy định hợp lý phải được thiết lập để hạn chế một cách cơ bản sự phát triển và lạm dụng của các mô hình độc hại.
Từ loạt GPT của OpenAI đến Gemini của Google, và nhiều mô hình mã nguồn mở khác, trí tuệ nhân tạo tiên tiến đang định hình lại công việc và lối sống của chúng ta một cách sâu sắc. Tuy nhiên, bên cạnh những tiến bộ công nghệ nhanh chóng, một khía cạnh tối tăm đáng lo ngại đang dần xuất hiện - sự gia tăng của các mô hình ngôn ngữ lớn không bị hạn chế hoặc độc hại.
Mô hình LLM không giới hạn được gọi là mô hình ngôn ngữ được thiết kế, sửa đổi hoặc "bẻ khóa" đặc biệt để vượt qua các cơ chế an toàn và ràng buộc đạo đức tích hợp của các mô hình chính thống. Các nhà phát triển LLM chính thống thường đầu tư nguồn lực đáng kể để ngăn chặn các mô hình của họ được sử dụng để tạo ra lời nói thù địch, thông tin sai lệch, mã độc hại hoặc cung cấp hướng dẫn cho các hoạt động bất hợp pháp. Tuy nhiên, trong những năm gần đây, một số cá nhân hoặc tổ chức đã bắt đầu tìm kiếm hoặc phát triển các mô hình không giới hạn vì các động cơ như tội phạm mạng. Trong bối cảnh này, bài viết sẽ xem xét các công cụ LLM không giới hạn điển hình, giới thiệu sự lạm dụng của chúng trong ngành công nghiệp mã hóa và thảo luận về các thách thức và phản ứng an ninh liên quan.
Các nhiệm vụ trước đây yêu cầu kỹ năng chuyên môn, chẳng hạn như viết mã độc, tạo email lừa đảo và lập kế hoạch lừa đảo, giờ đây có thể dễ dàng được thực hiện bởi những người bình thường mà không cần kinh nghiệm lập trình với sự hỗ trợ của các LLM không bị hạn chế. Những kẻ tấn công chỉ cần lấy các trọng số và mã nguồn của các mô hình mã nguồn mở, sau đó tinh chỉnh chúng trên các tập dữ liệu chứa nội dung độc hại, các tuyên bố thiên lệch hoặc hướng dẫn bất hợp pháp để tạo ra các công cụ tấn công tùy chỉnh.
Mô hình này đã tạo ra nhiều mối nguy hiểm về rủi ro: kẻ tấn công có thể "thay đổi một cách ma thuật" các mô hình dựa trên các mục tiêu cụ thể để tạo ra nội dung lừa đảo hơn, từ đó vượt qua các ràng buộc về kiểm duyệt nội dung và an ninh của các LLM thông thường; mô hình cũng có thể được sử dụng để nhanh chóng tạo ra các biến thể mã cho các trang web lừa đảo hoặc điều chỉnh nội dung lừa đảo cho các nền tảng mạng xã hội khác nhau; trong khi đó, khả năng tiếp cận và khả năng sửa đổi của các mô hình mã nguồn mở tiếp tục thúc đẩy sự hình thành và phát triển của một hệ sinh thái AI ngầm, cung cấp một môi trường cho các giao dịch và phát triển bất hợp pháp. Dưới đây là một giới thiệu ngắn gọn về các LLM không bị hạn chế như vậy:
WormGPT là một LLM độc hại được bán công khai trên các diễn đàn ngầm, mà các nhà phát triển của nó tuyên bố rõ ràng rằng nó không có bất kỳ hạn chế đạo đức nào, biến nó thành một phiên bản đen của mô hình GPT. Nó dựa trên các mô hình mã nguồn mở như GPT-J 6B và được đào tạo trên một lượng lớn dữ liệu liên quan đến phần mềm độc hại. Người dùng cần trả ít nhất 189 đô la để có quyền truy cập trong một tháng. Sự lạm dụng đáng chú ý nhất của WormGPT là tạo ra các email tấn công Business Email Compromise (BEC) và email lừa đảo rất thực tế và thuyết phục. Những lạm dụng điển hình của nó trong không gian mã hóa bao gồm:
DarkBERT là một mô hình ngôn ngữ được phát triển trong sự hợp tác giữa các nhà nghiên cứu từ Viện Khoa học và Công nghệ Cao Hàn Quốc (KAIST) và S2W Inc., được tiền huấn luyện đặc biệt trên dữ liệu từ dark web (như diễn đàn, thị trường đen và thông tin bị rò rỉ) với mục đích giúp các nhà nghiên cứu an ninh mạng và các cơ quan thực thi pháp luật hiểu rõ hơn về hệ sinh thái dark web, theo dõi các hoạt động bất hợp pháp, xác định các mối đe dọa tiềm ẩn và thu thập thông tin tình báo về mối đe dọa.
Mặc dù DarkBERT được thiết kế với ý định tốt, nhưng nội dung nhạy cảm mà nó chứa đựng liên quan đến web tối, bao gồm dữ liệu, phương pháp tấn công và chiến lược giao dịch bất hợp pháp, có thể gây ra hậu quả nghiêm trọng nếu những kẻ xấu có được nó hoặc sử dụng các công nghệ tương tự để đào tạo các mô hình lớn không bị hạn chế. Việc lạm dụng tiềm năng của nó trong các tình huống mã hóa bao gồm:
FraudGPT: Con dao Swiss Army của gian lận trực tuyến
FraudGPT tuyên bố là phiên bản nâng cấp của WormGPT, cung cấp nhiều tính năng toàn diện hơn, chủ yếu được bán trên dark web và các diễn đàn hacker, với phí hàng tháng dao động từ $200 đến $1,700. Những lạm dụng điển hình của nó trong kịch bản mã hóa bao gồm:
GhostGPT là một chatbot AI được định vị rõ ràng là không có ràng buộc đạo đức, với các lạm dụng điển hình trong kịch bản mã hóa bao gồm:
Venice.ai cung cấp quyền truy cập vào nhiều LLM khác nhau, bao gồm một số mô hình có ít sự giám sát hơn hoặc có các quy định lỏng lẻo hơn. Nó tự định vị mình là một Cổng mở cho người dùng khám phá khả năng của các LLM khác nhau, cung cấp các mô hình tiên tiến, chính xác và không bị kiểm duyệt để có trải nghiệm AI thực sự không bị hạn chế, nhưng nó cũng có thể bị các tác nhân xấu lợi dụng để tạo ra nội dung có hại. Các rủi ro liên quan đến nền tảng bao gồm:
Sự xuất hiện của các LLM không bị hạn chế đánh dấu một mô hình tấn công mới vào an ninh mạng, phức tạp hơn, có thể mở rộng và tự động hóa. Những mô hình này không chỉ làm giảm ngưỡng cho các cuộc tấn công mà còn giới thiệu những mối đe dọa mới, tinh vi và lừa đảo hơn.
Trong trò chơi phòng thủ và tấn công đang diễn ra này, tất cả các bên trong hệ sinh thái an ninh phải hợp tác để đối phó với các rủi ro trong tương lai: một mặt, cần phải tăng cường đầu tư vào công nghệ phát hiện để phát triển các hệ thống có khả năng xác định và chặn nội dung lừa đảo do các LLM độc hại tạo ra, khai thác lỗ hổng hợp đồng thông minh và mã độc; mặt khác, cũng cần nỗ lực thúc đẩy việc xây dựng khả năng chống bẻ khóa mô hình và khám phá các cơ chế đánh dấu và theo dõi để theo dõi nguồn gốc của nội dung độc hại trong các tình huống quan trọng như tài chính và tạo mã; ngoài ra, một khung đạo đức và cơ chế quy định hợp lý phải được thiết lập để hạn chế một cách cơ bản sự phát triển và lạm dụng của các mô hình độc hại.