Sự cố IT là bất kỳ gián đoạn không lường trước được hoặc sự giảm chất lượng của dịch vụ IT. Các sự cố có thể từ vấn đề nhỏ, như ứng dụng chạy chậm, đến các gián đoạn nghiêm trọng, bao gồm cả sự cố máy chủ. Quản lý Sự cố (IM) nhằm xử lý các sự cố này một cách hiệu quả, đảm bảo dịch vụ IT được khôi phục nhanh chóng.
Một sự kiện có thể gây nguy hiểm cho tính bảo mật, tính toàn vẹn hoặc tính khả dụng của thông tin hoặc hệ thống thông tin, hoặc tạo thành mối đe dọa đối với chính sách bảo mật hoặc quy trình bảo mật.
Ứng phó Sự cố (IR) là một quy trình có tổ chức mà một tổ chức tuân theo để khôi phục sau sự cố bảo mật. Mục tiêu chính của chương trình Ứng phó Sự cố an ninh mạng là hạn chế thiệt hại và giảm chi phí cũng như thời gian khôi phục sau vi phạm bảo mật, đảm bảo tính liên tục của hoạt động kinh doanh và bảo vệ tính toàn vẹn của hệ thống và dữ liệu.
\ Các sự cố nên có các mức độ nghiêm trọng khác nhau vì không phải tất cả các sự kiện đều có cùng tác động đến hoạt động kinh doanh. Việc gán mức độ nghiêm trọng là một bước quan trọng quyết định tốc độ và phạm vi nguồn lực dành cho việc ứng phó.
Việc sử dụng phổ biến các phương pháp Trí tuệ Nhân tạo (AI), bao gồm Trí tuệ Nhân tạo Tạo sinh (GenAI) và các mô hình ngôn ngữ lớn (LLMs) cho các hoạt động cá nhân và chuyên nghiệp, trở nên khả thi nhờ những tiến bộ công nghệ trong hệ thống Transformer Được huấn luyện trước Tạo sinh (GPT). Các ứng dụng GenAI đã tạo ra những rủi ro bảo mật mới, đòi hỏi các đội ngũ bảo mật thông tin mở rộng trách nhiệm bảo vệ của họ đối với các hệ thống này.
\ Các loại sự cố có thể xảy ra bao gồm chatbot gây hiểu lầm cho khách hàng, dữ liệu bị rò rỉ bởi AI Agent, và nhiều hơn nữa. Trung tâm Hoạt động Bảo mật (SOC) và các đội Ứng phó Sự cố (IR) cần một ma trận mức độ nghiêm trọng áp dụng cho các sự cố AI để tạo ra một hệ thống tiêu chuẩn xác định các tác động thực tế và mức độ nghiêm trọng của các sự kiện liên quan đến AI.
\ Công cụ được mô tả trong bài viết có chức năng xác định mức độ nghiêm trọng của sự cố để phân phối nguồn lực IR một cách phù hợp. Hệ thống mới tích hợp dữ liệu số với các yếu tố đánh giá của con người bằng cách sử dụng phương pháp đánh giá dựa trên ma trận.
\ Ma trận chứa năm 'Chiều Tác động' đánh giá các ảnh hưởng đến Chức năng AI, Tính toàn vẹn Dữ liệu, Tính khả dụng Hoạt động, Danh tiếng và nỗ lực Khắc phục.
\ Công cụ này cho phép đánh giá từng chiều thông qua hệ thống tính điểm, có thể có điểm Thấp (1), Trung bình (2), Cao (3) hoặc Nghiêm trọng (4).
Một đánh giá sơ bộ cần được thực hiện trước khi tuyên bố sự cố AI vì nó giúp xác định nhu cầu về nguồn lực đáng kể và các quy trình phân loại khẩn cấp. Các hệ thống AI có những đặc điểm riêng biệt khác biệt so với tất cả các hệ thống khác.
\ Việc đánh giá cần xác định hệ thống AI nào tham gia vào sự cố và xác định tầm quan trọng của chúng đối với an toàn hoạt động và hoạt động kinh doanh. Một số ví dụ về hệ thống là chatbot, mô hình thị giác máy tính, hệ thống đề xuất, AI Agent tùy chỉnh, v.v. Việc đánh giá tác động chức năng đòi hỏi các nhà nghiên cứu phân tích cách thiết kế hoạt động thay đổi khi hệ thống AI gặp phải các cuộc tấn công đối nghịch.
\ Hệ thống thể hiện các mức độ trục trặc khác nhau, bao gồm các vấn đề hiệu suất nhỏ ảnh hưởng đến độ chính xác và tốc độ, và các vấn đề lớn dẫn đến sự cố hệ thống và kết quả nguy hiểm hoặc không công bằng. Một số vấn đề về hiệu suất có thể liên quan đến độ chính xác giảm và độ trễ tăng trong phản hồi từ mô hình.
\ Hệ thống yêu cầu xác định hai điều theo khung ATLAS: bản chất của bất thường được phát hiện và liệu nó bắt nguồn từ cuộc tấn công đối nghịch hay trục trặc hệ thống. MITRE ATLAS (MITRE, 2025) cho phép người dùng xác định các kỹ thuật tấn công cụ thể (ví dụ: Tiêm Prompt LLM, Đầu độc Dữ liệu Huấn luyện, Từ chối Dịch vụ AI), cho thấy cả mục tiêu tấn công và phân loại tương ứng.
\ Đánh giá bao gồm việc xác minh tính toàn vẹn và bảo mật của dữ liệu bằng cách kiểm tra bất kỳ sự xâm phạm nào đối với dữ liệu huấn luyện hoặc xác thực và thông tin nhạy cảm (PII, PHI, IP mô hình độc quyền) và việc rò rỉ dữ liệu. Quá trình đánh giá phải xác định mức độ ảnh hưởng của đầu ra hệ thống AI đến các yếu tố dịch vụ kinh doanh hoạt động và hệ thống dựa vào kết quả của nó. Cần xác định mức độ nguy hiểm về thể chất cũng như tổn thất tài chính cho doanh nghiệp.
Việc đánh giá các sự cố đã tuyên bố cần các phương pháp tiêu chuẩn hóa để thiết lập các quy trình ứng phó phù hợp. Đánh giá mức độ nghiêm trọng của sự cố đòi hỏi cả điểm dữ liệu số và đánh giá của con người thông qua hệ thống dựa trên ma trận để đạt được đánh giá chính xác. Mức độ nghiêm trọng của sự cố đạt đến giá trị tối đa từ bất kỳ danh mục tác động liên quan nào, cho phép các yếu tố nghiêm trọng nâng cao toàn bộ sự cố lên trạng thái ưu tiên cao hơn.
Hệ thống tính điểm cho mỗi chiều liên quan (A-E) chạy từ 1 đến 4 để xác định mức độ nghiêm trọng của sự cố cho các tổ chức. Xếp hạng mức độ nghiêm trọng của sự cố trở thành điểm số tối đa từ tất cả các chiều được đánh giá, xác định mức độ nghiêm trọng hoàn chỉnh. Sự cố có thể đạt trạng thái 'Nghiêm trọng' nếu điểm Tác động Chức năng là '2', nhưng Tác động Dữ liệu đạt '4' trong khi các chiều khác dao động từ '1' đến '2'. Quy trình đánh giá có cấu trúc cho phép các tổ chức nhận được kết quả tiêu chuẩn hóa đồng thời đẩy nhanh quá trình đánh giá.
\ Các tổ chức cần lựa chọn giữa việc triển khai khung này nguyên trạng hoặc tạo phiên bản riêng phù hợp với hệ thống tính toán hiện có của họ để thiết lập mức độ nghiêm trọng của Sự cố AI.
Việc tính toán mức độ nghiêm trọng giúp các đội ứng phó sự cố quyết định những rủi ro nào cần được chú ý ngay lập tức khi lập kế hoạch ứng phó và phân bổ nguồn lực. Ứng phó với các sự cố nghiêm trọng đòi hỏi triển khai ngay lập tức một đội chuyên biệt bao gồm các chuyên gia An ninh mạng, Kỹ sư AI/ML, Nhà khoa học Dữ liệu, chuyên gia Pháp lý và đại diện PR. Ứng phó với các sự cố có mức độ nghiêm trọng thấp hơn cần ít nhân sự hơn để quản lý.
\ Các sự cố nghiêm trọng cần thông báo ngay lập tức cho ban lãnh đạo và thành viên hội đồng quản trị, đội ngũ pháp lý, cơ quan quản lý và các bên liên quan công chúng, nhưng các sự cố có mức độ nghiêm trọng thấp chỉ nên nhận được thông tin chia sẻ nội bộ hạn chế. Việc tắt hệ thống, cùng với ngắt kết nối API, hoạt động như cơ chế phòng thủ đầu tiên ngăn chặn các sự cố nghiêm trọng lan rộng. Quá trình kiểm soát đối với các sự cố có mức độ nghiêm trọng thấp hơn cần ngăn chặn các gián đoạn hoạt động lớn xảy ra.


