Ẩn danh các số nhận dạng gián tiếp để giảm rủi ro làm lại ID

Chuẩn định danh, hoặc định danh gián tiếp, là các thuộc tính cá nhân đúng, nhưng không nhất thiết là duy nhất, đối với một cá nhân. Ví dụ như tuổi hoặc ngày sinh, chủng tộc, mức lương, trình độ học vấn, nghề nghiệp, tình trạng hôn nhân và mã vùng của một người. Đối chiếu những điều này với những số nhận dạng duy nhất, trực tiếp như tên pháp lý đầy đủ, địa chỉ email, số điện thoại, chứng minh thư quốc gia, hộ chiếu hoặc số thẻ tín dụng của một người, v.v.

Hầu hết người tiêu dùng đã nhận thức được rủi ro khi chia sẻ thông tin nhận dạng cá nhân (PII) duy nhất của họ. Ngành bảo mật dữ liệu cũng thường tập trung vào các số nhận dạng trực tiếp đó. Nhưng chỉ với giới tính, ngày sinh và mã vùng, 80-90% dân số Hoa Kỳ có thể được xác định.

Hầu hết mọi người đều có thể được nhận dạng lại từ một tập dữ liệu được che giấu khác nếu vẫn còn đủ số nhận dạng gián tiếp và có thể được tham gia vào một tập hợp siêu có giá trị tương tự.

Quy tắc Phương pháp xác định của chuyên gia HIPAA liên quan đến thông tin sức khỏe được bảo vệ (PHI) và luật FERPA liên quan đến quyền riêng tư của dữ liệu sinh viên cân nhắc những mối quan tâm này và yêu cầu rằng bộ dữ liệu có khả năng nhận dạng lại thấp về mặt thống kê (dưới 20% là tiêu chuẩn hiện nay). Những người muốn sử dụng dữ liệu chăm sóc sức khỏe và giáo dục cho các mục đích nghiên cứu và / hoặc tiếp thị cần phải tuân thủ các luật đó nhưng cũng phải dựa vào độ chính xác nhân khẩu học của các mã định danh để dữ liệu có giá trị.

Vì lý do này, các công việc tạo mặt nạ dữ liệu trong sản phẩm IRI FieldShield hoặc IRI Voracity (nền tảng quản lý dữ liệu) có thể áp dụng một hoặc nhiều kỹ thuật bổ sung để làm xáo trộn dữ liệu, trong khi vẫn giữ cho nó đủ chính xác cho các mục đích nghiên cứu hoặc tiếp thị. Ví dụ:các hàm làm mờ số tạo nhiễu ngẫu nhiên cho các phạm vi độ tuổi và ngày cụ thể, chẳng hạn như được mô tả trong bài viết này.

Dựa trên bài viết ở đây, ví dụ này sẽ cho thấy cách IRI Workbench có thể tạo và sử dụng các tệp tập hợp để ẩn danh các mã định danh.

Bắt đầu trong phần Tổng quát hóa qua Bucketing Wizard, có sẵn từ danh sách các quy tắc bảo vệ dữ liệu:

Khi trình hướng dẫn mở ra, hãy bắt đầu xác định nguồn của các giá trị cho tệp đã đặt, bao gồm định dạng nguồn và trường yêu cầu giá trị thay thế tổng quát.

Trên trang tiếp theo, có hai loại thay thế tập hợp: Sử dụng tập hợp làm nhóm và Sử dụng tập hợp tệp làm phạm vi tùy chọn. Ví dụ này sử dụng Sử dụng tập hợp tệp làm nhóm lựa chọn. Bài viết về làm mờ dữ liệu giải thích Sử dụng tập hợp tệp làm phạm vi lựa chọn. Các tập hợp tra cứu được xây dựng ở đây sẽ được sử dụng để giả danh các mã định danh gốc với giá trị tổng quát hóa mới.

Trang này là nơi tạo các nhóm giữa mỗi giá trị trường gần như nhận dạng ban đầu. Ở bên trái là các giá trị duy nhất trong trường đã chọn trước đó. Có thể tạo nhóm bằng cách kéo và thả vào các giá trị nhóm ở bên trái hoặc bằng cách nhập giá trị theo cách thủ công. Mỗi nhóm cũng cần một giá trị thay thế duy nhất. Đây là giá trị sẽ thay thế giá trị ban đầu trong nhóm. Trong ví dụ này, bất kỳ giá trị nào của "9" sẽ được thay thế bằng "Trung học".

Việc thêm nhóm cho đến khi tất cả các giá trị nguồn được bao phủ sẽ tạo ra tệp tập hợp tra cứu sau để ẩn danh định danh trạng thái giáo dục:

Nếu yêu cầu các cấp độ tiếp thị bổ sung, thì có thể chạy lại trình hướng dẫn bán đấu giá bằng cách sử dụng tập hợp tệp này làm nguồn.

Khi tập hợp được sử dụng trong công việc ẩn danh dữ liệu, dữ liệu nguồn sẽ được so sánh với các giá trị trong cột đầu tiên của tập hợp. Nếu tìm thấy kết quả khớp, dữ liệu sẽ được thay thế bằng giá trị trong cột thứ hai. Tập hợp trên được sử dụng trong tập lệnh bên dưới ở dòng 38.

Sử dụng Workbench để áp dụng năm kỹ thuật ẩn danh khác nhau dẫn đến tập lệnh sau:

Mười dòng đầu tiên của dữ liệu gốc được hiển thị ở đây:

Kết quả ẩn danh sau khi chạy công việc được hiển thị ở đây:

Trước những khái quát hóa này, rủi ro nhận dạng lại dựa trên các giá trị nhận dạng gián tiếp ban đầu là quá cao. Nhưng khi bộ kết quả tổng quát hơn được chạy lại thông qua trình hướng dẫn chấm điểm rủi ro để đưa ra một quyết định khác về rủi ro nhận dạng lại, rủi ro có thể chấp nhận được và dữ liệu vẫn hữu ích cho mục đích nghiên cứu hoặc tiếp thị.

Nếu bạn có bất kỳ câu hỏi nào về các chức năng này hoặc chấm điểm rủi ro ID lại, hãy liên hệ.