Phân loại dữ liệu trong IRI Workbench

Người dùng các công cụ che PII như FieldShield, DarkShield và CellShield EE trong Bộ bảo vệ dữ liệu IRI hoặc nền tảng Voracity có thể lập danh mục và tìm kiếm dữ liệu của họ - đồng thời áp dụng các chức năng chuyển đổi và bảo vệ dữ liệu như các quy tắc - bằng cách sử dụng dữ liệu phân loại cơ sở hạ tầng trong IDE front-end chung của họ, IRI Workbench, được xây dựng trên Eclipse ™.

Các phương tiện khám phá (tìm kiếm) dữ liệu đa nguồn trong IRI Workbench có thể sử dụng các lớp dữ liệu bạn đã xác định hoặc chúng có thể giúp bạn chỉ định các lớp dữ liệu hoặc nhóm lớp dữ liệu cho dữ liệu của bạn dựa trên kết quả tìm kiếm, quy tắc nghiệp vụ và / hoặc bản thể học miền.

Bạn có thể sử dụng thư viện lớp dữ liệu của mình trong các quy tắc trường có thể sử dụng lại (ví dụ:tạo mặt nạ dữ liệu). Và bạn cũng có thể chỉ định các quy tắc đó khi tự động phân loại dữ liệu.

Các tính năng này mang lại sự thuận tiện, nhất quán và khả năng tuân thủ cho các kiến trúc sư dữ liệu và nhóm quản trị. Xem bài viết này để biết ví dụ từ đầu đến cuối sử dụng các lớp dữ liệu để tìm và che dữ liệu một cách nhất quán trên nhiều bảng trong lược đồ RDB.

Bài viết này mô tả cách bạn có thể xác định các lớp này. Có các bài viết liên quan về trình xác thực lớp dữ liệu có thể được sử dụng để phân biệt và xác minh dữ liệu dựa trên các tìm kiếm mẫu.

Một số bài viết khác trong blog IRI đề cập đến việc áp dụng các lớp dữ liệu trong các ngữ cảnh khác nhau (chủ yếu là mặt nạ dữ liệu). Để có chỉ mục đầy đủ của các bài viết này, hãy xem phần này của trang tự học phần mềm IRI.

Tạo lớp dữ liệu

Việc phân loại bắt đầu bằng cách thiết lập các lớp dữ liệu trong Workbench Preferences màn hình, cho phép bạn sử dụng các lớp trên toàn cầu, trên nhiều dự án trong không gian làm việc của bạn. Workbench có một số lớp được tải sẵn, bao gồm các lớp FIRST_NAME, LAST_NAME và PIN_US được sử dụng trong ví dụ này.

Các lớp dữ liệu hoạt động bằng cách đối sánh (1) tên của lớp với tên của trường, (2) một mẫu với dữ liệu trong trường hoặc (3) đặt nội dung tệp so với dữ liệu trong trường. Mục đầu tiên được thực hiện tự động cho bạn trong quá trình phân loại, nếu tùy chọn đó được chọn. Bạn có thể thêm bao nhiêu mẫu và đặt trình đối sánh tệp tùy ý cho mỗi lớp để trả về kết quả mong muốn của bạn.

Nhập một biểu thức chính quy làm tên lớp dữ liệu là một cách bổ sung để khớp với tên cột. Ví dụ:có thể có một cột có tên LNAME hoặc LASTNAME. Vì vậy, tôi có thể sử dụng L (AST)? [_-]? NAME (gạch dưới và gạch ngang trong ngoặc) để nắm bắt một vài biến thể của TÊN CUỐI CÙNG.

Bạn cũng có thể làm cho các lớp và nhóm dữ liệu của mình không hoạt động. Nếu bạn có nhiều lớp nhưng muốn lọc ra các mục không được sử dụng trong dự án cụ thể của mình, bạn có thể làm cho chúng không hoạt động. Điều này cho phép bạn giữ lại một bản sao của chúng nhưng không làm lộn xộn danh sách thả xuống sử dụng các lớp này.

Nhóm lớp dữ liệu

Bạn cũng có thể có các nhóm lớp dữ liệu. Ví dụ:nhóm được bao gồm “NAMES” chứa các lớp dữ liệu FIRST_NAME, LAST_NAME và FULL_NAME. Nếu bạn muốn áp dụng quy tắc cho nhiều lớp, bạn có thể sử dụng một nhóm thay vì chọn các lớp dữ liệu riêng lẻ.

Đối với ví dụ này, tôi đã xóa dấu gạch dưới khỏi lớp dữ liệu FIRST_NAME để chứng minh tùy chọn phân loại đối sánh tên.

Trình hướng dẫn Nguồn Phân loại Dữ liệu

Sau khi các đối sánh đã được thêm vào các lớp cần thiết, bạn có thể chạy Trình hướng dẫn Nguồn Phân loại Dữ liệu. Trình hướng dẫn chấp nhận các định dạng dữ liệu sau:CSV, Phân cách, LDIF, ODBC hoặc XML. Trình hướng dẫn này cung cấp phương tiện để chọn nguồn cho thư viện lớp dữ liệu của bạn để phân loại sau này.

Trên trang thiết lập, hãy bắt đầu bằng cách chọn vị trí của “ iriLibrary.dataclass mới của bạn ”, Là đầu ra của trình hướng dẫn này. Tên tệp ở chế độ chỉ đọc vì chỉ có thể có một trong các loại tệp này trong mỗi dự án. Bạn cũng có thể chọn hộp kiểm nếu tất cả các nguồn của bạn là các bảng trong một cấu hình kết nối.

Việc chọn hộp này sẽ mở ra một trang đầu vào giống như trang bên dưới, nơi bạn có thể chọn các bảng được đưa vào:

Nếu hộp kiểm không được chọn, bạn có thể thêm tệp hoặc nguồn ODBC trong cùng một màn hình nhập. Trên loại trang đầu vào này, bạn cũng sẽ cần thêm siêu dữ liệu cho từng nguồn. Trong ví dụ này, tôi đã bao gồm một tệp CSV và hai bảng Oracle.

Nếu bạn cần tìm kiếm và phân loại dữ liệu trên một hoặc nhiều lược đồ cơ sở dữ liệu đầy đủ cùng một lúc, hãy sử dụng Tìm kiếm mẫu lược đồ và Tìm kiếm mẫu lược đồ cho trình hướng dẫn Liên kết lớp dữ liệu.

Nhấp vào Kết thúc sẽ tạo một thư viện lớp dữ liệu với các nguồn đã chọn được bao gồm. Trình chỉnh sửa biểu mẫu lớp dữ liệu mở ra sẽ cho phép bạn phân loại dữ liệu trong các nguồn đó.

Phân loại dữ liệu trong các nguồn đã chọn của bạn

Bạn bắt đầu quá trình phân loại bằng cách nhấp vào một trong các nguồn dữ liệu để hiển thị thông tin chi tiết về nguồn đó. Phần trên của màn hình có một phần có thể mở rộng hiển thị chi tiết tệp hoặc bảng.

Phần phân loại bắt đầu với một hộp kiểm để bao gồm việc so khớp thông qua tên trường với tên lớp dữ liệu. Ví dụ:tôi có một lớp dữ liệu được gọi là FIRSTNAME và một trường có tên FIRSTNAME (đối sánh không phân biệt chữ hoa chữ thường).

Trong trường hợp này, quá trình phân loại sẽ chọn lớp dữ liệu đó cho trường đó mà không cần đọc nội dung dữ liệu.

Phần tiếp theo hiển thị một bảng chứa các tên trường với các hộp kiểm, một cột cho lớp dữ liệu và một cột cho các kết quả phù hợp. Bảng dưới là bản xem trước của dữ liệu trong nguồn. Các lớp dữ liệu cần thiết phải được tạo trước khi sử dụng trình chỉnh sửa biểu mẫu này, nhưng bạn có thể thêm hoặc chỉnh sửa chúng tại đây.

Bạn có thể chọn lớp dữ liệu theo cách thủ công bằng cách nhấp vào hộp thả xuống trong cột lớp dữ liệu của trường bạn muốn phân loại. Bạn cũng có thể nhấp vào Tự động phân loại và chọn các trường bạn muốn phân loại. Nhấp vào OK sẽ bắt đầu quá trình phân loại tự động, quá trình này có thể mất nhiều thời gian tùy thuộc vào lượng dữ liệu bạn có trong nguồn của mình.

Quá trình có thể chạy ở chế độ nền nếu bạn chọn tùy chọn đó trong hộp thoại Eclipse tiêu chuẩn hiển thị. Ngoài ra, bạn có thể xem trạng thái quy trình trong Chế độ xem tiến trình.

Sau khi hoàn tất, lớp dữ liệu và bản đồ lớp dữ liệu sẽ được tạo trong thư viện cho các trường đã chọn. Trong ví dụ này, quá trình phân loại đã tìm thấy 87% trùng khớp trên trường SSN, 11% trên LASTNAME và trùng khớp tên trên FIRSTNAME. Tỷ lệ phần trăm cho biết lượng dữ liệu phù hợp trong nguồn của bạn thông qua trình đối sánh cho lớp dữ liệu đó.

Nếu "tên" hiển thị trong cột phù hợp, thì lớp dữ liệu đã được khớp dựa trên tên. Nếu bạn đã chọn một lớp dữ liệu theo cách thủ công, thì “người dùng” sẽ được hiển thị trong cột phù hợp.

Nội dung thư viện cuối cùng được hiển thị bên dưới. Cũng giống như bạn có thể xem chi tiết của các nguồn, bạn cũng có thể nhấp vào các lớp dữ liệu và bản đồ để hiển thị chi tiết của chúng.

Các bản đồ lớp dữ liệu sử dụng các tham chiếu đến các lớp và trường dữ liệu, đó là lý do thư viện lưu trữ các nguồn và lớp dữ liệu, ngoài chính bản đồ. Xóa nguồn hoặc lớp dữ liệu cũng sẽ xóa mọi bản đồ lớp dữ liệu được liên kết tham chiếu đến mục đã xóa.

Khi nhấp vào Xóa, một cảnh báo sẽ hiển thị để nhắc nhở bạn về điều này. Quá trình này có thể được lặp lại trên các nguồn được bao gồm khác và các nguồn bổ sung có thể được thêm vào bất kỳ lúc nào.

Các kết quả phân loại của thư viện này bây giờ có thể được sử dụng để áp dụng các quy tắc trường cho các nguồn dữ liệu đó. Quy trình này được giải thích trong bài viết tiếp theo của tôi về Áp dụng Quy tắc Trường Sử dụng Phân loại.