Database
 sql >> Cơ Sở Dữ Liệu >  >> RDS >> Database

Lập hồ sơ cơ sở dữ liệu trong IRI Workbench

Cập nhật:Q2’16 :Ngoài trình hướng dẫn cấu hình cơ sở dữ liệu trong nhóm menu khám phá dữ liệu trong IRI Workbench được mô tả bên dưới, IRI đã giới thiệu phân loại dữ liệu mạnh mẽ cho phép áp dụng các quy tắc trường để chuyển đổi và bảo vệ dữ liệu đa nguồn thông qua các thư viện lớp dữ liệu. Cập nhật Q2’18 :IRI cũng đã giới thiệu trình hướng dẫn tìm kiếm mẫu trên toàn lược đồ để tìm PII khớp với giá trị RegEx hoặc chữ trong nhiều bảng cùng một lúc. Cập nhật Q2’19 :IRI hiện cũng cung cấp tính năng tìm kiếm lớp dữ liệu giữa / trong lược đồ tạo mặt nạ cho người dùng IRI FieldShield hoặc Voracity. Và, IRI vừa xuất bản bài viết này để hiển thị cách kết quả cấu hình DB bên dưới hiển thị trong Splunk.

Với nhiều dữ liệu được chọn lọc từ nhiều khía cạnh khác của hoạt động kinh doanh ngày nay, việc nhận biết dễ dàng về nội dung và bản chất của nó là rất quan trọng để đảm bảo chất lượng, số lượng và tính bảo mật của các bộ sưu tập này. Lập hồ sơ dữ liệu là quá trình khám phá cần thiết giúp bạn phân tích, phân loại, làm sạch, tích hợp, che giấu và báo cáo về dữ liệu trong kho lưu trữ của mình.

Ngoài trình thuật sĩ khám phá dữ liệu có cấu trúc và tối (và định nghĩa siêu dữ liệu), cùng với việc lập sơ đồ chéo DB E-R trong Eclipse, công cụ tạo cấu hình chéo DB mới trong IRI Workbench cho phép người dùng kiểm tra cấu trúc và tính hoàn chỉnh của dữ liệu cơ sở dữ liệu và xác thực điều đó dữ liệu thích hợp đang được lưu trữ ở đúng nơi. Trong bài viết này, chúng tôi sẽ xem xét công cụ này và chỉ ra cách nó cung cấp kết quả tìm kiếm giá trị bảng và siêu dữ liệu thống kê.

Để truy cập vào Hồ sơ cơ sở dữ liệu, hãy điều hướng đến bảng bạn muốn truy cập trong Trình khám phá nguồn dữ liệu. Nhấp chuột phải vào bảng và di chuột qua tùy chọn IRI. Trên menu xuất hiện, chọn Cấu hình cơ sở dữ liệu mới .

Trên trang trình hướng dẫn đầu tiên, hãy thiết lập vị trí và điểm đến của công việc, rồi chọn đầu ra của báo cáo hồ sơ, dưới dạng tệp .csv hoặc .txt hoặc cả hai.

  • định dạng .csv hữu ích để nhập vào các bảng và cơ sở dữ liệu mới, trong khi
  • định dạng .txt là một báo cáo được định dạng trước, hữu ích để xem xét kết quả một cách nhanh chóng.

Thông tin hồ sơ thống kê

Phần tiếp theo của trình hướng dẫn sẽ xuất hiện với hai bảng:

  1. Bảng trên cùng là danh sách tất cả các bảng trong cơ sở dữ liệu, với bảng khởi chạy trình hướng dẫn được đánh dấu theo mặc định.
  2. Hộp kiểm này cho phép bạn tùy chọn một cú nhấp chuột để quét mọi bảng và hàng trong cơ sở dữ liệu của bạn.
  3. Bảng dưới cùng hiển thị các tùy chọn cấu hình, tiếp theo là các cột của bảng được đánh dấu mà bạn chọn để thực hiện các tùy chọn.

Nhấp vào bất kỳ bảng nào trong danh sách bạn muốn xem và hồ sơ. Ma trận tùy chọn sẽ tự động thay đổi để đại diện cho các cột của bảng đã chọn. Có một số cách để xử lý các tùy chọn xem:

  • Đối với tất cả các tùy chọn, hãy nhấp vào hộp kiểm trên cùng trong bảng, có gắn nhãn Tất cả và tất cả siêu dữ liệu sẽ được báo cáo.
  • Chỉ dành cho các tùy chọn cơ bản (đếm và giá trị), hãy chọn hộp kiểm có nhãn Cơ bản.
  • Chỉ đối với các tùy chọn độ dài (độ dài giá trị), hãy chọn hộp kiểm có nhãn Độ dài.

Nếu bạn có nhiều cột trong bảng của mình và muốn chọn cùng một tùy chọn cho tất cả chúng, hãy nhấp vào chính tên tùy chọn đó và tất cả các cột sẽ có tùy chọn đó được chọn. Bạn có thể bỏ chọn các cột trong tùy chọn.

Sau khi mọi thứ được thiết lập, hãy nhấp vào Hoàn tất và sau đó hồ sơ sẽ được tạo cho bạn.

Tìm kiếm biểu thức

Một lựa chọn duy nhất trong bảng tùy chọn là -Tìm kiếm biểu thức-. Tùy chọn này cho phép bạn tìm kiếm các cột dựa trên nhiều tùy chọn tìm kiếm. Các tùy chọn này là:

  • Cụm từ Thông dụng (Tìm kiếm Mẫu). Điều này định vị và đếm số lần một giá trị khớp với định dạng của một mẫu tìm kiếm.
  • Chuỗi mờ. Tùy chọn này cho phép bạn tìm kiếm các chuỗi tương tự như những chuỗi bạn nhập và chọn hoặc chỉ định các điều kiện tìm kiếm.
  • Tệp Giá trị. Tùy chọn này cho phép bạn so sánh một chuỗi với mọi chuỗi trong một tệp tập hợp và đếm từng chuỗi có khớp.

Trang Tìm kiếm Biểu thức có 6 phần quan trọng

  1. Hộp tổ hợp Loại tìm kiếm để chọn loại tìm kiếm sẽ thực hiện.
  2. Nhóm tùy chọn thay đổi tùy thuộc vào loại tìm kiếm đã chọn
    • Biểu thức Chính quy:có hai nút; duyệt để duyệt qua các biểu thức chính quy hiện có và Tạo… cho phép tạo các biểu thức chính quy mới.
    • Chuỗi mờ:có một hộp đếm chỉ định ngưỡng của tìm kiếm mờ (độ gần của các chuỗi để được coi là khớp) và hộp tổ hợp để chọn thuật toán tìm kiếm mờ sẽ sử dụng.
    • Tệp giá trị:có nút Duyệt qua… cho phép bạn tìm kiếm tệp đã đặt để sử dụng cho việc tìm kiếm giá trị.
  3. Một hộp văn bản nơi bạn sẽ nhập dữ liệu để tìm kiếm.
  4. Danh sách thả xuống gồm các bảng mà bạn có thể áp dụng tìm kiếm biểu thức.
  5. Danh sách thả xuống gồm các cột mà bạn có thể áp dụng tìm kiếm biểu thức.
  6. Một bảng liệt kê các tìm kiếm bạn đã tạo sẽ được trình biên dịch thực hiện.

Để tạo bộ lọc biểu thức chính quy:

  1. Từ kết hợp Loại tìm kiếm, hãy chọn Cụm từ thông dụng .
  2. Nhấp vào Duyệt qua tới (thư viện các biểu thức đã lưu của bạn) hoặc nhấp vào Tạo để chỉ định một biểu thức chính quy để sử dụng trong việc tìm kiếm các giá trị cột.
  3. Trong menu Bảng, hãy chọn bảng có chứa cột để lọc.
  4. Trong menu Cột, hãy chọn cột mà biểu thức chính quy sẽ được áp dụng.
  5. Nhấp vào Thêm vào bảng và một mục sẽ xuất hiện trong bảng bên dưới chứa tên tệp, tên cột, nguồn tìm kiếm, ngưỡng và nhãn biểu thức chính quy tạo nên bộ lọc.
  6. Lặp lại quy trình này cho từng cột mà bạn muốn thêm bộ lọc. Nếu bạn có quá nhiều cột để làm cho quá trình này trở nên thực tế, bạn vẫn có thể tự động quét nhiều cột và bảng - để tìm dữ liệu khớp với (các) mẫu của bạn trên toàn bộ lược đồ cơ sở dữ liệu - thay vào đó, hãy sử dụng trình hướng dẫn này.

Để tạo tìm kiếm chuỗi mờ:

  1. Từ kết hợp Loại tìm kiếm, chọn Chuỗi mờ .
  2. Nhập chuỗi để sử dụng cho tìm kiếm.
  3. Chọn số lượng kết quả trả về (tùy chọn này sẽ xuất hiện khi chọn Tìm kiếm mờ).
  4. Chọn Loại Tìm kiếm Mờ để sử dụng (tùy chọn này sẽ xuất hiện khi Chuỗi Mờ được chọn).
  5. Trong menu Bảng, hãy chọn tệp có chứa cột để tìm kiếm mờ.
  6. Trong menu Cột, hãy chọn cột mà tìm kiếm mờ sẽ được thực hiện.
  7. Nhấp vào Thêm vào bảng và một mục sẽ xuất hiện trong bảng bên dưới chứa tên tệp, tên cột, nguồn tìm kiếm, ngưỡng và loại tìm kiếm của tìm kiếm mờ sẽ được thực hiện.
  8. Lặp lại quy trình này cho từng cột mà bạn muốn thực hiện tìm kiếm chuỗi mờ.

Để tạo tệp giá trị, hãy tìm kiếm:

  1. Từ kết hợp Loại tìm kiếm, chọn Tệp giá trị .
  2. Nhấp vào Duyệt qua để chọn một tập hợp tệp mà cột sẽ được kiểm tra.
  3. Trong menu Bảng, hãy chọn bảng có chứa cột để lọc.
  4. Trong menu Cột, hãy chọn cột mà biểu thức chính quy sẽ được áp dụng.
  5. Nhấp vào Thêm vào bảng và một mục sẽ xuất hiện trong bảng bên dưới có chứa tên tệp, tên cột, nguồn tìm kiếm, ngưỡng và nhãn tìm kiếm danh sách giá trị tạo nên bộ lọc.

Kiểm tra tính toàn vẹn tham chiếu

Một lựa chọn khác trong bảng tùy chọn là -Kiểm tra tính toàn vẹn tham chiếu-. Tùy chọn này cho phép trình biên dịch so sánh một hoặc nhiều cột với một cột khác và xác định xem các cột có tính toàn vẹn tham chiếu hay không. Để sử dụng chức năng này, hãy chọn hộp -Kiểm tra tính toàn vẹn tham chiếu- trên các cột để so sánh về tính toàn vẹn tham chiếu. Nút Tiếp theo sẽ kích hoạt và cho phép bạn chỉ định các tham số để kiểm tra tính toàn vẹn của tham chiếu (xem chi tiết cụ thể bên dưới).

Nếu bạn đã chọn tùy chọn Kiểm tra tính toàn vẹn tham chiếu cho bất kỳ cột nào của mình, hãy nhấp vào Tiếp theo để chuyển đến trang Kiểm tra tính toàn vẹn tham chiếu. Trang này có các tính năng sau:

  1. Hai hộp tổ hợp, một hộp để chọn bảng có khóa chính, hộp còn lại để chỉ định cột khóa chính.
  2. Hai hộp tổ hợp, một hộp để chọn bảng có khóa ngoại, hộp còn lại để chỉ định cột khóa ngoại. Ngoài ra còn có một nút để thêm khóa ngoại vào danh sách các khóa ngoại để so sánh với khóa chính.
  3. Nút Tạo Kiểm tra tính toàn vẹn để thêm các cột chính và cột ngoài vào danh sách bên dưới.
  4. Một danh sách lưu trữ tất cả các kiểm tra tính toàn vẹn của tham chiếu sẽ được trình biên dịch thực hiện.


Để tạo kiểm tra tính toàn vẹn của tham chiếu:

  1. Trong hộp tổ hợp bảng bên dưới Cột khóa chính, hãy chọn bảng có khóa chính.
  2. Trong hộp tổ hợp cột bên dưới Cột khóa chính, hãy chọn khóa chính.
  3. Trong hộp tổ hợp bảng bên dưới Cột khóa ngoài, hãy chọn bảng có khóa ngoại.
  4. Trong hộp tổ hợp cột bên dưới Cột khóa ngoài, hãy chọn khóa ngoài.
  5. Nhấp vào nút Thêm vào Danh sách Khoá Ngoại ...
  6. Lặp lại các bước 3-5 cho mỗi khóa ngoại được kiểm tra với khóa chính
  7. Nhấp vào nút Tạo Kiểm tra Tính toàn vẹn…
  8. Lặp lại các quy trình trên để mỗi lần kiểm tra tính toàn vẹn của tham chiếu được thực hiện.

Kết quả đầu ra hồ sơ mẫu

.csv được hiển thị trong LibreOffice / .txt được hiển thị trong EditPad Lite


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Sự khác biệt giữa SQL và NoSQL

  2. Phần 1 - Cách cài đặt cơ sở dữ liệu của SuiteCRM và Reverse Engineer

  3. Làm thế nào để giới hạn kết quả trong T-SQL

  4. Mô hình dữ liệu để theo dõi tài sản quý giá nhất của bạn

  5. Cách sử dụng mệnh đề GROUP BY trong SQL