Lập hồ sơ dữ liệu, hoặc khám phá dữ liệu, đề cập đến quá trình thu thập thông tin từ và thống kê mô tả về các nguồn dữ liệu khác nhau. Mục đích của việc lập hồ sơ dữ liệu là để hiểu rõ hơn về nội dung của dữ liệu, cũng như cấu trúc, các mối quan hệ của nó và mức độ chính xác và toàn vẹn hiện tại.
Việc lập hồ sơ dữ liệu có thể tiết lộ lỗi hoặc kết luận sai về siêu dữ liệu (dữ liệu về dữ liệu). Việc phát hiện sớm những vấn đề này sẽ giúp cải thiện chất lượng của dữ liệu nguồn trước khi tích hợp hoặc lưu trữ nó trong kho dữ liệu. Việc hiểu các thuộc tính của dữ liệu trong bảng cơ sở dữ liệu hoặc tệp trích xuất và kiểm tra các giá trị dữ liệu, giúp xác thực rằng nội dung dữ liệu thực sự khớp với định nghĩa siêu dữ liệu của nó. Việc xem dữ liệu và siêu dữ liệu cũng giúp xác định mục nào nhạy cảm hoặc chứa thông tin nhận dạng cá nhân (PII), do đó, một số cột nhất định có thể được gắn cờ cho các biện pháp bảo vệ. Do đó, việc lập hồ sơ dữ liệu khám phá ra các đặc điểm của dữ liệu nguồn cần thiết cho việc xác định, sử dụng và dòng dữ liệu trong quá trình tích hợp, bảo mật, báo cáo và các quy trình khác.
Mặc dù dữ liệu thu thập được đôi khi có vẻ lành tính hoặc vô dụng, đặc biệt là khi được thu thập từ nhiều nguồn, hãy nhớ rằng tất cả dữ liệu có thể hữu ích với ứng dụng hoặc thuật toán thích hợp. Do đó, lập hồ sơ dữ liệu cũng là bước đầu tiên để xác định tính hữu ích đó (bằng cách nâng cao hiểu biết về bản thân dữ liệu).
Vì nhiều doanh nghiệp cuối cùng dựa vào các nguồn dữ liệu thô để có cái nhìn sâu sắc về những thứ như tồn kho sản phẩm, nhân khẩu học của khách hàng, thói quen mua hàng và dự đoán doanh số bán hàng, khả năng thu lợi cạnh tranh của một công ty từ khối lượng dữ liệu ngày càng tăng có thể tỷ lệ thuận với khả năng tận dụng những dữ liệu đó tài sản. Việc giành được / mất khách hàng và thành công / thất bại với tư cách là một doanh nghiệp rất có thể được xác định bởi kiến thức cụ thể mà dữ liệu thu thập của một tổ chức truyền đạt. Do đó, việc xác định đúng dữ liệu, thiết lập tính hữu dụng của nó ở đúng cấp độ và xác định cách quản lý sự bất thường - là điều cần thiết trong việc thiết kế các hoạt động lưu trữ dữ liệu và các ứng dụng thông minh trong kinh doanh.
Theo Doug Vucevic và Wayne Yaddow, tác giả của Thử nghiệm Thực hành Kho Dữ liệu, “… mục đích của việc lập hồ sơ dữ liệu là cả để xác thực siêu dữ liệu khi nó có sẵn và để phát hiện ra siêu dữ liệu khi nó không có. Kết quả của phân tích được sử dụng cả về mặt chiến lược – để xác định tính phù hợp của các hệ thống nguồn ứng viên và cung cấp cơ sở cho quyết định sớm / không đi, nhưng về mặt chiến thuật, để xác định các vấn đề cho thiết kế giải pháp sau này và mức độ mong đợi của các nhà tài trợ. ”
Cơ quan quản lý dữ liệu khuyên bạn nên thực hiện lập hồ sơ dữ liệu một cách ngẫu nhiên và lặp lại trên một lượng dữ liệu hạn chế, thay vì cố gắng xử lý tất cả các khối lượng lớn, phức tạp cùng một lúc. Bằng cách đó, những khám phá có thể là yếu tố quyết định những gì sẽ được mô tả tiếp theo. Việc xác định các quy tắc, hạn chế và điều kiện tiên quyết của dữ liệu, đảm bảo tính toàn vẹn của siêu dữ liệu mà việc lập hồ sơ trong tương lai được thực hiện. Biết những gì được cho là nằm trong một số tệp dữ liệu nhất định và những gì thực sự là có thể không giống nhau. Vì vậy, bất cứ khi nào chất lượng hoặc đặc điểm của một nguồn mới chưa được biết, các chuyên gia khuyên bạn nên lập hồ sơ dữ liệu trước, trước khi tích hợp vào hệ thống hiện có.
Các bước trong quá trình cấu hình dữ liệu bao gồm:nhập tất cả các đối tượng, tạo các tham số cấu hình, thực hiện cấu hình thực tế và phân tích kết quả; không có cái nào dễ dàng như chúng nghe! Sau đó, dựa trên các phát hiện, các chỉnh sửa lược đồ và dữ liệu có thể được thực hiện, cũng như các tinh chỉnh khác để cải thiện hiệu suất lập hồ sơ dữ liệu tiếp theo.
Công cụ lập hồ sơ IRI
Vào giữa năm 2015, IRI đã phát hành một loạt các công cụ khám phá cơ sở dữ liệu miễn phí, có cấu trúc và không có cấu trúc (tối) trong Eclipse GUI, IRI Workbench. Chúng được tóm tắt tại http://www.iri.com/products/workbench/discover-data và liên kết đến các bài viết khác trong blog này chi tiết hơn.