Database
 sql >> Cơ Sở Dữ Liệu >  >> RDS >> Database

Khám phá và phân loại dữ liệu SQL

Với các luật bảo vệ dữ liệu gần đây và việc thực hiện GDPR vào năm ngoái, chúng tôi bắt buộc phải biết loại dữ liệu mà cơ sở dữ liệu của chúng tôi đang lưu trữ. Điều này sẽ giúp chúng tôi phân loại dữ liệu dựa trên các quy định và giúp chúng tôi đáp ứng các tiêu chuẩn về quyền riêng tư của dữ liệu. Khá khó cho các DBA để biết loại dữ liệu trong cơ sở dữ liệu. Tuy nhiên, có một công cụ tích hợp mới bên trong SQL Server Management Studio (SSMS) có thể giúp chúng tôi dễ dàng khám phá dữ liệu trong cơ sở dữ liệu. Với công cụ này, chúng tôi sẽ có thể phân loại dữ liệu và làm việc để báo cáo bất kỳ dữ liệu nhạy cảm nào.

Quy định bảo vệ dữ liệu toàn cầu hay còn gọi là GDPR

GDPR lần đầu tiên được thông qua vào năm 2016 và có hiệu lực từ năm 2018. Về cơ bản, nó là một khuôn khổ mới để bảo vệ dữ liệu ở Châu Âu. Tuy nhiên, nó không chỉ ảnh hưởng đến các tổ chức nằm trong EU mà bất cứ thứ gì liên quan từ xa đến nó. Điều quan trọng là các tổ chức phải biết những tác động của việc không tuân thủ các quy định này, vì hậu quả có thể gây tổn hại. Để có ý tưởng về hậu quả, hãy tham khảo đoạn 5 tại đây:https://gdpr-info.eu/art-83-gdpr/, “ Những vi phạm của các điều khoản sau đây, phù hợp với khoản 2, sẽ phải tuân theo bị phạt hành chính lên đến 20 000 000 EUR hoặc trong trường hợp cam kết, lên đến 4% trong tổng doanh thu hàng năm trên toàn thế giới của năm tài chính trước đó, tùy theo giá trị nào cao hơn . Vì một trong những lý do này, bạn sẽ nhận thấy một số công ty đang cố gắng đáp ứng các yêu cầu quy định vào năm ngoái. Ngay cả các công ty lớn trên toàn thế giới, bao gồm cả Microsoft, đã triển khai GDPR cho tất cả các khách hàng của họ trên toàn thế giới, bất kể họ ở trong EU hay bên ngoài. Là DBA hoặc chuyên gia dữ liệu, chúng ta cần nhận thức được hậu quả của các hành động của mình và hiểu tầm quan trọng của dữ liệu được lưu trữ trong cơ sở dữ liệu của chúng ta.

Tải xuống SQL Server Management Studio (SSMS) mới nhất

Trước khi chúng tôi bắt đầu bản demo để khám phá và phân loại dữ liệu, điều quan trọng là chúng tôi phải tải xuống phiên bản SQL Server Management Studio (SSMS) mới nhất. Như bạn đã biết, SSMS không còn là một phần của cài đặt SQL Server nữa, có những bản phát hành mới của sản phẩm được phát hành thường xuyên với các tính năng mới hơn và được nâng cấp. Vì phát hiện và phân loại dữ liệu là một công cụ tích hợp sẵn trong SSMS, bạn nên luôn có phiên bản SSMS mới nhất. Tại thời điểm viết bài này, phiên bản SSMS mới nhất là 17.9.1 và có thể tải xuống tại đây. Đảm bảo đóng tất cả các phiên bản SSMS trên máy chủ của bạn trước khi cài đặt, vì quá trình cài đặt sẽ dừng khi SSMS đang chạy. Sau khi cài đặt, hãy khởi động lại máy chủ của bạn và tiến hành các bước tiếp theo.

Khôi phục cơ sở dữ liệu mẫu

Để chứng minh tính năng phân loại dữ liệu tích hợp mới trong SSMS, bạn có thể sử dụng cơ sở dữ liệu SQL Server mẫu có sẵn để tải xuống. Tôi đã sử dụng cơ sở dữ liệu mẫu “WideWorldImporters” trong bản trình diễn này. Bạn có thể tải xuống tệp sao lưu mẫu và khôi phục tệp đó trên máy chủ của mình. Tham khảo liên kết này để biết tệp sao lưu. Bạn có thể tải xuống tệp đã chọn như hình dưới đây.

Sau khi tệp sao lưu được tải xuống, hãy khôi phục cơ sở dữ liệu bằng cách sử dụng nó. Bạn có thể sử dụng tập lệnh mẫu này để thực hiện khôi phục. Bạn có thể cần cập nhật đường dẫn thư mục theo vị trí trên máy chủ của mình.

restore database WideWorldImporters
from disk='C:\WideWorldImporters-Full.bak'
with move 'WWI_Primary' to 'C:\SQLData\WideWorldImporters.mdf',
     move 'WWI_UserData' to 'C:\SQLData\WideWorldImporters_UserData.ndf',
	 move 'WWI_Log' to 'C:\SQLData\WideWorldImporters.ldf',
	 move 'WWI_InMemory_Data_1' to 'C:\SQLData\WideWorldImporters_InMemory_Data_1',
	 stats

Phân loại dữ liệu

Sau khi cơ sở dữ liệu được khôi phục, hãy nhấp chuột phải vào cơ sở dữ liệu trong SSMS, đi tới Tác vụ và nhấp vào Phân loại dữ liệu , như hình dưới đây.

Sau khi bạn nhấp vào Phân loại dữ liệu , một hộp thoại sẽ mở ra nơi bạn có thể xem các đề xuất phân loại.

Sau khi bạn nhấp vào Nhấp để xem , bạn sẽ có thể xem danh sách chi tiết các cột được đề xuất để phân loại dữ liệu. Trên ảnh chụp màn hình bên dưới, bạn có thể thấy danh sách 92 cột với các đề xuất phân loại. Công cụ có thể thực hiện quét cho bạn và cung cấp các đề xuất mà không cần người dùng nhập.

Chọn một số cột trong danh sách được đề xuất

Trong số 92 cột được đề xuất, trước tiên, chúng tôi có thể chọn một số cột trong danh sách và xem những thay đổi xảy ra. Trong bản trình diễn của chúng tôi, chúng tôi sẽ chọn Địa chỉ email trong cột Mọi người bàn. Trên ảnh chụp màn hình bên dưới, bạn có thể thấy rằng Địa chỉ email cột được chọn ở phía bên trái. Sau khi hoàn tất, bạn sẽ thấy thông báo Chấp nhận các đề xuất đã chọn lựa chọn. Nếu không, tùy chọn này chuyển sang màu xám.

Trong cột nhãn độ nhạy, bạn cũng có thể xem liệu cột đó có cần tuân thủ GDPR hay không. Khi cột được chọn, bạn sẽ thấy rằng đề xuất cần được lưu.

Nhấp vào Lưu và bạn sẽ thấy xác nhận rằng các thay đổi đã được cập nhật thành công.

Bây giờ, bạn có thể nhấp vào Xem báo cáo để tạo báo cáo cho Phân loại dữ liệu SQL cho cơ sở dữ liệu WideWorldImporters. Báo cáo được hiển thị bên dưới.

Trong báo cáo, bạn có thể thấy tổng số bảng, cột và phân phối dữ liệu. Trong phân phối dữ liệu, bạn có thể xem liệu dữ liệu có được gắn nhãn là GDPR hay không. Sử dụng công cụ này, bạn hiểu rõ hơn về tầm quan trọng và loại dữ liệu đang được lưu trữ trong cơ sở dữ liệu của bạn. Để làm cho mọi thứ dễ dàng hơn, bạn cũng có thể xuất báo cáo này dưới dạng Excel, PDF hoặc Word và gửi qua email cho người quản lý doanh nghiệp hoặc CIO của bạn để xem xét. Chỉ cần nhấp chuột phải vào bất kỳ đâu trong báo cáo và sử dụng bất kỳ tùy chọn nào như được hiển thị bên dưới.

Chọn tất cả các cột trong danh sách được đề xuất

Trong ví dụ trước, bạn chỉ áp dụng một cột từ danh sách các cột được đề xuất. Tuy nhiên, bạn có tùy chọn để chọn tất cả các cột trong danh sách được đề xuất và làm cho cơ sở dữ liệu của bạn tuân thủ các chính sách bảo mật dữ liệu. Chỉ cần chọn Hộp kiểm do đó chọn tất cả các cột trong danh sách được đề xuất, như được hiển thị trên ảnh chụp màn hình bên dưới.

Với tùy chọn này, tất cả các cột được chọn và sẵn sàng được áp dụng. Để thực hiện các thay đổi đối với cơ sở dữ liệu của bạn, hãy nhấp vào Chấp nhận các đề xuất đã chọn . Trên ảnh chụp màn hình, bạn có thể thấy 91 cột với các đề xuất phân loại. Chỉ với một cú nhấp chuột, bạn có thể áp dụng các đề xuất cho tất cả các cột đó. Giống như bạn đã làm trong ví dụ trước cho một cột, hãy tiếp tục và nhấp vào Lưu để hoàn tất quá trình.

Sau khi bạn nhấp vào Lưu , các thay đổi phân loại được cập nhật thành công. Bây giờ, hãy nhấp vào Xem báo cáo để xem báo cáo phân loại dữ liệu chi tiết.

Từ báo cáo này, bạn có thể thấy rằng tất cả các cột đã phân loại thuộc về các bảng trong 4 lược đồ. Để biết chi tiết về tên bảng, hãy nhấp vào Bảng cột để xem. Báo cáo có biểu đồ hình tròn với các chi tiết về độ nhạy của GDPR. Ngoài ra còn có một biểu đồ hình tròn hữu ích khác để phân phối loại thông tin.

Thêm tùy chọn phân loại

Bạn có thể nhận thấy rằng một số bảng được gắn nhãn là chứa dữ liệu nhạy cảm từ báo cáo phân loại dữ liệu đã tạo. Điều này là thông qua khuyến nghị được tạo ra bằng cách sử dụng công cụ phân loại dữ liệu này. Tuy nhiên, bạn có thể muốn xem xét báo cáo thêm và thêm phân loại dữ liệu của riêng bạn dựa trên hiểu biết của bạn về dữ liệu. Đây là một quy trình thủ công, nơi chúng tôi chọn các cột của riêng mình. Từ báo cáo phân loại dữ liệu bên dưới, bạn có thể thấy rằng chỉ có một cột Mức thuế trong OrderLines bảng được phân loại để chứa dữ liệu bí mật.

Tuy nhiên, bạn nhận thấy rằng các cột khác trong bảng này cũng cần phải có trong báo cáo này. Bạn có thể xem lại OrderLines bảng và kế hoạch bao gồm Mô tả trong báo cáo phân loại dữ liệu.

Trong trường hợp này, hãy bấm chuột phải vào cơ sở dữ liệu và thực hiện các thao tác tương tự như bạn đã làm trước đó để phân loại dữ liệu. Bạn sẽ thấy Thêm phân loại tùy chọn.

Sau khi hoàn tất, bạn có thể chọn bảng và cột như hình bên dưới. Chọn các tùy chọn có sẵn trong menu thả xuống để phân loại dữ liệu. Trên ảnh chụp màn hình bên dưới, bạn có thể thấy rằng Mô tả trong cột Dòng đặt hàng bảng được đánh dấu là Bí mật . Thêm phân loại dữ liệu bằng cách nhấp vào nút Thêm nút.

Sau khi hoàn tất, hãy nhấp vào Lưu để cập nhật các thay đổi.

Để xác nhận rằng các thay đổi đã được áp dụng thành công, bạn có thể chạy lại báo cáo phân loại dữ liệu như bạn đã làm trong các bước trước đó. Sau đó, bạn có thể xác minh rằng cột đã được thêm thành công.

Trong báo cáo, bạn có thể xác nhận rằng Mô tả cột thực sự đã được thêm thành công và được gắn nhãn là bí mật. Với cách tiếp cận này, bạn có thể gắn nhãn các cột khác mà bạn chọn dựa trên các yêu cầu hoặc hướng dẫn nhất định từ ban quản lý.

Thuộc tính mở rộng trong cột

Khi bạn kiểm tra thêm các cột, bạn có thể nhận được chi tiết của chế độ xem danh mục thuộc tính mở rộng liên quan đến các cột được gắn nhãn để phân loại dữ liệu. Ví dụ:khi bạn nhấp chuột phải vào Mô tả trong cột Bán hàng.OrderLines , bạn sẽ có thể xem chi tiết trong Thuộc tính mở rộng cho cột đó.

sys_information_type_name sys_sensuality_label_name giá trị là mô tả trong cột của sys.extended_properties xem danh mục. Siêu dữ liệu liên quan đến các phân loại dữ liệu này được lưu trữ trong chế độ xem danh mục này: sys.extended_properties .

Nhận xét bổ sung

Với công cụ mới này, bạn sẽ nhận thấy rằng nhóm sản phẩm của Microsoft đã làm cho nhiệm vụ phân loại dữ liệu này trở nên đơn giản và dễ sử dụng. Thành thật mà nói, không có lý do thực sự nào cho việc thiếu hiểu biết về dữ liệu cơ bản trong cơ sở dữ liệu của bạn. Xem xét tầm quan trọng của việc bảo vệ dữ liệu người dùng và mối lo ngại của các cơ quan toàn cầu khác nhau về việc xâm phạm dữ liệu người dùng của các tổ chức nổi tiếng, điều quan trọng đối với các DBA và chuyên gia dữ liệu là phải coi trọng việc bảo vệ dữ liệu và bắt kịp tốc độ cung cấp công nghệ mới nhất. Xét rằng công cụ này miễn phí và dễ sử dụng, không có lý do thực sự nào không để sử dụng nó trên các hệ thống sản xuất của bạn.

Kết luận

  • Trong bài viết này, bạn đã đọc về việc sử dụng một tính năng thú vị mới trong SQL Server Management Studio (SSMS)
  • Bạn đã biết sơ qua một số nội dung quan trọng về bảo vệ dữ liệu
  • Bạn hiểu tầm quan trọng của việc cập nhật phiên bản SSMS của mình với các phiên bản mới nhất để không bỏ lỡ bất kỳ tính năng hoặc nâng cấp mới nào
  • Bạn đã thấy cách bạn có thể dễ dàng thử nghiệm các tính năng mới bằng cách khôi phục cơ sở dữ liệu SQL Server mẫu
  • Bạn đã học cách phân loại dữ liệu bằng SSMS
  • Bạn đã học cách tạo báo cáo để xem chi tiết về các cột được gắn nhãn
  • Bạn đã học cách thêm các phân loại dữ liệu của riêng mình theo cách thủ công dựa trên sự hiểu biết của bạn về dữ liệu cơ bản
  • Bạn cũng biết rằng tất cả các phân loại dữ liệu có thể được thực hiện dựa trên công cụ đơn giản này và bạn có thể tạo các báo cáo tuyệt vời và hiểu rõ hơn về dữ liệu cũng như cơ sở dữ liệu mà bạn đang quản lý.


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. NoSQL:Cuộc sống không có lược đồ

  2. Đồng bộ hóa cấu trúc cơ sở dữ liệu giữa các ứng dụng

  3. Cách xóa cột trong bảng

  4. Cách cập nhật một cột dựa trên bộ lọc của một cột khác

  5. Cách xóa khoảng trắng ở đầu và / hoặc ở cuối của một chuỗi trong T-SQL