Database
 sql >> Cơ Sở Dữ Liệu >  >> RDS >> Database

5 sai lầm phổ biến cần tránh khi xóa dữ liệu của bạn

Dữ liệu là sức mạnh và với sức mạnh đó đi kèm với trách nhiệm lớn lao. Một trong những trở ngại lớn nhất trong dữ liệu là xác định các bản sao và loại bỏ lừa đảo.

Mục đích của việc sao chép dữ liệu là để loại bỏ bất kỳ dữ liệu dư thừa nào trong doanh nghiệp của bạn. Các bản sao được tạo trong tất cả các lĩnh vực kinh doanh của bạn, chẳng hạn như đại diện bán hàng nhập một bản ghi mới mà không kiểm tra cơ sở dữ liệu trước, một nhà tiếp thị tải lên danh sách những người mua tiềm năng mà không kiểm tra xem bản ghi có tồn tại hay không và một khách hàng nhập lại thông tin của họ khi họ quên mất họ. đã có tài khoản với bạn.

Khử trùng lặp dữ liệu đảm bảo quản lý dữ liệu thích hợp của các bản ghi đó, giảm lưu trữ dữ liệu, truyền thông tiếp thị hiệu quả hơn và phân tích dự đoán tốt hơn. Các bản ghi trùng lặp thực sự có thể có tác động rất lớn đến các bản ghi khoa học dữ liệu và học máy bằng cách mang lại cho khách hàng khả năng dự đoán gấp hai lần về mặt lý thuyết và do đó tạo ra sự sai lệch trong kết quả đầu ra.

Tuy nhiên, với mọi ý tưởng tuyệt vời đều có rủi ro và trong chiến lược khử trùng lặp, theo đó dữ liệu bị xóa hầu hết thời gian, có thể có những sai lầm cố hữu.

Xử lý trong dòng hoặc xử lý bài đăng

Các quy trình khử trùng lặp nội tuyến loại bỏ dữ liệu khi nó được xử lý. Điều này có nghĩa là nó làm giảm lượng dữ liệu ngay lập tức, điều này rất tốt nhưng thường có vấn đề về hiệu suất với lượng tài nguyên cần thiết để chạy như chiến lược. Tuy nhiên, điều đó có nghĩa là bạn cần ít dung lượng đĩa thô hơn vì dữ liệu không bao giờ thực sự được gửi qua ngay từ đầu khi quá trình khử trùng lặp được thực hiện trên giao diện người dùng.

Điều quan trọng là bạn phải đảm bảo rằng bạn có khả năng xử lý để khử trùng lặp nội tuyến và nó không ảnh hưởng đến hiệu suất. Một sai lầm khác là cho rằng không có trường hợp trùng lặp nào. Có những nhu cầu chính đáng về việc có các bản sao trong hệ thống của bạn. Các lý do có thể là vì lý do thanh toán, dịch vụ khách hàng, bán hàng và tiếp thị, do đó, bạn nên tham khảo ý kiến ​​của tất cả các bộ phận có liên quan đến dữ liệu trước khi thực hiện xử lý nội bộ.

Thuật toán

Phép trùng lặp chỉ tốt như các thuật toán mà nó được cung cấp, tức là làm thế nào các bản ghi trùng lặp được phát hiện ngay từ đầu? Giả sử chúng tôi có 100 bản sao của một tệp trên hệ thống của mình vì mỗi nhân viên có phiên bản riêng của họ. Thay vì lưu trữ nhiều bản sao, phương pháp hay cho bạn là chỉ lưu trữ một bản và yêu cầu tất cả nhân viên chỉ vào bản đó. Điều gì sẽ xảy ra nếu một trong những nhân viên thực hiện thay đổi đối với tệp của chính họ, nghĩa là tệp đó hơi khác so với những người khác? Bạn có nguy cơ bị mất dữ liệu. Điều quan trọng là đảm bảo rằng bất kỳ quy tắc nào bạn đặt ra đều có ý nghĩa và không bắt đầu xóa các tập dữ liệu duy nhất do nhầm lẫn.

Có một số thuật toán phổ biến được sử dụng để sao chép dữ liệu, chẳng hạn như SHA-1 hoặc MD5 và Cấu trúc cây tìm kiếm nhị phân đáng xem xét để tìm ra điều gì phù hợp nhất với bạn.

Mặc dù việc loại bỏ tập dữ liệu trong ví dụ trên có thể dễ dàng được giải quyết bởi các nhà khoa học dữ liệu. Đối với hồ sơ bán hàng và tiếp thị thì khó hơn một chút. Hãy xem xét, rằng các doanh nghiệp khác nhau xác định các bản sao khác nhau, đó không còn là nhiệm vụ của nhà khoa học dữ liệu mà là nhiệm vụ của những người đứng đầu các bộ phận khác nhau. Do đó, bước đầu tiên là xác định những gì tạo ra một bản sao. Ví dụ, hãy lấy một gã khổng lồ bán lẻ như Walmart. Đối với công ty phân phối, mỗi vị trí của Walmart sẽ được coi là một bản ghi duy nhất, tuy nhiên, đối với một công ty phần mềm bán hàng vào Walmart, họ sẽ coi tất cả các vị trí là bản sao vì họ chỉ muốn bán vào trụ sở chính. Điều tương tự cũng có thể nói đối với việc bán hàng vào P&G, nơi một số doanh nghiệp bán riêng lẻ từng thương hiệu. Do đó, họ muốn giữ tất cả chúng riêng biệt và áp dụng liên kết mẹ / con thay vì loại bỏ việc ghép nối để xác định các thương hiệu khác nhau. Do đó, trước khi khử dupe, hãy đảm bảo rằng bạn đã xác định tất cả các quy tắc trước khi tìm ra thuật toán sẽ sử dụng để khử dupe dữ liệu.

Mã hóa

Với bảo vệ dữ liệu, thường xảy ra trường hợp các nhóm bảo mật sẽ mã hóa dữ liệu khi nó đi vào hoạt động kinh doanh, nghĩa là không thể loại trừ nó vì mọi thứ là duy nhất trong bối cảnh này. Nếu bạn đang sử dụng các sản phẩm sao chép và mã hóa cùng với phần mềm chống sao chép, thì khả năng rất cao là các tệp sẽ được sao chép vì nó không thể chọn chúng làm khối lưu trữ duy nhất.

Các sản phẩm bảo vệ dữ liệu đôi khi nhận biết được việc chống trùng lặp nhưng điều quan trọng là bạn phải xem xét cách mọi thứ tích hợp với nhau.

Khử trùng lặp thủ công

Hầu hết các doanh nghiệp sẽ cố gắng loại bỏ cơ sở dữ liệu của họ theo cách thủ công, chiếm một lượng lớn tài nguyên và thời gian với nguy cơ lỗi lớn do con người gây ra. Ngoài ra, với bộ dữ liệu khổng lồ, hầu như không thể xử lý thủ công mọi thứ.

Ví dụ:điều gì sẽ xảy ra nếu John Smith mua một đôi giày trên trang web của bạn hôm nay. Anh ấy quay lại vào ngày mai nhưng đăng ký với tên J Smith vì anh ấy quên chi tiết đăng nhập của mình. Tuần sau, anh ấy đăng ký lại nhưng bằng một địa chỉ email khác. Tôi chỉ đề cập đến ba trường dữ liệu ở đây, nhưng nó đã bắt đầu phức tạp, vì vậy, hãy tưởng tượng nếu bạn có 200 trường dữ liệu khách hàng, làm cách nào để bạn đảm bảo rằng trường dữ liệu đó là duy nhất?

Điều quan trọng là bạn phải tự mình xây dựng các thuật toán đầy đủ nếu thực hiện quy trình thủ công hoặc mua các công cụ làm sạch dữ liệu để làm việc đó cho bạn, giúp tiết kiệm tất cả thời gian và công sức.

Bản sao lưu

Sao chép có thể sai! Trước khi xóa các bản sao, điều quan trọng là mọi thứ phải được sao lưu và bạn có thể giải quyết mọi vấn đề một cách nhanh chóng. Quay trở lại ví dụ trước đó của chúng ta, điều gì sẽ xảy ra nếu chúng ta phát hiện ra rằng John Smith và J Smith trên thực tế là những người khác nhau và cần lấy lại tài khoản? Bạn cần một quy trình có thể thực hiện điều đó, đây là yêu cầu pháp lý hiện nay ở Liên minh Châu Âu (GDPR).

Chiến lược chống trùng lặp dữ liệu rất quan trọng khi các doanh nghiệp phát triển dấu ấn kỹ thuật số của mình. Với rất nhiều kênh liên lạc, chỉ cần một bản ghi trùng lặp có khả năng tạo ra sự thiên vị và có khả năng dẫn đến các quyết định sai lầm. Điều đó nói rằng, nó phải được thực hiện đúng cách để tránh hậu quả của việc loại bỏ các bản ghi sai hoặc các thuật toán cung cấp sai và làm giảm tốc độ kinh doanh. Đảm bảo rằng việc sao chép dữ liệu được hình thành đầy đủ trong chiến lược quản trị dữ liệu của bạn.


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Các bước trong thiết kế cơ sở dữ liệu là gì?

  2. ALTER tốt hơn DROP

  3. Khám phá Kiểm thử đơn vị Java với Khung kiểm tra JUnit

  4. Làm thế nào để phân tích cú pháp chuỗi giống như một chuyên gia bằng cách sử dụng hàm SUBSTRING () của SQL?

  5. Cách đặt lại mật khẩu người dùng chính Amazon RDS