Database
 sql >> Cơ Sở Dữ Liệu >  >> RDS >> Database

Giới thiệu về Khai thác dữ liệu

Lưu ý:Bài viết này ban đầu được soạn thảo vào năm 2015, nhưng đã được cập nhật vào năm 2019 để phản ánh sự tích hợp mới giữa IRI Voracity và Knime (dành cho Konstanz Information Miner), hiện là nền tảng khai thác dữ liệu nguồn mở mạnh mẽ nhất hiện có.

Khai phá dữ liệu là khoa học thu thập kiến ​​thức từ dữ liệu, điển hình là các tập dữ liệu lớn, trong đó thông tin có ý nghĩa, xu hướng và những hiểu biết hữu ích khác cần được khám phá. Khai thác dữ liệu sử dụng học máy và các phương pháp thống kê để trích xuất các "khối" thông tin hữu ích từ những gì nếu không sẽ là một tập dữ liệu rất đáng sợ.

Khai thác dữ liệu trải dài trên nhiều lĩnh vực máy tính và toán học. Nó không phải là một quá trình đơn nhất vì nó là một thuật ngữ chung cho một tập hợp các hành động. Bốn tác vụ lớn được thực hiện trong khi khai thác bao gồm:phân tích dữ liệu khám phá (EDA), mô hình hóa mô tả, mô hình dự đoán và khám phá mẫu.

EDA sử dụng các phương pháp trực quan hóa thống kê thông thường hoặc các phương pháp đồ họa độc đáo để xem liệu có thể tìm thấy điều gì thú vị trong dữ liệu hay không.

Trong mô hình mô tả, dữ liệu được chuyển đến một quy trình và tạo ra các động từ (trình tạo dữ liệu) hoặc tính từ (mô tả dữ liệu) đứng sau sự hình thành dữ liệu. Điều này bao gồm các phương pháp liên kết dữ liệu với mô hình phân phối xác suất, phân cụm và phụ thuộc.

Mô hình dự đoán sử dụng các phương pháp hồi quy và phân loại để thiết lập một tiêu chuẩn cho việc dự đoán các điểm dữ liệu chưa biết trong tương lai. Hồi quy là một phân tích toán học thuần túy phù hợp với một phương trình với một tập dữ liệu để dự đoán giá trị tiếp theo. Mô hình dự đoán cũng có thể dựa trên các quy tắc mẫu và các xu hướng quan hệ (hoặc thậm chí xác định cụ thể nguyên nhân và kết quả) đã được phát hiện bằng cách sử dụng phương pháp Phân tích dữ liệu lôgic (LAD).

Khám phá mẫu thông qua LAD phân loại các quan sát mới theo phân loại trước đây của các quan sát và sử dụng các hàm tối ưu hóa, tổ hợp và Boolean để cải thiện độ chính xác của phân tích.

Phần lớn, các phương pháp này chỉ có thể chỉ ra các mục nhập dữ liệu nào có liên quan chứ không thể chỉ ra lý do tại sao hoặc cách chúng liên quan. Có thể giải thích điều gì đặc trưng cho một lớp / cụm từ khác bằng cách tìm các quy tắc hoặc mẫu này và các chủ đề được liệt kê theo nhiều cách khác nhau tùy thuộc vào chính dữ liệu.

Các ứng dụng để khai thác dữ liệu có thể bao gồm từ tiếp thị kinh doanh đến y học, từ phát hiện gian lận trong ngân hàng và bảo hiểm đến thiên văn học, từ quản lý nguồn nhân lực đến ngành tiếp thị danh mục, v.v. Các chuyên gia y tế đã thấy rằng nó hữu ích để phân biệt giữa các thuộc tính của những người có tỷ lệ tiến triển bệnh khác nhau. Các cửa hàng bán lẻ hiện đang sử dụng khai thác dữ liệu để hiểu rõ hơn về thói quen chi tiêu của người tiêu dùng, lưu ý những mặt hàng được mua cùng nhau và mối quan hệ của chúng, cũng như cách tốt nhất để quảng cáo đến khách hàng của họ. Và phần lớn thế giới doanh nghiệp hiện nay dựa vào khai thác dữ liệu để tính toán, thực thi và biện minh cho các quyết định kinh doanh lớn.

Tuy nhiên, như mọi người đều biết gần đây trên phương tiện truyền thông đưa tin dữ dội về vụ bê bối hồ sơ điện thoại NSA-Verizon, việc khai thác dữ liệu cũng có thể gây tranh cãi cực kỳ lớn. Đề phòng trường hợp bạn đang sống dưới một tảng đá, đây là bản tóm tắt ngắn gọn:

Vào ngày 5 tháng 6 năm 2013, nhật báo Anh có tên The Guardian đã công bố một báo cáo độc quyền rằng hàng triệu hồ sơ khách hàng từ Verizon, một trong những nhà cung cấp viễn thông lớn nhất ở Hoa Kỳ, đã được Cơ quan An ninh Quốc gia Hoa Kỳ thu thập, theo một lệnh mật. từ Tòa án Giám sát Tình báo Nước ngoài của Hoa Kỳ. Dịch vụ mạng kinh doanh của Verizon đã buộc phải chuyển giao tất cả siêu dữ liệu điện thoại do nhà cung cấp dịch vụ di động tạo ra ở Hoa Kỳ và nước ngoài. Kết quả là, những lời chỉ trích lưỡng đảng và phổ biến đối với chính quyền Obama sau đó đã nổ ra từ các nhóm vận động dân quyền và các hãng thông tấn, cho rằng tổng thống lạm dụng quyền hành pháp. Không có giải pháp nào về sự cố này được đưa ra trước khi viết bài báo này. Nhưng chắc chắn, nó sẽ vẫn là một ví dụ điển hình về cách khai thác dữ liệu đôi khi có thể bị nhìn nhận theo hướng tiêu cực, đặc biệt là đối với các mối quan tâm về quyền riêng tư và công chúng.

Khi xử lý khối lượng lớn dữ liệu tĩnh hoặc động, chắc chắn sẽ có các vấn đề về hiệu suất liên quan đến tính toán và I / O. Với cơ sở dữ liệu chứa hàng terabyte và exabyte dữ liệu, việc tìm hiểu dữ liệu có thể mất rất nhiều thời gian và các thuật toán khai thác cần phải chạy rất hiệu quả. Một số khó khăn khác bao gồm trang bị quá nhiều và dữ liệu nhiễu.

Trang bị quá mức thường có nghĩa là không có đủ dữ liệu tốt. Mô hình dữ liệu (trong trường hợp này là mô tả toàn cục của dữ liệu) trở nên quá phức tạp vì có quá nhiều tham số so với số lượng quan sát. Điều này làm phóng đại những biến động nhỏ trong dữ liệu, do đó làm ảnh hưởng đến độ tin cậy của mô hình làm cơ sở để đưa ra dự đoán.

Mặt khác, dữ liệu ồn ào đề cập đến quá nhiều loại dữ liệu sai. Dữ liệu vô nghĩa, sai, không có cấu trúc (không thể đọc được) hoặc bị hỏng làm tăng yêu cầu lưu trữ và / hoặc yêu cầu phân tích thống kê được loại bỏ trước khi nó có thể cản trở độ chính xác của việc khai thác dữ liệu. Các thuật toán khai thác dữ liệu tốt sẽ tính đến dữ liệu nhiễu.

Khai phá dữ liệu là một bước trong một quy trình lớn hơn được gọi là khám phá tri thức trong cơ sở dữ liệu (KDD). Đầu tiên KDD bắt đầu với việc chuẩn bị dữ liệu:lựa chọn, xử lý trước và chuyển đổi dữ liệu, nơi bạn xác định những gì bạn muốn nghiên cứu và thiết lập nó theo cách có thể được khai thác. Đó là biểu diễn dữ liệu dưới dạng ma trận m-n và với biểu diễn số của phần tử của mỗi vectơ dữ liệu. Tiếp theo, bạn của tôi. Và cuối cùng, bạn phải sử dụng noggin cũ để giải thích và phân tích thông tin đó. Sau đó, nếu các mô hình và xu hướng ẩn vẫn chưa đủ rõ ràng, bạn phải tìm hiểu sâu hơn một chút.

Vai trò của IRI trong quá trình khai thác dữ liệu và KDD là sẵn sàng và cấu trúc lại dữ liệu lớn để phân tích thông qua nhiều chức năng chuyển đổi dữ liệu hiệu suất cao. Cụ thể, gói thao tác dữ liệu IRI CoSort có thể nhanh chóng lọc, thao tác và định dạng lại dữ liệu để nó có thể được xử lý bằng các thuật toán khai thác dữ liệu giống như các bộ phần mềm khai thác dữ liệu này. CoSort cũng là công cụ xử lý dữ liệu mặc định trong nền tảng quản lý dữ liệu IRI Voracity, được thiết kế cho một loạt các công việc lập hồ sơ, chuẩn bị và xử lý dữ liệu.

Đối với những người làm việc với CoSort trong IRI Workbench GUI, BIRT là một trình cắm thêm Eclipse miễn phí với khả năng báo cáo đồ họa và thông minh kinh doanh bao gồm một số tính năng phân tích và khai thác. Cả CoSort và BIRT Analytics đều sử dụng IDE Eclipse. Với hỗ trợ trình điều khiển dữ liệu Open Data Access (ODA) đi vào CoSort, việc tích hợp luồng dữ liệu giữa hai plugin cũng liền mạch và cho phép phân tích những gì xảy ra nhanh hơn.

Đối với những người làm việc với Voracity trong năm 2019 và hơn thế nữa, chúng tôi khuyên bạn nên cài đặt nhà cung cấp cốt lõi cho Nền tảng Knime Analytics miễn phí vào IRI Workbench. Trong cùng một ô kính Eclipse, nút nguồn (nhà cung cấp) Voracity cho Knime có thể chuyển dữ liệu thô do Voracity chuẩn bị trong bộ nhớ cho các nút Knime cho các ứng dụng yêu cầu phân tích thống kê và dự đoán, khai thác dữ liệu và máy / học sâu, mạng thần kinh và trí tuệ nhân tạo.

Những người đóng góp cho bài viết này bao gồm Roby Poteau và David Friedland


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. SQL GIỮA-Các mẹo thông minh để quét tìm một loạt các giá trị

  2. Cách sử dụng LIKE trong SQL

  3. Thông tin liên hệ đang phát triển có nghĩa là thay đổi cơ sở dữ liệu của bạn không?

  4. Tránh tự ảo tưởng về Giải pháp HA / DR

  5. Lập mô hình cơ sở dữ liệu để ghi lại doanh số bán hàng. Phần 1