Database
 sql >> Cơ Sở Dữ Liệu >  >> RDS >> Database

Phân tích dữ liệu lớn với công cụ Microsoft Azure

Dữ liệu lớn

Dữ liệu lớn mô tả khối lượng lớn dữ liệu, có cấu trúc hoặc không có cấu trúc, tràn ngập doanh nghiệp hàng ngày. Dữ liệu lớn xử lý các cách để phân tích, trích xuất thông tin hoặc xử lý các tập dữ liệu quá lớn hoặc phức tạp để xử lý bằng phần mềm xử lý dữ liệu thông thường.

Dữ liệu lớn có các đặc điểm sau:

  • Âm lượng: Số lượng dữ liệu được tạo và lưu trữ
  • Đa dạng: Loại và bản chất của dữ liệu
  • Vận tốc: Tốc độ tạo và xử lý dữ liệu
  • Tính xác thực: Chất lượng dữ liệu và giá trị dữ liệu

Ảnh hưởng của Azure đến Dữ liệu lớn

Microsoft Azure chuyển đổi dữ liệu thành thông tin chi tiết hữu ích bằng cách sử dụng các công cụ học máy. Nó cho phép bạn kết hợp mọi dữ liệu ở bất kỳ quy mô nào, đồng thời xây dựng và triển khai các mô hình học máy trên quy mô lớn.

Với các sản phẩm Azure sau, các phân tích nâng cao có thể được thực hiện trên Dữ liệu lớn:

  • Kho dữ liệu SQL
  • Nhà máy dữ liệu
  • Bộ nhớ Azure BLOB
  • Cơ sở dữ liệu Azure
  • Cơ sở dữ liệu Azure Cosmos
  • Power BI

Hãy xem xét từng người trong số họ.

Kho dữ liệu SQL

Kho dữ liệu SQL là EDW (Kho dữ liệu doanh nghiệp) dựa trên đám mây sử dụng Xử lý song song hàng loạt (một số lượng lớn các bộ xử lý thực hiện một tập hợp các phép tính song song) để chạy các truy vấn phức tạp trên hàng petabyte dữ liệu.

Bạn chỉ cần nhập dữ liệu lớn vào Kho dữ liệu SQL bằng các truy vấn PolyBase T-SQL (truy vấn đọc dữ liệu từ Hadoop), sau đó, với sức mạnh của MPP, chạy phân tích hiệu suất cao. Kho dữ liệu sau đó sẽ trở thành một phiên bản duy nhất của sự thật mà bạn có thể tin tưởng vào để hiểu rõ hơn.

Nhà máy dữ liệu

Data Factory là một dịch vụ tích hợp dữ liệu đám mây, tạo ra các dịch vụ lưu trữ, di chuyển và xử lý dữ liệu thành các đường ống dẫn dữ liệu tự động. Azure Data Factory là một dịch vụ tích hợp dữ liệu kết hợp cho phép bạn tạo, lên lịch và sắp xếp các luồng công việc ETL / ELT (Trích xuất, Chuyển đổi, Tải).

Bộ nhớ Azure BLOB

Bộ lưu trữ Azure BLOB là bộ lưu trữ đối tượng có khả năng mở rộng cực lớn cho các tài liệu, hình ảnh, video và âm thanh phi cấu trúc. Bộ nhớ Azure BLOB được tối ưu hóa để lưu trữ một lượng lớn dữ liệu phi cấu trúc (dữ liệu không tuân theo một mô hình hoặc định nghĩa dữ liệu cụ thể), chẳng hạn như dữ liệu văn bản hoặc dữ liệu nhị phân.

Bộ lưu trữ Azure BLOB có các chức năng sau:

  • Cung cấp tài liệu hoặc hình ảnh trực tiếp tới trình duyệt
  • Lưu trữ tệp để truy cập phân tán
  • Truyền trực tuyến âm thanh và video
  • Ghi vào tệp nhật ký
  • Lưu trữ dữ liệu để phục hồi sau thảm họa, sao lưu và khôi phục cũng như lưu trữ

Azure Databricks

Azure Databricks là một nền tảng phân tích dựa trên Apache Spark (khuôn khổ điện toán cụm đa mục đích chung được phân phối mã nguồn mở, cung cấp giao diện cho các cụm lập trình với tính song song dữ liệu ngầm).

Cơ sở dữ liệu Azure Cosmos

Azure Cosmos DB là một dịch vụ cơ sở dữ liệu phân tán toàn cầu. Nó được thiết kế để cung cấp độ trễ thấp, khả năng mở rộng linh hoạt của thông lượng, ngữ nghĩa được xác định rõ ràng cho tính nhất quán của dữ liệu và tính sẵn sàng cao.

Power BI

Power BI là một bộ công cụ phân tích kinh doanh cung cấp thông tin chi tiết. Power BI cho phép bạn kết nối với nhiều nguồn dữ liệu, đơn giản hóa việc chuẩn bị dữ liệu, thúc đẩy phân tích đột xuất, cũng như tạo báo cáo để sử dụng trên Web và trên các thiết bị di động.

Kết luận

Dữ liệu lớn đã phát triển và không ngừng phát triển. Với sự trợ giúp của các công cụ Azure, Dữ liệu lớn ngày càng trở nên dễ quản lý hơn.


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Một lý do khác để tránh sp_updatestats

  2. Làm việc với Dữ liệu JDBC trong Domo

  3. Cách theo dõi tình trạng của các phiên bản cơ sở dữ liệu

  4. SQL, thêm dữ liệu vào bảng

  5. Cách chọn hàng đầu tiên trong mỗi nhóm theo nhóm