Database
 sql >> Cơ Sở Dữ Liệu >  >> RDS >> Database

Trực quan hóa dữ liệu bằng Apache Zeppelin - Hướng dẫn

Trong thế giới ngày nay, dữ liệu đang được tạo với tốc độ cấp số nhân, đến mức các nhà phân tích dự đoán việc tạo dữ liệu toàn cầu của chúng tôi sẽ tăng gấp 10 lần vào năm 2025. Các doanh nghiệp hiện đang thu thập dữ liệu trên mọi hệ thống nội bộ và nguồn bên ngoài tác động đến công ty của họ; và cùng với đó là nhu cầu phân tích dữ liệu ngày càng tăng để có được cái nhìn sâu sắc về cách nó có thể được sử dụng để cải thiện và nâng cao các quyết định kinh doanh của họ. Apache Zeppelin, một nền tảng trực quan hóa và phân tích dữ liệu nguồn mở, có thể giúp chúng ta đi một chặng đường dài để đạt được mục tiêu đó.

Trong bài viết này, bạn sẽ tìm hiểu cách thêm trình thông dịch tùy chỉnh cho MongoDB và MySQL cũng như cách sử dụng nó để truy vấn và trực quan hóa dữ liệu thu thập. Trước tiên, hãy bắt đầu với tổng quan về Apache Zeppelin và bộ tính năng của nó:

Apache Zeppelin là gì?

Apache Zeppelin là một “sổ ghi chép” dựa trên web, mã nguồn mở cho phép phân tích dữ liệu tương tác và các tài liệu cộng tác. Máy tính xách tay được tích hợp với các hệ thống xử lý dữ liệu phân tán, có mục đích chung như Apache Spark (xử lý dữ liệu quy mô lớn), Apache Flink (khung xử lý luồng) và nhiều hệ thống khác. Apache Zeppelin cho phép bạn tạo các tài liệu đẹp, theo hướng dữ liệu, tương tác với SQL, Scala, R hoặc Python ngay trong trình duyệt của bạn.

Tính năng của Apache Zeppelin

Giao diện tương tác

Apache Zeppelin có giao diện tương tác cho phép bạn xem ngay kết quả phân tích và kết nối ngay lập tức với tác phẩm của bạn:

Sổ tay trình duyệt

Tạo sổ ghi chép chạy trong trình duyệt của bạn (cả trên máy và từ xa) và thử nghiệm với các loại biểu đồ khác nhau để khám phá tập dữ liệu của bạn:

Tích hợp

Tích hợp với nhiều công cụ dữ liệu lớn, mã nguồn mở khác nhau như dự án Apache Spark, Flink, Hive, Ignite, Lens và Tajo.

Biểu mẫu động

Tự động tạo biểu mẫu nhập ngay trong sổ tay của bạn.

Cộng tác và Chia sẻ

Một cộng đồng nhà phát triển đa dạng và sôi động cho phép bạn truy cập vào các nguồn dữ liệu mới liên tục được bổ sung và phân phối thông qua giấy phép nguồn mở Apache 2.0 của họ.

Người phiên dịch

Khái niệm trình thông dịch Apache Zeppelin cho phép bất kỳ ngôn ngữ / dữ liệu-xử lý-phụ trợ nào được cắm vào Zeppelin. Hiện tại, Apache Zeppelin hỗ trợ nhiều trình thông dịch như Apache Spark, Python, JDBC, Markdown và Shell.

Bây giờ, hãy bắt đầu tạo trình thông dịch tùy chỉnh của bạn cho MongoDB và MySQL.

Thêm trình thông dịch MySQL

Trong nền tảng Apache Zeppelin, đi tới trình đơn thả xuống ở trên cùng bên phải và nhấp vào Trình thông dịch:

Đây là nơi bạn có thể tìm thấy danh sách tất cả các thông dịch viên. Chúng tôi cần tạo một cái mới cho MySQL, vì vậy hãy nhấp vào nút “Tạo” ở góc trên bên phải:

Nhập tên dễ nhận biết cho trình thông dịch (ví dụ:mysql) và chọn nhóm là JDBC:

Giữ tất cả các tùy chọn mặc định, nhưng nhập các chi tiết bắt buộc và đảm bảo rằng kết nối với máy chủ MySQL của bạn được thiết lập:

Chúng tôi cũng cần thêm một cấu phần tùy chỉnh vào JAR của trình kết nối MySQL để Zeppelin biết vị trí thực thi nó từ đâu. Tải xuống trình kết nối tại đây, đặt nó vào thư mục trình thông dịch / jdbc và sau đó cung cấp đường dẫn chính xác đến cấu phần phần mềm:

Và thế là xong! Để kiểm tra trình thông dịch của chúng tôi, chúng tôi cần tạo một ghi chú mới. Nhưng trước tiên, hãy thiết lập trình thông dịch MongoDB của chúng tôi.

Thêm trình thông dịch MongoDB

Quay lại trang Thông dịch viên của bạn và nhấp vào nút “Tạo”. Chúng tôi sẽ sử dụng trình thông dịch MongoDB nguồn mở này, vì vậy, tiếp theo bạn cần tải xuống tệp .zip và đổi tên tệp thành .jar.

Sau đó, đi tới trình thông dịch /, tạo thư mục mongodb / và dán .jar vào thư mục.

Bạn hiện có nhóm Thông dịch viên mới được gọi là mongodb. Truy cập trang Thông dịch viên của bạn, nhập tên thân thiện như mongodb, sau đó chọn mongodb trong menu thả xuống Nhóm thông dịch viên.

Bây giờ, hãy nhập chi tiết cụm ScaleGrid MongoDB mới tạo của chúng tôi vào “Thuộc tính” trong trang Chi tiết cụm trong phần Tổng quan / Máy.

Và chúng tôi đã hoàn thành! Bây giờ đã đến lúc thử nghiệm các trình thông dịch mới được tạo của chúng tôi.

Tạo ghi chú Zeppelin

Để chạy các truy vấn sẽ giúp trực quan hóa dữ liệu của chúng tôi, chúng tôi cần tạo ghi chú. Từ ngăn tiêu đề Zeppelin, hãy nhấp vào “Notebook”, sau đó nhấp vào “Tạo ghi chú mới”:

Đảm bảo tiêu đề sổ tay hiển thị trạng thái được kết nối như được biểu thị bằng một chấm màu xanh lục ở góc trên cùng bên phải:

Khi tạo ghi chú, bạn sẽ thấy một hộp thoại để nhập thêm thông tin. Chọn trình thông dịch mặc định làm mysql mới được tạo của chúng tôi và nhấp vào “Tạo ghi chú”.

Chạy truy vấn trên ghi chú

Trước khi chúng ta có thể chạy bất kỳ truy vấn nào, chúng tôi cũng cần đề cập đến loại trình thông dịch mà chúng tôi sẽ sử dụng cho ghi chú của chúng tôi. Chúng tôi có thể làm điều đó bằng cách bắt đầu ghi chú của chúng tôi với “% mysql”. Điều này sẽ cho Zeppelin biết mong đợi các truy vấn MySQL trong ghi chú đó.

Và bây giờ, chúng tôi đã sẵn sàng truy vấn cơ sở dữ liệu của mình. Với mục đích của ví dụ này, tôi sẽ sử dụng cài đặt WordPress của mình có chứa bảng wp_options điển hình để truy vấn và trực quan hóa dữ liệu của nó.

Nó hoạt động! Giờ đây, bạn có thể nhấp vào các biểu đồ khác nhau để trực quan hóa dữ liệu ở các định dạng biểu đồ khác nhau.

Tương tự, đối với MongoDB, hãy đảm bảo rằng bạn có dữ liệu trong cụm MongoDB. Bạn có thể thêm một số bằng cách đi tới Tab Quản trị và chạy các truy vấn Mongo.

Dưới đây là ví dụ về một số dữ liệu MongoDB trong ghi chú:

Chia sẻ liên kết đến ghi chú của bạn

Bây giờ dữ liệu của bạn đã sẵn sàng để hiển thị và truy vấn, bạn có thể muốn giới thiệu nó với nhóm của mình. Bạn có thể làm điều này rất dễ dàng bằng cách tạo một liên kết có thể chia sẻ tới ghi chú:

Liên kết có thể chia sẻ này sẽ khả dụng cho mọi người xem và bạn cũng có thể chọn chỉ chia sẻ liên kết đến một biểu đồ cụ thể:

Kết luận của Apache Zeppelin

Apache Zeppelin là một công cụ vô cùng hữu ích cho phép các nhóm quản lý và phân tích dữ liệu với nhiều tùy chọn trực quan hóa khác nhau, bảng và các liên kết có thể chia sẻ để cộng tác. Dưới đây là một số liên kết hữu ích để giúp bạn bắt đầu:

Tải xuống Apache Zeppelin

Trình thông dịch MongoDB

Trình kết nối MySQL

Bạn cũng có thể khám phá các cách khác để trực quan hóa dữ liệu của mình thông qua MongoDB GUI, bao gồm bốn cách hàng đầu:MongoDB Compass, Robomongo, Studio 3T và MongoBooster.

Như thường lệ, nếu bạn xây dựng một thứ gì đó tuyệt vời, hãy tweet cho chúng tôi về nó @scalegridio

Nếu bạn cần trợ giúp về việc lưu trữ và quản lý Redis ™ *, hãy liên hệ với chúng tôi theo địa chỉ [email protected] để biết thêm thông tin.


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Thủ tục lưu trữ để lấy thông tin lưu trữ máy chủ trong máy chủ

  2. Các kế hoạch khác nhau cho các máy chủ giống hệt nhau

  3. Sử dụng ODBC với Dịch vụ Đăng nhập Một lần của Salesforce và Active Directory (ADFS) (SSO)

  4. Các nguyên tắc cơ bản về biểu thức bảng, Phần 2 - Các bảng có nguồn gốc, cân nhắc logic

  5. ReadyCloud ReadyShipper X