Khả năng truy cập cơ sở dữ liệu hoạt động

Bài đăng trên blog này là một phần của loạt bài về Cơ sở dữ liệu hoạt động của Cloudera (OpDB) trong CDP. Mỗi bài đăng đi vào chi tiết hơn về các tính năng và khả năng mới. Bắt đầu từ phần đầu của loạt bài với, Cơ sở dữ liệu hoạt động trong CDP.

Cloudera’s OpDB cung cấp nhiều khả năng để lưu trữ và truy cập dữ liệu. Trong bài đăng blog này, chúng ta sẽ xem xét các khả năng hỗ trợ tiếp cận của OpDB và cách bạn có thể sử dụng các khả năng này để truy cập dữ liệu của mình.

Phân phối và phân đoạn

Cơ sở dữ liệu hoạt động của Cloudera (OpDB) là Hệ thống quản lý cơ sở dữ liệu (DBMS) quy mô lớn được thiết kế để chia tỷ lệ tuyến tính đến Petabyte dữ liệu. Giống như tất cả các DBMS, việc mở rộng quy mô được thực hiện thông qua sharding. Hai chính sách sharding khác nhau được hỗ trợ:

Tự động làm sắc nét
Sharding xác định trước

Bất kể cách tiếp cận nào, đều có các API để cho phép sharding dựa trên hàm băm, phạm vi giá trị và sự kết hợp của cả hai.

Tự động làm sắc nét

Khi bật tính năng tự động làm sắc nét, các bảng được phân phối động trên toàn cụm và khi kích thước phân đoạn vượt quá giới hạn có thể định cấu hình, phân đoạn sẽ tự động được phân chia và di chuyển giữa các máy chủ trong một cụm.

Một phân đoạn bảng được chia thành hai ở phím giữa, tạo ra hai nửa gần như bằng nhau và hai nửa đó có thể được phục vụ bởi các máy chủ khác nhau.

Tính năng phân bổ tự động được áp dụng bất kể mạng được sử dụng với OpDB (WAN hoặc cục bộ). Các cụm có thể được thiết lập để mở rộng một mạng WAN, trong trường hợp này, quá trình phân mảnh và di chuyển dữ liệu sẽ diễn ra trên toàn mạng WAN mà không mất dữ liệu.

Hệ thống có thể được định cấu hình để nhận biết các nút nằm trong trung tâm dữ liệu nào, điều này cung cấp khả năng phục hồi bổ sung cho các phân đoạn vì các bản sao của các phân đoạn có thể được phân phối trên nhiều trung tâm dữ liệu.

sharding được xác định trước

Các phân đoạn có thể được giới hạn trong các tập hợp con cụ thể của các nút trong một cụm dựa trên chính sách, thường theo cách dành riêng cho đối tượng thuê. Điều đó cho phép thực hiện các chính sách dựa trên địa lý. Sau đó, các bảng có thể được sao chép giữa các cụm và được thiết lập bởi các chính sách để đảm bảo rằng việc sao chép các bảng và các phân đoạn được liên kết bị giới hạn ở các khu vực địa lý mong muốn.

Cloudera’s OpDB cung cấp hỗ trợ riêng cho chủ quyền dữ liệu. Nếu một cụm trải dài nhiều quốc gia, các nhóm máy chủ khu vực có thể được sử dụng để cố định dữ liệu ở các quốc gia cụ thể cùng với cấu hình cách ly HDFS Rack.

Truy vấn

Cloudera cung cấp ba công cụ truy vấn được tối ưu hóa cho các loại trường hợp sử dụng khác nhau, cả giao diện hoạt động và phân tích, và giao diện NoSQL để cho phép hiệu suất được tối ưu hóa trên phạm vi rộng của cả khối lượng công việc hoạt động và kho dữ liệu. Điều này cho phép thực hiện các truy vấn và kết hợp dữ liệu trên nhiều phân đoạn.

Cloudera’s OpDB cung cấp công cụ SQL OLTP gốc hỗ trợ truy vấn nhiều dữ liệu và mô hình đối tượng bao gồm truy vấn và kết hợp giữa chúng. Hai trong số các công cụ truy vấn OLAP của chúng tôi có thể được sử dụng để ánh xạ các bảng bên ngoài nằm trong OpDB của chúng tôi (hoặc ở các vị trí khác) và có thể truy vấn hoặc kết hợp chúng cho các truy vấn phân tích phức tạp hơn, điển hình là lưu trữ dữ liệu

Công cụ tích hợp dữ liệu

Cloudera cung cấp nhiều công cụ để cho phép tích hợp với kho dữ liệu và xử lý truy vấn liên kết.

Ví dụ:

Tính năng xuất hàng loạt sang kho dữ liệu được cung cấp bởi Flink, Spark, Hive và MapReduce
Quá trình xuất trực tuyến vào kho dữ liệu do Nifi cung cấp
Truy vấn dữ liệu tại chỗ trong OpDB của chúng tôi do Phoenix, Impala và Hive cung cấp
Xử lý truy vấn liên kết trên OpDB, giải pháp kho dữ liệu và giải pháp kho dữ liệu của bên thứ ba do Hive cung cấp

Hỗ trợ dữ liệu bên ngoài

Cloudera’s OpDB bao gồm nhiều công cụ Hadoop và tích hợp với hầu hết hệ sinh thái Hadoop.

OpDB của chúng tôi cung cấp giao diện NoSQL và SQL. Không có giới hạn nào đối với giao diện này và nó được hỗ trợ rất tốt trong cộng đồng Hadoop.

OpDB di động

MiNiFi có thể được sử dụng trên các thiết bị di động ở rìa và cung cấp kết nối dữ liệu với OpDB.

Trình chỉnh sửa truy vấn HUE có thể chạy trên thiết bị di động hoặc thiết bị di động.

Kết nối dựa trên tiêu chuẩn

Cloudera cung cấp cả trình điều khiển JDBC &ODBC được cung cấp thông qua các công cụ SQL của chúng tôi ngoài quyền truy cập API trực tiếp vào kho dữ liệu và công cụ của chúng tôi.

Trong bài đăng trên blog này, chúng tôi đã xem xét một số khả năng hỗ trợ tiếp cận của OpDB như truy vấn dữ liệu, tích hợp dữ liệu và kết nối. Trong bài viết tiếp theo, chúng tôi sẽ đề cập đến cách bạn có thể sử dụng các khả năng quản trị trong OpDB, hãy tìm nó tại đây.

Để biết thêm thông tin, vui lòng truy cập:Bắt đầu với Cơ sở dữ liệu hoạt động.