HBase
 sql >> Cơ Sở Dữ Liệu >  >> NoSQL >> HBase

Cơ sở dữ liệu hoạt động trong CDP

Ghi chú của người biên tập, tháng 8 năm 2020:Trung tâm dữ liệu CDP hiện được gọi là Cơ sở đám mây riêng CDP. Bạn có thể tìm hiểu thêm về nó tại đây.

Cơ sở dữ liệu hoạt động của Cloudera (OpDB) trong CDP cung cấp OpDB theo thời gian thực, luôn sẵn có, có thể mở rộng, cung cấp dữ liệu có cấu trúc truyền thống cùng với dữ liệu phi cấu trúc mới trong một nền tảng Vận hành và Kho hàng hợp nhất. Cloudera cung cấp cơ sở dữ liệu hoạt động phục vụ dữ liệu có cấu trúc truyền thống cùng với dữ liệu phi cấu trúc mới trong một nền tảng nguồn mở thống nhất.

Cơ sở dữ liệu hoạt động giúp bạn:

Vận hành máy học / trí tuệ nhân tạo để cách mạng hóa các lĩnh vực như chăm sóc sức khỏe, tiện ích công cộng, v.v.

  • Phân phát nội dung theo thời gian thực trên trang web.
  • Trao quyền phân tích dữ liệu lớn cho các mục đích sử dụng ngoại tuyến và hoạt động.
  • Sử dụng như một kho lưu trữ hồ sơ linh hoạt.

OpDB trong CDP hiện có sẵn ở hai dạng:dưới dạng dịch vụ bán quản lý, bảo mật hoàn toàn trong Trung tâm dữ liệu - Đám mây công cộng của CDP và dưới dạng dịch vụ hoàn toàn có thể tùy chỉnh trong Trung tâm dữ liệu CDP - tương tự như những gì đã có trong CDH và HDP. Bạn có thể chọn hệ số hình thức dựa trên chiến lược triển khai và nhu cầu OpDB của mình. Cơ sở dữ liệu hoạt động sử dụng một kho lưu trữ đối tượng như Amazon S3 làm lớp lưu trữ cho Apache HBase, nơi các tệp HF được ghi vào kho lưu trữ đối tượng, nhưng WAL được ghi vào HDFS.

Cơ sở dữ liệu hoạt động trong CDP có các thành phần sau:

  • Apache Phoenix một giao diện SQL chạy trên Apache HBase.
  • Apache HBase được thiết kế để có khả năng mở rộng lớn, vì vậy bạn có thể lưu trữ lượng dữ liệu không giới hạn trong một nền tảng duy nhất và xử lý nhu cầu cung cấp dữ liệu ngày càng tăng.
  • Apache ZooKeeper cung cấp dịch vụ cấu hình phân tán, dịch vụ đồng bộ hóa và đăng ký đặt tên.
  • Apache Knox Gateway cung cấp khả năng bảo mật ngoại vi để doanh nghiệp có thể tự tin mở rộng quyền truy cập cho người dùng mới.
  • Apache HDFS được sử dụng để viết Apache HBase WAL.
  • Object store chẳng hạn như Amazon S3 và Microsoft ADLS Gen2 được sử dụng để lưu trữ Apache HBase HFiles.
  • Chia sẻ Dữ liệu Trải nghiệm (SDX) được sử dụng cho các khả năng quản trị và bảo mật. Các chính sách quản trị và bảo mật được đặt một lần và được áp dụng trên tất cả dữ liệu và khối lượng công việc.
  • IDBroker là API REST được xây dựng như một phần của các dịch vụ xác thực của Apache Knox. Nó cho phép người dùng được xác thực và được ủy quyền trao đổi một bộ thông tin xác thực hoặc mã thông báo để lấy mã thông báo truy cập của nhà cung cấp dịch vụ đám mây.

Cơ sở dữ liệu hoạt động trong chuỗi CDP

Bài viết này đã giới thiệu cho bạn về OpDB trên CDP và kiến ​​trúc của nó. Bạn có thể tìm hiểu thêm về từng khía cạnh của OpDB và tìm hiểu về các tính năng và khả năng mới của OpDB trong các bài viết sắp tới của loạt bài này. Chúng tôi sẽ cập nhật các liên kết đến từng bài đăng trên blog khi chúng được xuất bản.

Khả năng tiếp cận

Cloudera’s OpDB đảm bảo rằng người dùng có thể truy cập hoặc truy xuất dữ liệu được lưu trữ. Nó hỗ trợ cả tính năng tự động sharding và sharding được xác định trước, ba công cụ truy vấn và một số công cụ tích hợp dữ liệu. Bài viết này cung cấp tổng quan về các khả năng này và các tính năng khác đảm bảo đạt được mức khả năng truy cập cao.

Quản trị

Cloudera’s OpDB cung cấp một số công cụ và tính năng quản trị để quản lý khối lượng công việc OpDB của bạn. Quản trị viên có thể triển khai OpDB dưới dạng dịch vụ bán quản lý, hoàn toàn an toàn trong Trung tâm dữ liệu - Đám mây công cộng CDP và dưới dạng dịch vụ hoàn toàn có thể tùy chỉnh trong Trung tâm dữ liệu CDP (tương tự như những gì có sẵn trong CDH và HDP). Bài viết này cung cấp cho bạn tổng quan cấp cao về những tính năng và công cụ nào được hỗ trợ để quản lý OpDB trong CDP.

Quản lý

Cloudera’s OpDB cung cấp các công cụ quản lý giúp bạn quản lý hiệu quả khối lượng công việc OpDB của mình. Bài viết này cung cấp cho bạn tổng quan về các công cụ và tính năng quản lý OpDB trong CDP.

Tính khả dụng

Cloudera’s OpDB duy trì mức độ sẵn có của dữ liệu, đảm bảo dữ liệu được yêu cầu có thể truy cập được khi nào và ở đâu cần thiết, ngay cả khi xảy ra lỗi nút. Bài viết này cung cấp tổng quan về các tính năng tạo ra mức độ sẵn sàng cao, chẳng hạn như Tính sẵn sàng cao, Sao chép dữ liệu và Bảo vệ Lỗi.

Tính chính trực

OpDB của Cloudera cung cấp các khả năng toàn vẹn dữ liệu khác nhau bao gồm tính toàn vẹn của thực thể và miền, các giao dịch ACID và tính toàn vẹn không tương quan. Bài viết này cung cấp tổng quan về các khả năng toàn vẹn dữ liệu OpDB.

Hỗ trợ Ứng dụng

Cloudera’s OpDB hỗ trợ nhiều ngôn ngữ, khuôn khổ và ứng dụng phổ biến khác nhau mà bạn có thể sử dụng để truy cập dữ liệu được lưu trữ trong OpDB của mình. Bài viết này cung cấp cho bạn tổng quan về các ngôn ngữ, khuôn khổ và ứng dụng được hỗ trợ.

NoSQL và các khả năng liên quan

Vì OpDB của Cloudera bao gồm HBase cơ sở dữ liệu NoSQL để lưu trữ dữ liệu, nó có các khả năng của NoSQL, chẳng hạn như giá trị khóa, khả năng kiểu bảng và kiểu dữ liệu linh hoạt. Tích hợp chặt chẽ trên toàn bộ hệ sinh thái Hadoop cũng được cung cấp, bao gồm HDFS, Spark và Kafka. Bài viết này cung cấp một cái nhìn tổng quan về những khả năng này.

Khả năng mở rộng

Cloudera’s OpDB được thiết kế để có khả năng mở rộng cao, hỗ trợ cả khả năng mở rộng theo chiều dọc và chiều ngang với kiểu dữ liệu linh hoạt và không giới hạn về kích thước dữ liệu. Bài viết này cung cấp tổng quan về các tính năng và công cụ liên quan đến khả năng mở rộng được hỗ trợ.

Bảo mật

OpDB của Cloudera cung cấp nhiều giải pháp bảo mật ở các cấp độ khác nhau, liên quan đến mã hóa, xác thực, ủy quyền và kiểm tra. Bài viết này cung cấp tổng quan về các tính năng và công cụ liên quan đến bảo mật này.

Để biết thêm thông tin, vui lòng truy cập:Bắt đầu với Cơ sở dữ liệu hoạt động.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. HDFS Disk Balancer Giới thiệu, Hoạt động &Tính năng

  2. Apache Spark đi kèm với Apache HBase với Mô-đun HBase-Spark

  3. Cách thực hiện:Sử dụng tính năng Tải hàng loạt của HBase và tại sao

  4. Sao chép cơ sở dữ liệu hoạt động của Cloudera trong một Nutshell

  5. Kiểm tra hiệu suất HBase bằng YCSB