HBase
 sql >> Cơ Sở Dữ Liệu >  >> NoSQL >> HBase

Cloudera Replication Plugin cho phép nhân rộng nền tảng x cho Apache HBase

Nền tảng dữ liệu Cloudera (CDP) là dịch vụ cung cấp Dữ liệu lớn mới nhất từ ​​Cloudera. Nó bao gồm Apache HBase và Phoenix như một phần của nền tảng. Hai thành phần này được cung cấp trong 3 yếu tố hình thức:

  1. Đối với triển khai tại chỗ, chúng có sẵn theo cách tương tự như CDH &HDP (trong dịch vụ CDP Private Cloud)
  2. Đối với những khách hàng muốn tự quản lý cơ sở dữ liệu trong AWS &Azure, nó có sẵn như một phần của cung cấp CDP Public Cloud DataHub (với mẫu Cơ sở dữ liệu hoạt động hoặc trong Tùy chỉnh Triển khai DataHub)
  3. Nó sẽ có sẵn như một phần của Cơ sở dữ liệu hoạt động của Cloudera (COD) trong thời gian tới, đây là một dịch vụ được quản lý hoàn toàn loại bỏ chi phí quản lý khi vận hành triển khai HBase

Các khách hàng Apache HBase của Cloudera thường chạy các ứng dụng quan trọng mà không có thời gian ngừng hoạt động. Họ cần một cách để chuyển sang một triển khai mới mà không bị ngừng sản xuất hoặc ít nhất là ngừng hoạt động. Với những cân nhắc nâng cấp này, đặc biệt là với việc sắp hết hỗ trợ cho CDH5 và HDP 2, chúng tôi đã phát triển Cloudera OpDB Replication Plugin .

Nhiều công ty cũng triển khai các cụm HBase dựa trên CDH 6, HDP 3 và EMR nhưng đang tìm cách giảm hoặc loại bỏ chi phí hoạt động của việc duy trì các cụm HBase. Đối với họ, Plugin sao chép OpDB Cloudera có thể cho phép họ chuyển sang DataHub hoặc COD mà không phải chịu bất kỳ thời gian ngừng hoạt động hoặc ngừng sản xuất nào.

Plugin nhân bản hỗ trợ sao chép từ các cụm HBase nguồn sau:

  • CDH 5.14
  • CDH 6.3
  • HDP 2.6.5
  • HDP 3.1.5
  • EMR 5,28

Bản sao HBase

HBase đã cung cấp khả năng sao chép hoàn thiện, giàu tính năng trong gần một thập kỷ. Nhân bản là một trong những khả năng phổ biến nhất của HBase vì nó cung cấp giải pháp tự động phục hồi sau thảm họa (DR), hỗ trợ di chuyển dữ liệu, hỗ trợ phân vùng khối lượng công việc và / hoặc hỗ trợ chỉ mục phụ dựa trên tìm kiếm thông qua tích hợp với Apache Solr. Phần thảo luận chi tiết về cách hoạt động của HBase Replication và cách định cấu hình sao chép được giải thích trong Hướng dẫn tham khảo HBase và đã được thảo luận trong nhiều bài viết trên Blog Cloudera. Ngày nay, nó hỗ trợ nhiều cấu trúc liên kết bao gồm:

  • Người hâm mộ
  • Fan-out
  • Theo chu kỳ
  • Hai hướng

Bản sao HBase có thể được định cấu hình ở không gian tên (tức là cơ sở dữ liệu) hoặc cấp bảng. Trong bản chất gần như thời gian thực, nó có thể được định cấu hình để cuối cùng nhất quán hoặc nhất quán theo dòng thời gian.

Plugin sao chép Cloudera OpDB chỉ hỗ trợ cụm đích được cung cấp bởi Cụm CDP DataHub hoặc bởi cơ sở dữ liệu COD, được triển khai trong AWS hoặc Azure.

Thiết lập lòng tin

Bản sao HBase cho đến nay đã yêu cầu tất cả các cụm tham gia phải có cùng định nghĩa bảo mật, nói cách khác, tất cả các cụm phải không được kích hoạt bảo mật (cấu hình xác thực được đặt thành đơn giản) hoặc tất cả các cụm phải được bật bảo mật bằng kerberos (cấu hình xác thực được đặt thành kerberos) .

Khi Kerberos được sử dụng, tất cả các nguyên tắc kerberos của cụm phải thuộc cùng một lĩnh vực, hoặc nếu ở các lĩnh vực khác nhau, thì chúng phải đáng tin cậy giữa nhau (thường được gọi là xuyên cảnh giới xác thực).

Định cấu hình tin cậy xuyên quốc gia với Kerberos là một vấn đề trong hầu hết các tổ chức vì các chính sách bảo mật của công ty thường cấm điều đó. Để giải quyết vấn đề này, plugin Cloudera OpDB Replication mở rộng bản sao HBase để sử dụng một phương pháp xác thực thay thế, cho phép sao chép trên các miền bảo mật. Plugin Replication cho phép sao chép

  • Trên nhiều miền Kerberos mà không yêu cầu sự tin cậy giữa các lĩnh vực
  • Sao chép từ các cụm an toàn sang không an toàn và
  • Sao chép từ các cụm không an toàn sang an toàn.

Để thiết lập sự tin cậy từ các cụm CDP cho các cụm không có cấu hình bảo mật hoặc được bảo mật bằng cách sử dụng Kerberos, Plugin nhân bản triển khai cơ chế xác thực mới bằng cách sử dụng bí mật được chia sẻ được tạo bằng công cụ được cung cấp và được lưu trữ trong cả cụm nguồn và đích.

Kết luận

Nhân rộng là một công cụ có giá trị để thực hiện các giải pháp di chuyển DR và ​​trung tâm dữ liệu (DC) cho HBase. Nó có một số lưu ý, như được hiển thị ở đây khi xử lý các cấu hình bảo mật của cụm. Với việc CDH 5 và HDP 2 sắp hết vòng đời, khả năng di chuyển dữ liệu từ các nền tảng kế thừa này sang CDP là bắt buộc.

Đối với những khách hàng có triển khai HBase dựa trên HDP3, CDH6 và EMR 5.28, plugin này cho phép những khách hàng này áp dụng liên tục giải pháp HBase được quản lý hoàn toàn và giảm đáng kể chi phí hoạt động của việc quản lý HBase.

Liên hệ với nhóm tài khoản Cloudera của bạn nếu bạn quan tâm đến việc triển khai Plugin sao chép OpDB Cloudera trong môi trường của bạn.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Sử dụng COD và CML để xây dựng các ứng dụng dự đoán dữ liệu kho

  2. Hướng dẫn:Lập chỉ mục Dữ liệu từ S3 Sử dụng Trung tâm Dữ liệu CDP

  3. Bảng mẫu HBase

  4. Xây dựng ứng dụng học máy với bàn làm việc và cơ sở dữ liệu hoạt động của khoa học dữ liệu Cloudera, Phần 1:Thiết lập và kiến ​​thức cơ bản

  5. Cloudera Impala:Truy vấn thời gian thực trong Apache Hadoop, dành cho thực