HBase
 sql >> Cơ Sở Dữ Liệu >  >> NoSQL >> HBase

Sao chép cơ sở dữ liệu hoạt động của Cloudera trong một Nutshell

Trong bài đăng trên blog trước đây, chúng tôi đã cung cấp tổng quan cấp cao về Plugin sao chép Cloudera, giải thích cách nó mang lại sự sao chép đa nền tảng với ít cấu hình. Trong bài đăng này, chúng tôi sẽ đề cập đến cách plugin này có thể được áp dụng trong các cụm CDP và giải thích cách plugin cho phép xác thực mạnh mẽ giữa các hệ thống không chia sẻ sự tin cậy xác thực lẫn nhau.

Sử dụng Plugin sao chép cơ sở dữ liệu hoạt động

Plugin sao chép cơ sở dữ liệu hoạt động có sẵn cả dưới dạng plugin độc lập cũng như được cài đặt tự động thông qua Trình quản lý nhân bản Cloudera. Plugin cho phép khách hàng thiết lập sao chép dữ liệu HBase gần như thời gian thực từ các cụm CDH / HDP / AWS EMR / Azure HDInsight sang CDP Private Cloud Base và / hoặc Cơ sở dữ liệu hoạt động CDP (COD) trong Public Cloud. Nó cũng được triển khai tự động khi sử dụng Cloudera Replication Manager để thiết lập nhân rộng giữa CDP Private Cloud Base và COD hoặc giữa các phiên bản COD trong Public Cloud. Cloudera Replication Manager cũng cho phép kết hợp tính năng chụp nhanh HBase cùng với plugin này để quản lý việc sao chép dữ liệu đã có từ trước trong một thiết lập duy nhất.

Để biết hướng dẫn cài đặt, vui lòng tham khảo Chính sách sao chép HBase chủ đề về Trình quản lý nhân rộng tài liệu chính thức.

Đối với các phiên bản CDH / HDP kế thừa, plugin được cung cấp dưới dạng gói để chỉ được cài đặt trong cụm kế thừa.

  • CDH 5.x
  • CDH 6.x
  • HDP 2.6
  • HDP 3.1
  • EMR 5.x &6.x

Bưu kiện bị khóa phiên bản với các mã nhị phân của phiên bản cụ thể. Đối với mỗi phiên bản được đề cập ở trên, nó nên được mua trên cơ sở từng cụm. Hãy liên hệ với nhóm bán hàng Cloudera của bạn nếu bạn muốn có được bất kỳ thứ nào trong số đó.

Chi tiết Triển khai

Trở ngại được giải quyết bằng Plugin sao chép cơ sở dữ liệu hoạt động là xác thực lẫn nhau giữa các cụm dưới các cấu hình bảo mật khác nhau. Nhắc lại bài đăng trên blog trước đó, bản sao mặc định của HBase yêu cầu cả hai cụm hoặc không được định cấu hình để bảo mật hoặc cả hai đều được định cấu hình bảo mật. Trong trường hợp sau, cả hai cụm phải ở trong cùng một vùng kerberos hoặc có xác thực vùng chéo được thiết lập trên hệ thống kerberos. Đây sẽ là một thách thức bổ sung trong bối cảnh CDP, nơi mỗi môi trường chạy trên một lĩnh vực bảo mật khép kín. Để hiểu chi tiết hơn về vấn đề này, chúng ta cần xem lại cách triển khai bảo mật Apache HBase.

Sử dụng SASL để thiết lập lòng tin

Trong bản sao HBase, các Máy chủ Vùng trong cụm nguồn liên hệ với Máy chủ Vùng trong cụm mục tiêu thông qua các kết nối RPC. Khi bảo mật được bật, xác thực được thực hiện ở giai đoạn thiết lập kết nối RPC bằng cách sử dụng khuôn khổ Xác thực đơn giản và Lớp bảo mật ( SASL). HBase đã cung cấp nội trang sau Xác thực SASL cơ chế: kerberos, tiêu hóa đơn giản. Khi kerberos được bật, thông tin đăng nhập từ cụm nguồn sẽ được nhóm đích mong đợi, sau đó sẽ xác thực các thông tin xác thực này dựa trên KDC của chính nó, bằng cách sử dụng SASL kerberos cơ chế. Điều này dựa vào kerberos GSSAPI triển khai để xác thực thông tin đăng nhập được cung cấp chống lại cụm mục tiêu KDC, do đó, sự tin cậy cho chính cụm nguồn phải được thực hiện ở cấp hệ thống kerberos, bằng cách có cả hai thông tin đăng nhập cụm trên cùng một lĩnh vực hoặc làm cho cụm mục tiêu KDC tin tưởng vào thông tin xác thực từ lĩnh vực cụm nguồn (một cách tiếp cận thường được gọi là lĩnh vực chéo xác thực).

Mở rộng xác thực HBase SASL

May mắn thay, SASL được thiết kế để cho phép triển khai xác thực tùy chỉnh. Điều đó có nghĩa là một giải pháp dựa trên SASL có thể được thiết kế, nếu một cơ chế SASL bổ sung có thể được cắm vào tập hợp các tùy chọn nội trang được đề cập ở trên. Với mục đích đó, Cloudera đã đề xuất tái cấu trúc lớp RPC của HBase, lớp này đã được cộng đồng Apache HBase xem xét và chấp nhận trong HBASE-23347 .

Cơ chế SASL có thể cài đặt

Với những thay đổi được giới thiệu bởi HBASE-23347 , các cơ chế xác thực SASL bổ sung có thể được xác định thông qua cấu hình HBase sẽ được sử dụng bởi lớp RPC. Các kết nối RPC đến xác định loại SASL cụ thể trong tiêu đề, sau đó máy chủ RPC chọn triển khai cụ thể để thực hiện xác thực thực tế:

Plugin sao chép cơ sở dữ liệu hoạt động triển khai cơ chế SASL tùy chỉnh của nó, cho phép các cụm trên các lĩnh vực kerberos khác nhau giao tiếp với các nỗ lực cấu hình liền mạch (mà không cần kerberos xuyên lĩnh vực ). Nó mở rộng sao chép HBase để nguồn đó tạo mã thông báo SASL của Plugin sao chép loại tùy chỉnh, với thông tin xác thực từ người dùng máy được xác định trước trên cụm COD mục tiêu. Có thể dễ dàng tạo loại người dùng này từ Bảng điều khiển quản lý Cloudera Giao diện người dùng , và sau đó được truyền đến cụm COD bên dưới cơ quan xác thực kerberos. Hướng dẫn chi tiết về cách tạo người dùng máy nhân bản được đề cập trong phần các bước yêu cầu trước của tài liệu Trình quản lý nhân bản Cloudera.

Khi máy chủ RPC trong mục tiêu đọc mã thông báo và xác định đó là một Plugin sao chép loại, thông tin xác thực liên quan được phân tích cú pháp từ mã thông báo và được sử dụng để xác thực.

Plugin sao chép cơ sở dữ liệu hoạt động sử dụng xác thực PAM để xác thực thông tin đăng nhập của người dùng máy. Các cụm COD luôn được cung cấp với xác thực PAM dựa trên miền bảo mật FreeIPA trong môi trường CDP.

Bảo mật thông tin đăng nhập của người dùng máy

Một vấn đề quan trọng trong giải pháp này là cụm nguồn phải lấy thông tin xác thực từ người dùng máy của cụm mục tiêu. Vì những lý do rõ ràng, điều đó không nên được tiết lộ bằng bất kỳ phương tiện nào trên cấu hình nguồn. Các thông tin xác thực này cũng được gửi qua dây trong mã thông báo SASL trong kết nối RPC, vì vậy nó phải được mã hóa trước khi truyền. Plugin Replication cung cấp công cụ riêng để tạo jceks tệp lưu trữ thông tin đăng nhập của người dùng máy, được mã hóa. Khi tệp này được tạo, nó phải được sao chép vào cả hai cụm và làm cho hbase có thể đọc được chỉ người dùng. Sơ đồ dưới đây cho thấy tổng quan triển khai của Plugin sao chép cơ sở dữ liệu hoạt động các thành phần tích hợp với các lớp sao chép HBase tiêu chuẩn trong ngữ cảnh của Máy chủ Vùng. Các hộp màu hồng đại diện cho bản sao và mã kết nối RPC đã được HBase cung cấp, trong khi các hộp màu vàng hiển thị lớp trừu tượng được giới thiệu trong HBASE-23347. Cuối cùng, các lớp màu cam làm nổi bật các tạo tác có liên quan triển khai Plugin sao chép cơ sở dữ liệu hoạt động logic.

Kết luận

Nhân rộng là một công cụ có giá trị để thực hiện các giải pháp di chuyển DR và ​​DC cho HBase. Nó có một số cảnh báo, như được hiển thị ở đây, khi xử lý các cấu hình bảo mật của cụm. Tuy nhiên, khả năng di chuyển dữ liệu từ các triển khai “tại chỗ” hiện tại sang các cụm CDP trên đám mây là bắt buộc. Plugin sao chép cơ sở dữ liệu hoạt động của Cloudera mang lại sự linh hoạt khi tích hợp các cụm được bảo mật, cùng với khả năng bảo trì tốt hơn cho tích hợp bảo mật này, vì nó được triển khai hoàn toàn ở cấp HBase, trái ngược với kerberos cross-field, yêu cầu thay đổi định nghĩa hệ thống kerberos, thường là trách nhiệm của một nhóm hoàn chỉnh khác, với các chính sách hạn chế của riêng mình.

Hãy thử mẫu Cơ sở dữ liệu hoạt động trong Nền tảng dữ liệu Cloudera (CDP)!


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Hadoop RecordReader Giới thiệu, Làm việc &Các loại

  2. Khối dữ liệu HDFS - Tìm hiểu nội dung bên trong của Big Data Hadoop

  3. Các mẫu kiến ​​trúc để xử lý dữ liệu gần thời gian thực với Apache Hadoop

  4. nên HBase của bạn bị hỏng

  5. InputSplit trong Hadoop MapReduce là gì?