HBase
 sql >> Cơ Sở Dữ Liệu >  >> NoSQL >> HBase

Bắt đầu với Cơ sở dữ liệu hoạt động của nền tảng dữ liệu Cloudera (COD)

Các khái niệm

Cơ sở dữ liệu hoạt động của Cloudera (COD) là gì?

Cơ sở dữ liệu hoạt động là cơ sở dữ liệu quan hệ và phi quan hệ được xây dựng trên Apache HBase và được thiết kế để hỗ trợ các ứng dụng OLTP sử dụng dữ liệu lớn.

Cơ sở dữ liệu hoạt động trong Nền tảng dữ liệu Cloudera có các thành phần sau:

  • Apache Phoenix cung cấp một mô hình quan hệ tạo điều kiện cho khả năng mở rộng lớn. Nó thúc đẩy khả năng mở rộng và khả năng phục hồi của Apache HBase.
  • Apache HBase cung cấp mô hình không quan hệ được thiết kế để có khả năng mở rộng lớn, vì vậy bạn có thể lưu trữ lượng dữ liệu không giới hạn trong một nền tảng duy nhất và xử lý nhu cầu cung cấp dữ liệu ngày càng tăng.
  • Apache ZooKeeper cung cấp dịch vụ cấu hình phân tán, dịch vụ đồng bộ hóa và đăng ký đặt tên.
  • Apache Knox Gateway cung cấp khả năng bảo mật ngoại vi để doanh nghiệp có thể tự tin mở rộng quyền truy cập cho người dùng mới.
  • Apache HDFS được sử dụng để viết Apache HBase WAL (và HBase HFiles trong một số trường hợp).
  • Các cửa hàng đối tượng như Amazon S3 và Microsoft ADLS Gen2 được sử dụng để lưu trữ các tệp Apache HBase HFiles.
  • Trải nghiệm dữ liệu được chia sẻ (SDX) được sử dụng cho các khả năng quản trị và bảo mật. Các chính sách bảo mật và quản trị được thiết lập một lần và được áp dụng trên tất cả dữ liệu và khối lượng công việc. Cũng giống như bản thân CDP, SDX được xây dựng dựa trên các dự án nguồn mở cộng đồng với Apache Ranger và Apache Atlas luôn tự hào về vị trí.

Atlas cung cấp khả năng quản lý và quản trị siêu dữ liệu mở để xây dựng danh mục tất cả các tài sản, đồng thời phân loại và quản lý các tài sản này. Lớp SDX của CDP tận dụng toàn bộ phạm vi của Atlas để tự động theo dõi và kiểm soát tất cả các nội dung dữ liệu.

Ranger cung cấp tính năng quản lý khóa bảo mật, với thông tin đăng nhập riêng cho các quản trị viên Khóa sử dụng dịch vụ Ranger KMS. Apache Ranger cũng cung cấp các tính năng bảo mật cần thiết như tạo mặt nạ cột và lọc hàng ra khỏi hộp. Một yếu tố quan trọng khác là các chính sách truy cập trong Ranger có thể được tùy chỉnh theo ngữ cảnh động bằng cách sử dụng các thuộc tính khác nhau như "khu vực địa lý" hoặc "thời gian trong ngày".

  • IDBroker là một API REST được xây dựng như một phần của các dịch vụ xác thực của Apache Knox. Nó cho phép người dùng được xác thực và được ủy quyền trao đổi một bộ thông tin xác thực hoặc mã thông báo để lấy mã thông báo truy cập của nhà cung cấp dịch vụ đám mây.

Dịch vụ dữ liệu cơ sở dữ liệu hoạt động của CDP

Cơ sở dữ liệu hoạt động CDP (COD) là cơ sở dữ liệu hoạt động tự động mở rộng quy mô thời gian thực được cung cấp bởi Apache HBase và Apache Phoenix. Đây là một dịch vụ dữ liệu chạy trên Nền tảng Dữ liệu Cloudera (CDP). Bạn có thể truy cập COD ngay từ bảng điều khiển CDP của mình. COD cho phép bạn tạo cơ sở dữ liệu hoạt động mới chỉ với một cú nhấp chuột và tự động phân chia tỷ lệ dựa trên khối lượng công việc của bạn.

Sau đây là các bước quan trọng để bắt đầu với COD:

  • Tạo cơ sở dữ liệu trong môi trường chỉ bằng một cú nhấp chuột và cơ sở dữ liệu sẽ hoạt động và khả dụng trong vòng vài phút.
  • Thiết lập mật khẩu khối lượng công việc của bạn. Để biết thêm thông tin, bấm vào đây.
  • Tải xuống và cài đặt Apache Maven, Java, Python 3.8.
  • Cài đặt Máy khách CDP trên máy của bạn. Để biết thêm thông tin, hãy nhấp vào đây.
  • Làm theo hướng dẫn trong kho lưu trữ ví dụ để thực hiện các thay đổi đối với maven settings-security.xml, settings.xml và pom.xml của bạn.
  • Xây dựng và chạy ứng dụng.

Apache HBase

HBase là một kiến ​​trúc lưu trữ dữ liệu hướng cột được hình thành trên HDFS để khắc phục những hạn chế của nó. Nó tận dụng các tính năng cơ bản của HDFS và dựa trên nó để cung cấp khả năng mở rộng bằng cách xử lý một lượng lớn các yêu cầu đọc và ghi trong thời gian thực. Mặc dù kiến ​​trúc HBase là một cơ sở dữ liệu NoSQL, nhưng nó giúp giảm bớt quá trình duy trì dữ liệu bằng cách phân phối nó đồng đều trên toàn bộ cụm. Điều này giúp cho việc truy cập và thay đổi dữ liệu trong mô hình dữ liệu HBase nhanh chóng. Tìm hiểu thêm về Apache HBase.

Apache Phoenix

Apache Phoenix là một giao diện RDBMS và ANSI SQL. Apache Phoenix thực hiện tối ưu hóa phương pháp hay nhất để cho phép các kỹ sư phần mềm phát triển các ứng dụng hướng dữ liệu thế hệ tiếp theo dựa trên HBase. Sử dụng Phoenix, bạn có thể tạo và tương tác với các bảng dưới dạng các câu lệnh DDL / DML điển hình bằng cách sử dụng API JDBC tiêu chuẩn, ODBC và Phoenix DB API.

Phoenix cung cấp:

  • Hỗ trợ API SQL và JDBC
  • Hỗ trợ giới hạn cuối, lược đồ khi đọc
  • Quyền truy cập vào dữ liệu được lưu trữ và sản xuất trong các thành phần khác như Apache Spark và Apache Hive

Tìm hiểu thêm về Apache Phoenix.

Quy trình

Cách tạo Cơ sở dữ liệu hoạt động

Bạn có thể tạo cơ sở dữ liệu hoạt động trong môi trường đã đăng ký của mình bằng Cơ sở dữ liệu hoạt động CDP (COD).

Điều kiện tiên quyết

  • Bạn phải đăng nhập vào môi trường COD với tư cách là ODAdmin.
  • Đảm bảo rằng bạn được phép tạo cơ sở dữ liệu.

Các bước

  1. Đăng nhập vào giao diện web CDP. Ví dụ:bảng điều khiển CDP.
  2. Chọn Cơ sở dữ liệu hoạt động.
  3. Trong giao diện web COD, nhấp vào Tạo cơ sở dữ liệu.
  4. Chọn môi trường từ danh sách mà bạn muốn có cơ sở dữ liệu.
  5. Cung cấp tên cho cơ sở dữ liệu trong trường Tên cơ sở dữ liệu.
  6. Nhấp vào Tạo cơ sở dữ liệu.

Kết quả

Trang thông tin được hiển thị cho biết trạng thái của cơ sở dữ liệu. Cơ sở dữ liệu mới của bạn đã sẵn sàng để sử dụng sau khi trạng thái của nó trở nên Có sẵn.

Bản trình diễn

Cách quản lý kết nối cơ sở dữ liệu

Sau khi bạn tạo cơ sở dữ liệu hoạt động và nó có sẵn, bạn có thể quản lý các kết nối cơ sở dữ liệu.

Điều kiện tiên quyết

  • Đảm bảo rằng cơ sở dữ liệu được thiết lập và khả dụng.
  • Bạn được phép thực hiện các thay đổi đối với cơ sở dữ liệu.

Các bước

  1. Trong giao diện web COD, hãy chọn cơ sở dữ liệu mà bạn muốn quản lý các kết nối.
  2. Trong phần Kết nối, hãy vào bên trong từng tab và sửa đổi các thông số.

Tài liệu tham khảo

  • Tài liệu của Cloudera về cách tạo cơ sở dữ liệu COD
  • Cơ sở dữ liệu hoạt động trong CDP

Nếu bạn quan tâm đến việc dùng thử Đám mây công cộng CDP và Cơ sở dữ liệu hoạt động, hãy thử của chúng tôi Lái thử .


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Apache HBase Nên và Không nên

  2. HBase znodes là gì?

  3. Điều chỉnh Bộ sưu tập rác Java cho HBase

  4. HBase và Hive - Tốt hơn cùng nhau

  5. Điều gì tiếp theo cho Impala sau khi phát hành 1.1