Ghi chú của người biên tập, tháng 8 năm 2020:Trung tâm dữ liệu CDP hiện được gọi là Cơ sở đám mây riêng CDP. Bạn có thể tìm hiểu thêm về nó tại đây.
Giới thiệu
Bài đăng trên blog này là một phần của loạt bài về Cơ sở dữ liệu hoạt động của Cloudera (OpDB) trong CDP. Mỗi bài đăng đi vào chi tiết hơn về các tính năng và khả năng mới. Bắt đầu từ phần đầu của loạt bài với, Cơ sở dữ liệu hoạt động trong CDP.
Bài đăng trên blog này cung cấp cho bạn tổng quan về các công cụ và tính năng quản trị cơ sở dữ liệu hoạt động (OpDB) trong Nền tảng dữ liệu Cloudera. Nó có sẵn ở hai dạng hiện nay:dưới dạng dịch vụ bán quản lý, hoàn toàn bảo mật trong Trung tâm dữ liệu - Đám mây công cộng CDP và dưới dạng dịch vụ hoàn toàn có thể tùy chỉnh trong Trung tâm dữ liệu CDP (tương tự như những gì có sẵn trong CDH và HDP). Để biết thêm thông tin về Trung tâm dữ liệu, hãy xem Trung tâm dữ liệu Cloudera.
Hình 1:Cụm trung tâm dữ liệu OpDB.
Bạn có thể sử dụng các liên kết trong bài viết này để biết thêm thông tin và hướng dẫn sử dụng các tính năng này.
Tạo và kiểm soát cơ sở dữ liệu
Không gian tên Apache HBase là các nhóm bảng logic tương tự như một cơ sở dữ liệu trong hệ thống cơ sở dữ liệu quan hệ truyền thống. Không gian tên có thể được tạo hoặc quản lý thông qua Apache HBase Shell. Để biết thêm thông tin về cách sử dụng trình bao Apache HBase, hãy xem tổng quan về trình bao Apache HBase.
Với Trình quản lý nhân bản &Kiểm lâm trong hình với CDP, bạn chỉ có thể tạo không gian tên và quản lý nó trong HBase shell. Nhưng quyền là thông qua Ranger và sao chép là thông qua Replication Manager.
Cũng giống như trong cơ sở dữ liệu quan hệ, không gian tên chứa tập hợp các bảng và quyền, cài đặt sao chép và cách ly tài nguyên. Bạn có thể đặt các cấu hình này ở cấp không gian tên. Trong CDP, bạn có thể tạo một không gian tên và quản lý nó bằng cách sử dụng HBase shell. Bạn có thể sử dụng Apache Ranger cho các chính sách ủy quyền chi tiết và kiểm tra. Để biết thêm thông tin về cách thiết lập bảo mật trong CDP, hãy xem Bảo mật bằng Ranger.
Replication Manager giúp bạn tạo các chính sách sao chép HBase. Bạn có thể sử dụng Trình quản lý nhân bản để thiết lập sao chép giữa CDH / HDP hoặc Apache HBase tới Trung tâm dữ liệu CDP.
Hình 2:Tạo giao diện người dùng chính sách sao chép
Chức năng DDL và DCL đồ họa
Có một số công cụ được cung cấp cho việc này bao gồm các plugin dành cho:
- Cloudera Machine Learning (CML):CML giúp bạn truy vấn dữ liệu bằng ứng dụng khách HBase và Phoenix, đồng thời giúp bạn khám phá, trực quan hóa, chia sẻ và cộng tác dữ liệu tương tác. OpDB có thể được sử dụng để lưu trữ kết quả dự đoán Phiên / Công việc / Mô hình để nhiều người dùng khác nhau truy vấn sau này.
Hình 3:Giao diện người dùng Học máy Cloudera
- Hue:Hue là một trình soạn thảo truy vấn tương tác dựa trên web cho phép bạn tương tác với các kho dữ liệu. Bạn có thể sử dụng ứng dụng HBase Browser ở Huế để tạo và duyệt các bảng HBase.
Hình 4:Giao diện Hue hỗ trợ tìm kiếm, chèn, cập nhật, xóa, DDL cho HBase
Bạn có thể sử dụng giao diện SQL bằng Impala hoặc Hive để xử lý truy vấn ở Huế.
Hình 5:Giao diện SQL sử dụng Impala
Dưới đây là hướng dẫn tạo bảng mẫu trong HBase bằng Hue:https://gethue.com/hadoop-tutorial-how-to-create-example-tables-in-hbase/
- Eclipse:Định dạng mã HBase cho Eclipse rất hữu ích khi chỉnh sửa mã HBase trong Eclipse. Để biết thêm thông tin, hãy xem Xây dựng và Phát triển Apache HBase.
Các công cụ như Zeppelin và Hue cùng với các plugin của chúng được cung cấp ngay lập tức. Tuy nhiên, bạn cũng có thể sử dụng các tiện ích SQL của bên thứ ba như Toad.
Các công cụ để nâng cấp bản phát hành cơ sở dữ liệu hoạt động
Bạn có thể sử dụng Trình quản lý Cloudera để tự động hóa quá trình nâng cấp cơ sở dữ liệu hoạt động trong Trung tâm Dữ liệu-Nền tảng Dữ liệu Cloudera (CDP-DC) của bạn. Các bản nâng cấp được cung cấp thông qua các bản phát hành hoặc các bản vá bảo trì. Cloudera Manager cài đặt các bản phát hành và / hoặc các bản vá và quản lý cấu hình cũng như quá trình khởi động lại.
Nếu bạn đang sử dụng CDP trên đám mây công cộng, chẳng hạn như Amazon AWS, bạn phải tạo một cụm Trung tâm dữ liệu mới để nâng cấp lên phiên bản mới của các thành phần khác nhau. Để biết thêm thông tin về cách tạo cơ sở dữ liệu hoạt động mới Cụm trung tâm dữ liệu, hãy xem Bắt đầu với Cơ sở dữ liệu hoạt động trên CDP.
Sản phẩm của Cloudera là sản phẩm theo cụm; tất cả các nâng cấp và bản vá đều trải dài trên nhiều nút (máy chủ) và cài đặt, cấu hình, khởi động lại đều được tự động hóa, bao gồm cả khởi động lại lần lượt nếu có.
Công cụ quản lý bản vá trên nhiều máy chủ
Trong Trung tâm dữ liệu CDP, Trình quản lý Cloudera cài đặt các bản phát hành và quản lý cấu hình. Cloudera Manager cũng thực hiện quá trình khởi động lại cho từng thành phần bị ảnh hưởng.
Ứng dụng vá lỗi thời gian chết
Trong Trung tâm dữ liệu CDP, Trình quản lý Cloudera cho phép bạn áp dụng các bản vá lỗi với thời gian chết bằng không.
Quản lý thay đổi trên nhiều máy chủ
Bạn có thể thực hiện quản lý thay đổi trên các lược đồ cơ sở dữ liệu trong nhiều trường hợp. Ví dụ:bạn có thể thực hiện việc này trên môi trường thử nghiệm / nhà phát triển, dàn dựng hoặc sản xuất của mình.
Bạn có thể viết kịch bản các thay đổi được yêu cầu bằng cách sử dụng vỏ HBase, sau đó truyền nó sang các trường hợp khác.
Để biết thêm thông tin về cách sử dụng HBase shell, hãy xem Apache HBase shell.
Phân vùng khối lượng công việc
Bạn có thể thực hiện phân vùng Khối lượng công việc / ứng dụng trong OpDB bằng cách sử dụng một số công cụ tùy thuộc vào bản chất của nhóm khối lượng công việc và nhu cầu dữ liệu của chúng.
Nếu tất cả các ứng dụng đều truy cập các bảng riêng biệt, thì các nhóm máy chủ vùng có thể được sử dụng để dành một tập hợp các nút cho một tập hợp các bảng hoặc không gian tên đã xác định, tạo ra một cách tiếp cận phân vùng phần cứng. Để biết thêm thông tin về các nhóm máy chủ vùng, hãy xem Sử dụng Nhóm Máy chủ Vùng.
Đối với các ứng dụng sử dụng cùng một tập hợp bảng, bạn có thể sử dụng điều chỉnh RPC, hạn ngạch người dùng và hạn ngạch không gian để quản lý vấn đề hàng xóm ồn ào. Xem phần quản lý báo giá của HBase để biết thêm chi tiết kỹ thuật.
Bạn cũng có thể kết hợp hai bộ tùy chọn này để có một sơ đồ phân vùng phức tạp hơn. Sử dụng Trình quản lý Cloudera để đảm bảo rằng các dịch vụ cụ thể được phân vùng thích hợp giữa các nút khác nhau của cụm; ví dụ:bạn có thể quyết định các nút nào nên được sử dụng để tìm kiếm SOLR, v.v.
Phân vùng phần cứng
Cloudera Manager và YARN đều tận dụng các nhóm Linux và quản lý bộ nhớ hoạt động cho cả phân vùng tĩnh và động của tài nguyên phần cứng.
Đầu tiên, tất cả các tiến trình đang chạy trên tất cả các máy chủ có thể được phân vùng cứng bằng các nhóm, do Trình quản lý Cloudera thiết lập. Thứ hai, trình hướng dẫn cho phép người dùng xác định cách bố trí của các phân vùng tĩnh cho các dịch vụ bằng cách đặt tỷ lệ phần trăm, tự động dịch cách ly CPU và I / O dựa trên cgroup, đồng thời đặt giới hạn bộ nhớ bằng cách tự định cấu hình dịch vụ.
Cuối cùng, trình quản lý tài nguyên gốc cung cấp một mô hình vùng chứa cho khối lượng công việc đặt từng đơn vị công việc rời rạc vào một vùng chứa, sử dụng cgroups và quản lý bộ nhớ hoạt động (thiết lập, giám sát và hủy) để cô lập ứng dụng.
Người giám sát phần mềm
Các trình siêu giám sát phần mềm sau được hỗ trợ
- VMware được hỗ trợ cho môi trường tại chỗ
- Môi trường ảo của Microsoft's Azure (ngăn xếp Azure)
- Amazon Web Services, ảo hóa của Google Compute Platform và Microsoft Azure được hỗ trợ trên Đám mây.
Hỗ trợ vùng chứa và điều phối
Cloudera cung cấp một hình ảnh Docker có Apache HBase, Apache ZooKeeper và Cloudera Manager được cài đặt trên đó. Bạn có thể định cấu hình YARN để quản lý các vùng chứa Docker của mình và gửi các công việc Apache HBase tới YARN trên cùng một vùng chứa hoặc gửi các công việc tới YARN từ một vùng chứa khác.
Để biết thêm thông tin, hãy xem Quản lý vùng chứa Docker trên YARN.
Khôi phục các bản vá hoặc Bản nâng cấp
Cloudera Manager cung cấp tính năng tự động hóa cho một số quy trình khôi phục. Việc nâng cấp đôi khi có thể liên quan đến những thay đổi trong định dạng dữ liệu. Công cụ để hoàn tác các thay đổi định dạng không được hỗ trợ và bạn phải kích hoạt khôi phục dữ liệu từ các bản sao lưu để việc khôi phục có thể sử dụng dữ liệu cũ.
Di chuyển nhiều nền tảng hệ điều hành
Các công cụ sao lưu / khôi phục / khôi phục dữ liệu tiêu chuẩn của Cloudera có sẵn để hỗ trợ việc di chuyển OpDB giữa các hệ điều hành khác nhau.
Các chiến lược sao lưu và khôi phục sau thảm họa của HBase đảm bảo rằng dữ liệu của bạn được sao lưu để bảo vệ bạn khỏi bị mất dữ liệu. Ảnh chụp nhanh HBase cho phép bạn chụp ảnh nhanh bảng mà không ảnh hưởng nhiều đến Máy chủ vùng. Cũng bởi vì các hoạt động chụp nhanh, sao chép và khôi phục không liên quan đến việc sao chép dữ liệu.
Để biết thêm thông tin về sao lưu HBase và thảm họa, hãy xem các chiến lược sao lưu và khôi phục thảm họa của HBase.
Công cụ quản trị cơ sở dữ liệu (DBA)
Có nhiều công cụ hỗ trợ quản lý cơ sở dữ liệu, bao gồm:
- Người quản lý Cloudera
- Vỏ HBase
- Huế
- HBCK2
- hbtop
- Ranger
- Atlas
- FreeIPA
- navencrypt
- Công cụ HDFS
- SỢI
Các công cụ này cung cấp các chỉ số và giám sát, khởi động lại cụm, thêm nhập, quản lý vòng đời, nâng cấp, bảo mật, thiết lập Kerberos và các tính năng khác.
Hình 6:Giao diện HBase của Cloudera Manager
Hình 7:Các chỉ số và giám sát trong Cloudera Manager:
Hình 8:Khởi động lại cụm trong Trình quản lý Cloudera
Ngoài các công cụ này, bạn cũng có thể sử dụng các công cụ quản trị bên thứ ba và mã nguồn mở sau:
- hrider
- HADMIN
Mở giao diện dạng tài liệu cho các công cụ quản lý của bên thứ ba
Chúng tôi cũng cung cấp các API mở để cho phép sử dụng các công cụ khác để quản lý OpDB. Ví dụ:giao diện JMX có thể được sử dụng để tích hợp với các công cụ giám sát của bên thứ ba như Grafana.
Kết luận
Trong bài đăng trên blog này, chúng tôi đã xem xét cách bạn có thể sử dụng các công cụ và khả năng quản trị khác nhau do OpDB cung cấp trong CDP. Trong bài viết tiếp theo, chúng tôi sẽ đề cập đến cách bạn có thể sử dụng các khả năng quản lý trong OpDB, hãy xem tại đây.