Trung tâm dữ liệu Cloudera Data Platform (CDP) là một nền tảng dữ liệu hoàn toàn hợp nhất các phân tích nguồn mở mới nhất - Spark, Impala, Hive, HBase, Kafka, Hadoop, v.v. - thành một hệ thống phân tích và quản lý dữ liệu đa chức năng có các tính năng:
- Phân tích SQL hiệu suất cao hơn
- Quản lý và xử lý luồng theo thời gian thực
- Kiểm soát truy cập dựa trên thuộc tính chi tiết
- Lọc cột động và tạo mặt nạ hàng
- Khả năng mở rộng tệp và đối tượng tăng 10 lần
Tôi đã sử dụng mô-đun Terraform (v0.12) triển khai Trung tâm dữ liệu CDP trên Cơ sở hạ tầng đám mây Oracle (OCI).
Mẫu này có hỗ trợ nhắm mục tiêu VCN / Mạng con hiện có để triển khai cụm. Để sử dụng chức năng này, chỉ cần sử dụng hệ thống menu giản đồ để chọn mục tiêu VCN hiện có, sau đó chọn các mạng con thích hợp cho từng loại máy chủ cụm.
1. Tải xuống tệp zip để triển khai Cloudera Terraform với Trình quản lý tài nguyên .
2. Đăng nhập vào Cơ sở hạ tầng đám mây Oracle (OCI)
3. Chọn Trình quản lý tài nguyên và nhấp vào Ngăn xếp
4. Nhấp vào Tạo ngăn xếp .
5. Trên Thông tin ngăn xếp tải lên trang tệp zip mà bạn đã tải xuống ở bước 1, sau đó nhấp vào Tiếp theo .
6. Trên Định cấu hình biến , nhập nội dung của “khóa được cung cấp SSH” (opcional). Lưu ý:Nếu bạn triển khai Trình quản lý Cloudera cho một mạng con riêng, bạn sẽ yêu cầu VPN hoặc Đường hầm SSH thông qua Edge Node để truy cập quản lý cụm. Khi bạn tạo VPC, bạn phải chỉ định một dải địa chỉ IPv4 cho VPC ở dạng khối Định tuyến liên miền không phân lớp (CIDR), ví dụ:10.0.0.0/16. Nhấp vào Tiếp theo .
7. Xác minh cấu hình của bạn và nhấp vào Tạo.
9. Từ Hành động Terraform trình đơn chọn Kế hoạch
10. Nhấp vào Kế hoạch
11. Chờ một chút để công việc này hoàn tất.
12. Terraform đã được khởi tạo thành công.
13. Hoàn thành công việc thành công
14. Sơ đồ hiển thị những gì thường được triển khai bằng cách sử dụng mẫu này. Tài nguyên đó được phân phối tự động giữa các “Miền lỗi” trong “Miền khả dụng” để đảm bảo khả năng chịu lỗi.
Tài liệu tham khảo
Tìm hiểu về cách triển khai Hadoop trên Cơ sở hạ tầng đám mây Oracle. Có tại https://docs.oracle.com/en/solutions/learn-deploy-hadoop-oci/index.html#GUID-6BC025FF-829B-4BBD-9C80-69044F61F35B
Dễ dàng triển khai Hadoop trên Cơ sở hạ tầng đám mây Oracle bằng Trình quản lý tài nguyên. Có tại https://blogs.oracle.com/cloud-infraosystem/deploy-hadoop-easily-on-oracle-cloud-infraosystem-using-resource-manager
Cloudera trên Cơ sở hạ tầng đám mây Oracle (Mẫu triển khai Terraform). Có tại https://github.com/oracle-quickstart/oci-cloudera
Tổng quan về Trình quản lý tài nguyên. Có thể sử dụng tại https://docs.cloud.oracle.com/en-us/iaas/Content/ResourceManager/Concept/resourcemanager.htm
Trung tâm dữ liệu CDP. Có sẵn tại https://docs.cloudera.com/cdp/latest/overview/topics/cdpdc-overview.html