HBase
 sql >> Cơ Sở Dữ Liệu >  >> NoSQL >> HBase

Cách thực hiện:Thêm Tìm kiếm Cloudera vào Cụm của bạn bằng Trình quản lý Cloudera

Cloudera Manager 4.7 đã thêm hỗ trợ để quản lý Cloudera Search 1.0. Do đó, người dùng Cloudera Manager có thể dễ dàng triển khai tất cả các thành phần của Cloudera Search (bao gồm cả Apache Solr) và quản lý tất cả các dịch vụ liên quan, giống như mọi dịch vụ khác có trong CDH (Cloudera’s phân phối Apache Hadoop và các dự án liên quan).

Trong cách thực hiện này, bạn sẽ tìm hiểu các bước liên quan đến việc thêm Tìm kiếm Cloudera vào cụm Cloudera Enterprise (Trình quản lý CDH + Cloudera).

Cài đặt gói SOLR

Trong ví dụ của chúng tôi, cụm sử dụng gói CDH 4.4 và đang chạy các dịch vụ Apache ZooKeeper, HDFS và Apache HBase. (Bưu kiện là một cách thực sự hữu ích để triển khai phần mềm mới và nâng cấp dễ dàng thông qua Trình quản lý Cloudera.)

Nếu bạn muốn tải xuống trực tiếp bưu kiện SOLR từ Cloudera, bạn có thể sử dụng cài đặt mặc định cho “URL kho lưu trữ bưu kiện từ xa” (trong Parcels trong tab Quản trị) như được hiển thị bên dưới:

Đặt URL kho lưu trữ Bưu kiện

Nếu bạn muốn sử dụng kho lưu trữ cục bộ (nghĩa là trước tiên tải xuống gói từ Cloudera và sau đó cài đặt từ bản sao cục bộ), bạn có thể làm theo hướng dẫn tại đây. Các bước tiếp theo là “Tải xuống”, “Phân phối” và “Kích hoạt” bưu kiện từ trang Parcels trên tab Host.

Triển khai gói SOLR

Sau khi gói được kích hoạt, bạn có tất cả các thành phần của Cloudera Search (Solr, Lily HBase Indexer và Apache Flume’s Morphlines Sink) sẵn sàng được sử dụng cùng với CDH.

Bước tiếp theo là thêm dịch vụ Apache Solr vào cụm của bạn. Trong menu “Hành động” của cụm của bạn trên tab Dịch vụ, hãy chọn “Thêm dịch vụ”, thao tác này sẽ đưa bạn đến “Trình hướng dẫn thêm dịch vụ” trong Trình quản lý Cloudera. Sau khi bạn làm theo các bước trong trình hướng dẫn và chọn nơi máy chủ Solr sẽ chạy, bạn sẽ đến trang quy trình làm việc sẽ khởi chạy dịch vụ Solr và khởi động tất cả các máy chủ Solr.

Khởi động và chạy dịch vụ Solr

Vậy là xong - dịch vụ Solr hiện đã sẵn sàng để sử dụng! Thực hiện theo các hướng dẫn trong Hướng dẫn Sử dụng Tìm kiếm Cloudera để tạo bộ sưu tập và thêm tài liệu vào chúng để lập chỉ mục. Ảnh chụp màn hình bên dưới cho thấy cách tạo một bộ sưu tập bằng lược đồ Solr mặc định.

Tạo bộ sưu tập đầu tiên

Thêm Lily HBase Indexer

Cloudera Manager 4.7 cũng cung cấp hỗ trợ cho Lily HBase Indexer đi kèm với gói SOLR. Dịch vụ trình lập chỉ mục Lily HBase là một hệ thống linh hoạt, có thể mở rộng, khả năng chịu lỗi, giao dịch, thời gian thực gần như thực để xử lý một luồng liên tục cập nhật ô HBase thành các chỉ mục tìm kiếm trực tiếp. Để sử dụng nó, hãy thêm dịch vụ “Keystore Indexer” thông qua “Add Service Wizard.”

Tuy nhiên, trước khi có thể sử dụng Lily HBase Indexer, bạn cần đảm bảo rằng tính năng sao chép và lập chỉ mục được bật trong dịch vụ HBase trong cụm. Bạn có thể thay đổi các thuộc tính này trên trang cấu hình dịch vụ HBase trong phần “Sao lưu”.

Đặt thuộc tính HBase cho Lily HBase Indexer

Ngoài ra, hãy lưu ý rằng Trình quản lý Cloudera bao gồm tệp Cloudera Morphlines mặc định có thể được sử dụng bởi Lily HBase Indexer. Để sửa đổi tệp đó để sử dụng các chức năng của riêng bạn, bạn nên điều hướng đến dịch vụ Keystore Indexer và sửa đổi cấu hình Morphlines như được hiển thị bên dưới:

Chỉnh sửa Cloudera Morphlines cho Lily HBase Indexer

Khi những thay đổi này được thực hiện, bạn có thể bắt đầu sử dụng Trình lập chỉ mục Lily HBase để lập chỉ mục bất kỳ dữ liệu nào đến HBase bằng cách làm theo các hướng dẫn trong Hướng dẫn sử dụng Trình lập chỉ mục Lily HBase . Bài đăng trên blog này cũng cung cấp một ví dụ tuyệt vời về cách lập chỉ mục email bằng HBase và Cloudera Search.

Kết luận

Giờ thì bạn đã biết việc triển khai, cấu hình và quản lý dịch vụ Cloudera Search tới cụm CDH của mình bằng Cloudera Manager dễ dàng như thế nào. Bắt đầu với Cloudera Enterprise 5 (đang trong giai đoạn thử nghiệm tại thời điểm viết bài), Cloudera Search và Lily HBase indexer sẽ cài đặt và khởi động theo mặc định - làm cho quá trình này trở nên dễ dàng hơn.

Vikram Srivastava là Kỹ sư phần mềm tại Cloudera.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Sự khác biệt giữa InputSplit và Blocks trong Hadoop

  2. Khả năng truy cập cơ sở dữ liệu hoạt động

  3. MapReduce Shuffling và Sắp xếp trong Hadoop

  4. Bên trong Kiến trúc nhập dữ liệu gần thời gian thực của Santander (Phần 2)

  5. Cách thực hiện:Kiểm tra các ứng dụng HBase bằng các công cụ phổ biến