HBase
 sql >> Cơ Sở Dữ Liệu >  >> NoSQL >> HBase

Giới thiệu Hadoop Combiner, Cách làm việc &Ưu điểm

Trong hướng dẫn Hadoop này , chúng tôi sẽ cung cấp cho bạn mô tả chi tiết về Hadoop Combiner. Trước hết, chúng ta sẽ xem MapReduce Combiner là gì, vai trò quan trọng của Combiner trong MapReduce là gì.

Sau đó, chúng ta sẽ thảo luận về ví dụ về chương trình MapReduce có và không có bộ kết hợp trong Hadoop. Cuối cùng, chúng ta cũng sẽ thấy một số ưu và nhược điểm của Combiner trong MapReduce.

Hadoop Combiner là gì?

Bộ kết hợp còn được gọi là “ Bộ giảm tốc nhỏ ”Tóm tắt Người lập bản đồ bản ghi đầu ra với cùng một Khóa trước khi chuyển đến Hộp giảm tốc .

Trên một tập dữ liệu lớn khi chúng tôi chạy công việc MapReduce. Vì vậy, Mapper tạo ra các khối lớn dữ liệu trung gian. Sau đó, khuôn khổ chuyển dữ liệu trung gian này đến Bộ giảm tốc để xử lý thêm.

Điều này dẫn đến tắc nghẽn mạng rất lớn. Khung Hadoop cung cấp một chức năng được gọi là Bộ kết hợp đóng một vai trò quan trọng trong việc giảm tắc nghẽn mạng.

Công việc chính của Combiner a “Mini-Reducer là xử lý dữ liệu đầu ra từ Mapper, trước khi chuyển nó đến Reducer. Nó chạy sau bộ ánh xạ và trước bộ giảm tốc. Việc sử dụng nó là tùy chọn.

Combiner hoạt động như thế nào trong Hadoop?

Bây giờ chúng ta hãy tìm hiểu mọi thứ thay đổi như thế nào khi chúng ta sử dụng bộ kết hợp trong MapReduce?

Như chúng ta thấy trong sơ đồ trên, không có bộ kết hợp nào ở đó. Đầu vào được chia thành hai trình lập bản đồ. Khung tạo 9 khóa từ các trình ánh xạ.

Vì vậy, bây giờ chúng ta có (9 khóa / giá trị) dữ liệu trung gian. Người liên kết khác sẽ gửi khóa-giá trị này trực tiếp đến bộ giảm tốc. Trong khi gửi dữ liệu đến bộ giảm tốc, nó sẽ tiêu tốn một số băng thông mạng. Sẽ mất nhiều thời gian hơn để chuyển dữ liệu sang bộ giảm thiểu nếu kích thước của dữ liệu lớn.

Bây giờ từ sơ đồ trên, nếu chúng ta sử dụng một bộ kết hợp giữa bộ ánh xạ và bộ giảm tốc. Sau đó, trình kết hợp sẽ xáo trộn 9 khóa / giá trị trước khi gửi nó đến bộ giảm. Và sau đó tạo 4 cặp khóa / giá trị dưới dạng đầu ra.

Giờ đây, Reducer chỉ cần xử lý 4 dữ liệu cặp khóa / giá trị được tạo từ 2 bộ kết hợp. Do đó, bộ giảm chỉ được thực hiện 4 lần để tạo ra đầu ra cuối cùng. Do đó, điều này làm tăng hiệu suất tổng thể.

Ưu điểm của Combiner trong MapReduce

Bây giờ chúng ta hãy thảo luận về những lợi ích của Hadoop Combiner trong MapReduce.

  • Việc sử dụng bộ kết hợp giúp giảm thời gian truyền dữ liệu giữa bộ lập bản đồ và bộ giảm tốc.
  • Bộ kết hợp cải thiện hiệu suất tổng thể của bộ giảm tốc.
  • Nó làm giảm lượng dữ liệu mà bộ giảm tốc phải xử lý.

Nhược điểm của Combiner trong MapReduce

Ngoài ra còn có một số nhược điểm của Hadoop Combiner. Bây giờ chúng ta hãy cùng thảo luận.

  • Trong hệ thống tệp cục bộ, khi Hadoop lưu trữ các cặp khóa-giá trị và chạy trình kết hợp sau đó, điều này sẽ gây ra IO đĩa đắt tiền.
  • Các công việc của MapReduce không thể phụ thuộc vào việc thực thi bộ kết hợp vì không có gì đảm bảo cho việc thực thi nó.

Kết luận

Do đó, Hadoop Combiner đóng một vai trò quan trọng trong việc giảm tắc nghẽn mạng. Nó cải thiện hiệu suất tổng thể của bộ giảm tốc bằng cách tóm tắt đầu ra của Mapper.

Tôi hy vọng bây giờ bạn đã hiểu rõ về Hadoop Combiner. Nếu bạn vẫn còn bất kỳ câu hỏi nào, vì vậy, vui lòng cho chúng tôi biết bằng cách để lại nhận xét trong phần bên dưới.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Bên trong Kiến trúc nhập dữ liệu gần thời gian thực của Santander (Phần 2)

  2. Apache Phoenix dành cho CDH

  3. Bắt đầu với Cơ sở dữ liệu hoạt động của nền tảng dữ liệu Cloudera (COD)

  4. Cách thực hiện:Sử dụng tính năng Tải hàng loạt của HBase và tại sao

  5. Giới thiệu Hadoop Combiner, Cách làm việc &Ưu điểm