HBase
 sql >> Cơ Sở Dữ Liệu >  >> NoSQL >> HBase

Sự khác biệt giữa InputSplit và Blocks trong Hadoop

Trong hướng dẫn MapReduce này, chúng ta sẽ thảo luận về sự so sánh giữa MapReduce InputSplit và Blocks trong Hadoop . Đầu tiên, chúng ta sẽ xem khối dữ liệu HDFS là gì bên cạnh Hadoop InputSplit là gì.

Sau đó, chúng ta sẽ thấy sự khác biệt về tính năng giữa InputSplit và Blocks. Cuối cùng, chúng ta cũng sẽ thảo luận về ví dụ của Hadoop InputSplit và các khối Dữ liệu trong HDFS.

Giới thiệu về InputSplit và Blocks trong Hadoop

Trước tiên, hãy thảo luận về Khối dữ liệu HDFS là gì và Hadoop InputSplit là gì.

1. Block trong HDFS là gì?

Hadoop HDFS chia các tệp lớn thành các phần nhỏ được gọi là Khối. Nó chứa một lượng dữ liệu tối thiểu có thể đọc hoặc ghi. HDFS lưu trữ từng tệp dưới dạng khối.

Ứng dụng Hadoop phân phối khối dữ liệu trên nhiều nút. Ứng dụng khách HDFS không có bất kỳ quyền kiểm soát nào đối với khối như vị trí khối, Namenode quyết định tất cả những điều như vậy.

2. InputSplit trong Hadoop là gì?

Nó đại diện cho dữ liệu mà người lập bản đồ riêng lẻ các quy trình. Vì vậy, số lượng nhiệm vụ bản đồ bằng số lượng InputSplits. Framework chia tách thành các bản ghi, mà trình ánh xạ xử lý.

Các tệp đầu vào ban đầu lưu trữ dữ liệu cho công việc MapReduce. Nhập tệp thường nằm trong HDFS InputFormat mô tả cách tách và đọc các tệp đầu vào. InputFormat chịu trách nhiệm tạo InputSplit.

So sánh giữa InputSplit và Blocks trong Hadoop

Bây giờ chúng ta hãy thảo luận về sự khác biệt khôn ngoan về tính năng giữa InputSplit và Blocks trong Hadoop Framework.

1. Biểu diễn dữ liệu

  • Chặn - Khối HDFS là biểu diễn vật lý của dữ liệu trong Hadoop.
  • InputSplit - MapReduce InputSplit là biểu diễn logic của dữ liệu có trong khối trong Hadoop. Về cơ bản, nó được sử dụng trong quá trình xử lý dữ liệu trong chương trình MapReduce hoặc các kỹ thuật xử lý khác. Điều chính cần tập trung là InputSplit không chứa dữ liệu thực tế; nó chỉ là một tham chiếu đến dữ liệu.

2. Kích thước

  • Chặn - Theo mặc định, kích thước khối HDFS là 128MB mà bạn có thể thay đổi theo yêu cầu của bạn. Tất cả các khối HDFS đều có cùng kích thước ngoại trừ khối cuối cùng, có thể có cùng kích thước hoặc nhỏ hơn. Khung Hadoop chia nhỏ các tệp thành các khối 128 MB, sau đó lưu trữ vào hệ thống tệp Hadoop.
  • InputSplit - Kích thước InputSplit theo mặc định gần bằng kích thước khối. Nó là do người dùng xác định. Trong chương trình MapReduce, người dùng có thể kiểm soát kích thước phân chia dựa trên kích thước dữ liệu.

3. Ví dụ về Block và InputSplit trong Hadoop

Giả sử chúng ta cần lưu trữ tệp trong HDFS. Hadoop HDFS lưu trữ tệp dưới dạng khối. Khối là đơn vị dữ liệu nhỏ nhất có thể được lưu trữ hoặc truy xuất từ ​​đĩa.

Kích thước mặc định của khối là 128MB. Hadoop HDFS chia nhỏ các tệp thành các khối. Sau đó, nó lưu trữ các khối này trên các nút khác nhau trong cụm.

Ví dụ, chúng tôi có một tệp 132 MB. Vì vậy, HDFS sẽ chia tệp này thành 2 khối.

Bây giờ, nếu chúng ta muốn thực hiện thao tác MapReduce trên các khối, nó sẽ không xử lý. Nguyên nhân là do 2 block chưa hoàn thiện. Vì vậy, InpuSplit giải quyết vấn đề này.

MapReduce InputSplit sẽ tạo thành một nhóm hợp lý các khối thành một khối duy nhất. Vì InputSplit bao gồm vị trí cho khối tiếp theo và phần bù byte của dữ liệu cần thiết để hoàn thành khối.

Kết luận

Do đó, InputSplit chỉ là một phần dữ liệu logic, tức là nó chỉ chứa thông tin về địa chỉ hoặc vị trí của khối. Trong khi Khối là biểu diễn vật lý của dữ liệu.

Bây giờ tôi chắc chắn rằng, bạn đã hiểu rõ hơn về khối Dữ liệu InputSplit và HDFS sau khi đọc blog này. Nếu bạn tìm thấy bất kỳ sự khác biệt nào khác giữa InputSplit và Blocks, hãy cho chúng tôi biết trong phần bình luận.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Kiểm tra hiệu suất HBase bằng YCSB

  2. Các phương pháp tiếp cận để sao lưu và khôi phục thảm họa trong HBase

  3. Cách triển khai mô hình ML vào sản xuất

  4. Tìm hiểu Tính năng sẵn có cao của Hadoop

  5. Chúc mừng sinh nhật Apache HBase! 10 năm phục hồi, ổn định và hiệu suất