Trong Hướng dẫn về Hadoop dữ liệu lớn này , chúng tôi sẽ cung cấp cho bạn mô tả chi tiết về khối dữ liệu Hadoop HDFS. Trước hết, chúng ta sẽ đề cập đến khối dữ liệu trong Hadoop là gì, tầm quan trọng của chúng là gì, tại sao kích thước của khối dữ liệu HDFS là 128MB.
Chúng ta cũng sẽ thảo luận về ví dụ về các khối dữ liệu trong hadoop và các ưu điểm khác nhau của HDFS trong Hadoop.
Giới thiệu về Khối dữ liệu HDFS
Hadoop HDFS chia các tệp lớn thành các phần nhỏ được gọi là Khối . Khối là biểu diễn vật lý của dữ liệu. Nó chứa một lượng dữ liệu tối thiểu có thể đọc hoặc ghi. HDFS lưu trữ từng tệp dưới dạng khối. Ứng dụng khách HDFS không có bất kỳ quyền kiểm soát nào đối với khối như vị trí khối, Namenode quyết định tất cả những điều như vậy.
Theo mặc định, kích thước khối HDFS là 128MB mà bạn có thể thay đổi theo yêu cầu của bạn. Tất cả các khối HDFS đều có cùng kích thước ngoại trừ khối cuối cùng, có thể có cùng kích thước hoặc nhỏ hơn.
Khung công tác Hadoop chia nhỏ các tệp thành các khối 128 MB và sau đó lưu trữ vào hệ thống tệp Hadoop. Ứng dụng Apache Hadoop chịu trách nhiệm phân phối khối dữ liệu trên nhiều nút.
Ví dụ-
Giả sử kích thước tệp là 513MB và chúng tôi đang sử dụng cấu hình mặc định của kích thước khối 128MB. Sau đó, khung công tác Hadoop sẽ tạo 5 khối, bốn khối đầu tiên 128MB, nhưng khối cuối cùng sẽ chỉ có 1MB.
Do đó, từ ví dụ rõ ràng rằng không cần thiết trong HDFS mỗi tệp được lưu trữ phải là bội số chính xác của kích thước khối đã định cấu hình 128mb, 256mb, v.v. Do đó, khối cuối cùng cho tệp chỉ sử dụng nhiều dung lượng khi cần thiết.
Tại sao kích thước Khối HDFS là 128 MB?
HDFS lưu trữ terabyte và petabyte dữ liệu. Nếu kích thước Khối HDFS là 4kb như hệ thống tệp Linux, thì chúng ta sẽ có quá nhiều khối dữ liệu trong Hadoop HDFS, do đó có quá nhiều siêu dữ liệu.
Vì vậy, việc duy trì và quản lý số lượng khối và siêu dữ liệu khổng lồ này sẽ tạo ra chi phí và lưu lượng truy cập khổng lồ, đây là điều mà chúng tôi không muốn.
Kích thước khối không được lớn đến mức hệ thống phải đợi một thời gian dài để một đơn vị xử lý dữ liệu cuối cùng hoàn thành công việc của nó.
Ưu điểm của HDFS
Sau khi tìm hiểu Khối dữ liệu HDFS là gì, bây giờ chúng ta hãy thảo luận về những ưu điểm của Hadoop HDFS.
1. Khả năng lưu trữ các tệp rất lớn
Hadoop HDFS lưu trữ các tệp rất lớn, thậm chí còn lớn hơn kích thước của một đĩa đơn lẻ dưới dạng tệp khung Hadoop chia nhỏ tệp khung và phân phối trên các nút khác nhau.
2. Khả năng chịu lỗi và tính khả dụng cao của HDFS
Khung công tác Hadoop có thể dễ dàng sao chép các Khối giữa các nút dữ liệu. Do đó cung cấp khả năng chịu lỗi và tính khả dụng cao HDFS.
3. Tính đơn giản của việc quản lý bộ nhớ
Vì HDFS có kích thước khối cố định (128MB), vì vậy rất dễ dàng để tính số khối có thể được lưu trữ trên đĩa.
4. Cơ chế lưu trữ đơn giản cho các nút dữ liệu
Chặn trong HDFS đơn giản hóa việc lưu trữ Datanodes . Nút tên duy trì siêu dữ liệu của tất cả các khối. HDFS Datanode không cần quan tâm đến siêu dữ liệu khối như quyền đối với tệp, v.v.
Kết luận
Do đó, khối dữ liệu HDFS là đơn vị dữ liệu nhỏ nhất trong hệ thống tệp. Kích thước mặc định của Khối HDFS là 128MB mà bạn có thể định cấu hình theo yêu cầu. Khối HDFS dễ dàng sao chép giữa các nút dữ liệu. Do đó, cung cấp khả năng chịu lỗi và tính khả dụng cao của HDFS.
Đối với bất kỳ truy vấn hoặc đề xuất nào liên quan đến khối dữ liệu Hadoop HDFS, hãy cho chúng tôi biết bằng cách để lại nhận xét trong phần đưa ra bên dưới.