Hướng dẫn Hadoop này là tất cả về Nhận thức về Rack trong Hadoop. Trong blog này, chúng tôi sẽ mô tả từng và mọi thứ về Nhận thức về Rack trong HDFS .
Trước hết chúng ta sẽ nghiên cứu về thuộc tính HDFS Rack Awareness là gì, nhu cầu của Rack Awareness trong Hadoop là gì. Sau đó, chúng ta sẽ thảo luận về việc bố trí bản sao thông qua Rack Awareness trong HDFS.
Cuối cùng, chúng ta cũng sẽ thảo luận về các lợi ích khác nhau của Rack Awareness trong khuôn khổ Hadoop.
Giới thiệu về Nhận thức về Giá đỡ HDFS
Nhận thức về Rack trong Hadoop là khái niệm chọn các Datanode gần hơn dựa trên thông tin về giá đỡ. Theo mặc định, cài đặt Hadoop giả định rằng tất cả các nút thuộc cùng một giá đỡ.
Để cải thiện lưu lượng mạng trong khi đọc / ghi các tệp HDFS trong các cụm lớn của Hadoop. NameNode chọn các nút dữ liệu nằm trên cùng một giá đỡ hoặc một tảng đá gần đó để đọc / ghi các yêu cầu (nút máy khách). HDFS Namenode đạt được thông tin rack này bằng cách duy trì id rack của mỗi nút dữ liệu.
Tại sao lại nhận thức về Rack?
Mục đích chính của nhận thức về Rack là:
- Cải thiện độ tin cậy của dữ liệu và tính khả dụng của dữ liệu.
- Hiệu suất cụm tốt hơn.
- Ngăn mất dữ liệu nếu toàn bộ giá đỡ bị lỗi.
- Để cải thiện băng thông mạng.
- Giữ dòng chảy lớn trong tủ khi có thể.
Vị trí sao chép thông qua Rack Awareness trong Hadoop
Mục đích chính của việc đặt bản sao thông qua nhận thức về Rack, chính sách là cải thiện độ tin cậy của dữ liệu, v.v.
Một chính sách đơn giản là đặt các bản sao trên giá đỡ để tránh mất dữ liệu khi toàn bộ giá đỡ bị lỗi. Và cho phép sử dụng băng thông từ nhiều giá đỡ khi đọc tệp.
Trên nhiều cụm giá, khối nhân rộng tuân theo chính sách dưới đây:
Bạn không nên đặt nhiều hơn một bản sao trên một nút. Bạn cũng không nên đặt nhiều hơn hai bản sao trên cùng một giá. Điều này có một điểm nghẽn là số lượng giá đỡ được sử dụng để sao chép khối phải luôn ít hơn tổng số bản sao khối.
Ví dụ;
- Khi khung Hadoop tạo khối mới, nó sẽ đặt bản sao đầu tiên vào nút cục bộ. Và đặt một cái thứ hai vào một giá đỡ khác và cái thứ ba ở trên một nút khác trên nút cục bộ.
- Khi sao chép lại một khối, nếu số lượng bản sao hiện có là một, hãy đặt khối thứ hai trên một giá khác.
- Khi số lượng bản sao hiện có là hai bản sao, nếu hai bản sao trên cùng một giá, hãy đặt tấm thứ ba trên một giá khác.
Ưu điểm của Nhận thức về Rack trong Hadoop
Bây giờ chúng ta hãy thảo luận một số ưu điểm của Nhận thức về Rack trong Hadoop HDFS-
- Cung cấp băng thông cao hơn và độ trễ thấp - Chính sách này tối đa hóa băng thông mạng bằng cách truyền khối trong một giá đỡ hơn là giữa các giá đỡ. YARN có thể tối ưu hóa hiệu suất công việc MapReduce bằng cách giao nhiệm vụ cho các nút gần với dữ liệu của chúng hơn về mặt cấu trúc liên kết mạng.
- Cung cấp khả năng bảo vệ dữ liệu khỏi lỗi tủ rack - Namenode gán các bản sao khối của Khối 2 Và 3 cho các nút trong rack khác với bản sao đầu tiên. Do đó, nó cung cấp khả năng bảo vệ dữ liệu ngay cả khi bị hỏng tủ rack. Tuy nhiên, điều này chỉ có thể thực hiện được nếu Hadoop được định cấu hình với kiến thức về cấu hình giá đỡ của nó.
- Giảm thiểu chi phí ghi và Tối đa hóa tốc độ đọc - Nhận thức về giá đỡ, chính sách đặt các yêu cầu đọc / ghi vào các bản sao nằm trong cùng một giá đỡ. Do đó, điều này giảm thiểu chi phí ghi và tối đa hóa tốc độ đọc.
Kết luận
Kết luận, đó là khái niệm chọn các Datanodes gần hơn dựa trên thông tin rack để cải thiện độ tin cậy của dữ liệu. Mục đích chính của Rack-Awareness là ngăn mất dữ liệu nếu toàn bộ tủ rack bị lỗi. Nó cũng cải thiện băng thông mạng. Tìm hiểu thêm chi tiết các thuộc tính HDFS.
Nếu bạn có bất kỳ câu hỏi nào liên quan đến Rack Awareness trong Hadoop, hãy chia sẻ với chúng tôi trong phần bình luận. Chúng tôi sẽ cố gắng hết sức để giúp bạn.