Trong hướng dẫn Hadoop này , chúng tôi sẽ cung cấp cho bạn phần giới thiệu đầy đủ về Liên đoàn HDFS. Trong hướng dẫn này, chúng ta sẽ thảo luận về Kiến trúc HDFS, Hạn chế của kiến trúc hiện tại của HDFS.
Sau đó, chúng tôi sẽ trình bày chi tiết về kiến trúc Liên kết HDFS cùng với những ưu điểm của chúng trong khuôn khổ Hadoop.
Liên kết HDFS là gì?
Liên kết nâng cao Hadoop HDFS hiện có ngành kiến trúc. Kiến trúc HDFS trước đây cho phép không gian tên duy nhất cho toàn bộ cụm. Trong kiến trúc đó, NameNode duy nhất quản lý không gian tên.
Nếu NameNode không thành công, thì toàn bộ cụm sẽ không hoạt động. Và cụm sẽ không khả dụng cho đến khi NameNode khởi động lại hoặc được đưa vào một máy riêng biệt.
HDFS Federation ra đời để khắc phục hạn chế này. Nó khắc phục điều này bằng cách thêm hỗ trợ cho nhiều NameNode / Namespaces vào HDFS.
Kiến trúc HDFS hiện tại
HDFS có hai lớp chính được đưa ra bên dưới:
a) Không gian tên - Lớp này quản lý các tệp, thư mục và khối . Lớp này hỗ trợ hoạt động cơ bản của hệ thống tệp như tạo, xóa tệp.
b) Bộ nhớ khối - Nó có hai phần-
- Quản lý khối - Nó hỗ trợ hoạt động liên quan đến khối như tạo, xóa các khối. Nó quản lý các nút dữ liệu trong cụm và quản lý việc sao chép.
- Bộ nhớ thực - Điều này lưu trữ các khối trên hệ thống tệp cục bộ và cung cấp quyền truy cập để đọc hoặc ghi hoạt động. Nhấp vào liên kết này để tìm hiểu thao tác đọc và ghi dữ liệu HDFS.
HDFS hiện tại này hoạt động tốt cho các thiết lập nhỏ hơn. Tuy nhiên, đối với các tổ chức lớn, nơi chúng ta cần xử lý lượng dữ liệu khổng lồ có một số hạn chế. Liên kết Hadoop xử lý những hạn chế đó.
Giới hạn của Kiến trúc HDFS hiện tại
Giới hạn của Kiến trúc HDFS hiện tại được đưa ra dưới đây:
1. Bộ nhớ khối và Không gian tên được kết hợp chặt chẽ
Lớp không gian tên và lớp lưu trữ được liên kết chặt chẽ với nhau. Nó làm cho việc triển khai thay thế của nút tên trở nên khó khăn. Và nó hạn chế các dịch vụ khác sử dụng lưu trữ khối.
2. Khả năng mở rộng không gian tên
Không gian tên không thể mở rộng như datanode. Chia tỷ lệ trong cụm HDFS theo chiều ngang bằng cách thêm các nút dữ liệu. Nhưng chúng tôi không thể thêm nhiều không gian tên hơn vào một cụm hiện có. Chúng tôi có thể chia tỷ lệ không gian tên theo chiều dọc trên một nút tên.
3. Hiệu suất
Toàn bộ hiệu suất của Hadoop phụ thuộc vào thông lượng của nút tên. Hoạt động của hệ thống tệp hiện tại phụ thuộc vào thông lượng của một nút tên. NameNode hiện tại hỗ trợ 60.000 tác vụ đồng thời.
MapReduce sắp tới sẽ có hỗ trợ cho hơn 1,00,000 nhiệm vụ đồng thời. Và điều này sẽ cần thêm nút tên.
4. Cô lập
Không có sự phân tách của không gian tên. Vì vậy, không có sự cô lập giữa tổ chức đối tượng thuê đang sử dụng cụm.
HDFS Kiến trúc liên kết
Liên kết sử dụng nhiều Namenode / không gian tên độc lập để mở rộng dịch vụ tên theo chiều ngang. Trong Kiến trúc liên kết HDFS, ở dưới cùng, các nút dữ liệu hiện diện. Và các nút dữ liệu được sử dụng làm nơi lưu trữ chung cho các khối của tất cả các nút tên.
Mỗi nút dữ liệu đăng ký với tất cả các nút tên trong cụm. Các nút dữ liệu này gửi nhịp tim định kỳ, khối, báo cáo và xử lý lệnh từ các nút tên.
Nhiều nút tên (NN1, NN2…, NNn) quản lý nhiều không gian tên (NS1, NS2…, NSn) tương ứng. Mỗi không gian tên có nhóm khối riêng của nó (NS1 Có nhóm 1 và v.v.). Khối từ nhóm 1 được lưu trữ trên datanode 1, v.v.
1. Hồ bơi khối
Tập hợp các khối là Nhóm khối thuộc về một không gian tên duy nhất. Có một bộ sưu tập các nhóm trong kiến trúc liên kết HDFS. Và mỗi khối được quản lý từ khối khác.
Điều này cho phép không gian tên tạo ID khối cho các khối mới mà không có sự phối hợp với một không gian tên khác. Tất cả các Datanodes lưu trữ các khối dữ liệu có trong tất cả các nhóm khối.
2. Vùng chứa tên
Không gian tên cùng với nhóm khối của nó là Dung lượng không gian tên . Nhiều khối lượng không gian tên có trong liên kết HDFS. Do đó, mỗi khối lượng không gian tên hoạt động độc lập. Khi chúng tôi xóa nút tên hoặc không gian tên, thì nhóm khối tương ứng có trên các nút dữ liệu cũng sẽ bị xóa.
Lợi ích của Liên đoàn HDFS
HDFS Federation khắc phục những hạn chế của kiến trúc HDFS trước đây. Do đó, nó cung cấp:
- Cô lập - Không có sự cô lập trong nút tên duy nhất trong môi trường nhiều người dùng. Trong liên kết HDFS, các danh mục ứng dụng khác nhau và người dùng có thể bị tách biệt với các không gian tên khác nhau bằng cách sử dụng nhiều nút tên.
- Khả năng mở rộng không gian tên - Trong liên kết, nhiều nút tên tăng tỷ lệ theo chiều ngang trong không gian tên hệ thống tệp.
- Hiệu suất - Chúng tôi có thể cải thiện thông lượng thao tác Đọc / ghi bằng cách thêm nhiều nút tên hơn.
Kết luận
Kết luận với HDFS Federation, chúng ta có thể nói rằng nó khắc phục được hạn chế của kiến trúc HDFS một nút. Trong kiến trúc HDFS trước đây cho toàn bộ cụm chỉ cho phép một không gian tên duy nhất. Trong khi Liên kết sử dụng nhiều Nút tên / không gian tên độc lập để mở rộng dịch vụ tên theo chiều ngang.
Nó cũng phân tách lớp không gian tên và bộ nhớ lớp. Do đó cung cấp tính cách ly, khả năng mở rộng và thiết kế đơn giản.
Nếu bạn có bất kỳ truy vấn hoặc đề xuất nào liên quan đến Liên kết trong Hadoop HDFS, hãy cho chúng tôi biết bằng cách để lại nhận xét.