20 Sự khác biệt đáng chú ý giữa Hadoop 2.x và Hadoop 3.x

Mục tiêu của hướng dẫn Hadoop này là để cung cấp cho bạn sự hiểu biết rõ ràng hơn giữa các phiên bản Hadoop khác nhau. Trong blog này, chúng tôi đã đề cập đến đầu trang, 20 Sự khác biệt giữa Hadoop 2.x và Hadoop 3.x.

Blog này đề cập đến sự khác biệt giữa Hadoop 2 và Hadoop 3 trên cơ sở các tính năng khác nhau.

Sự khác biệt giữa Hadoop 2.x và Hadoop 3.x

Apache Hadoop là một khung phần mềm mã nguồn mở để lưu trữ phân tán và xử lý số lượng lớn các tập dữ liệu.

Hadoop 3.x được giới thiệu để khắc phục hạn chế của Hadoop 2.x. Hadoop 3.x đã thêm một số tính năng mới, mặc dù các tính năng cũ vẫn được sử dụng.

So sánh chi tiết tính năng khôn ngoan giữa Hadoop 2.x và Hadoop 3.x được đưa ra dưới đây:

a. Giấy phép

Hadoop 2 . x- Apache 2.0, mã nguồn mở
Hadoop 3 . x- Apache 2.0, mã nguồn mở

b. Phiên bản Java được hỗ trợ tối thiểu

Hadoop 2 . x- Java 7.
Hadoop 3 . x- Java 8.

c. Khả năng chịu lỗi

Hadoop 2.x- Trong phiên bản này, tính năng sao chép xử lý khả năng chịu lỗi.
Hadoop 3.x- Trong phiên bản này, tính năng xóa mã hóa xử lý khả năng chịu lỗi.

d. Cân bằng dữ liệu

Hadoop 2.x- Sử dụng HDFS Cân bằng để cân bằng dữ liệu
Hadoop 3.x- Sử dụng trình cân bằng nút dữ liệu nội bộ, được gọi thông qua CLI của trình cân bằng đĩa HDFS.

e. Lược đồ lưu trữ

Hadoop 2.x- Sử dụng lược đồ sao chép 3X.
Hadoop 3.x- Sử dụng mã hóa Erasure.

f. Chi phí lưu trữ

Hadoop 2.x- Trong phiên bản này, HDFS có 200% dung lượng lưu trữ.
Hadoop 3.x- Trong phiên bản này, HDFS có 50% dung lượng lưu trữ.

g. Ví dụ về chi phí lưu trữ

Hadoop 2.x- Nếu có 6 khối, và nhân rộng 3x của mỗi khối, như vậy kết quả là 18 khối. Nó sẽ chiếm 18 khối không gian.
Hadoop 3.x- Nếu có 6 khối, thì nó sẽ chiếm 9 không gian khối, tức là 6 khối và 3 cho khối chẵn lẻ.

h. Dịch vụ dòng thời gian YARN

Hadoop 2.x- Sử dụng dịch vụ dòng thời gian cũ có vấn đề về khả năng mở rộng.
Hadoop 3.x- Phiên bản này cải thiện dịch vụ dòng thời gian v2. Nó cũng cải thiện khả năng mở rộng và độ tin cậy của dịch vụ dòng thời gian.

j. Phạm vi cổng mặc định

Hadoop 2.x- Trong phiên bản này, các cổng mặc định là phạm vi cổng tạm thời của Linux. Do đó, tại thời điểm khởi động, chúng sẽ không liên kết được.
Hadoop 3.x- Mặc dù phiên bản này đã được chuyển ra khỏi phạm vi tạm thời.

k. Công cụ

Hadoop 2.x- Hive, pig, Tez, Hama và các công cụ Hadoop khác cũng có sẵn.
Hadoop 3.x- Trong phiên bản này cũng có sẵn các công cụ Hive, pig, Tez, Hama và các công cụ Hadoop khác.

l. Hệ thống tệp tương thích

Hadoop 2.x- Nó hỗ trợ hệ thống HDFS (Mặc định FS), FTP File:Hệ thống này cũng lưu trữ tất cả dữ liệu của nó trên các máy chủ FTP có thể truy cập từ xa. Nó cũng hỗ trợ hệ thống tệp Amazon S3 (Dịch vụ lưu trữ đơn giản) hệ thống tệp Windows Azure Storage Blobs (WASB).
Hadoop 3.x- Nó hỗ trợ tất cả hệ thống trước đó cũng như hệ thống tệp Microsoft Azure Data Lake.

m. Tài nguyên Datanode

Hadoop 2.x- Đối với tài nguyên MapReduce Datanode không dành riêng. Chúng tôi cũng có thể sử dụng nó cho các ứng dụng khác.
Hadoop 3.x- Trong phiên bản này, tài nguyên nút dữ liệu cũng có thể được sử dụng cho các Ứng dụng khác.

n. Khả năng tương thích API MR

Hadoop 2.x- MR API tương thích với chương trình Hadoop 1.x để thực thi trên Hadoop 2.X
Hadoop 3.x- MR API cũng tương thích với việc chạy các chương trình Hadoop 1.x để thực thi trên Hadoop 3.X

o. Hỗ trợ cho Microsoft

Hadoop 2.x- Nó có thể được triển khai trên Windows.
Hadoop 3.x- Nó cũng hỗ trợ cho các cửa sổ Microsoft.

tr. Khe / vùng chứa

Hadoop 2.x- Hadoop 1.x hoạt động dựa trên khái niệm về vị trí trong khi Hadoop 2.X hoạt động trên khái niệm về vùng chứa.
Hadoop 3.x- Hadoop 3.x cũng hoạt động dựa trên khái niệm vùng chứa.

q. Điểm lỗi duy nhất

Hadoop 2.x- Nó có các tính năng để vượt qua SPOF. Vì vậy, bất cứ khi nào NameNode bị lỗi, nó sẽ tự động khôi phục.
Hadoop 3.x- Nó cũng có các tính năng để vượt qua SPOF. Vì vậy, bất cứ khi nào NameNode bị lỗi, nó sẽ tự động khôi phục mà không cần can thiệp thủ công.

r. Liên kết HDFS

Hadoop 2.x- Trong Hadoop 1.x chỉ có NameNode duy nhất để quản lý tất cả Namespace. Nhưng Hadoop 2.x có nhiều NameNode cho nhiều Namespace.
Hadoop 3.x- Nó cũng có nhiều Namenode cho nhiều không gian tên.

s. Khả năng mở rộng

Hadoop 2.x- Chúng tôi có thể mở rộng quy mô lên đến 10000 nút trên mỗi cụm.
Hadoop 3.x- Chúng tôi có thể mở rộng quy mô hơn 10000 Nút mỗi cụm.

t. Ảnh chụp nhanh HDFS

Hadoop 2.x- Nó bổ sung hỗ trợ cho một ảnh chụp nhanh. Nó cũng cung cấp khả năng phục hồi sau thảm họa và bảo vệ lỗi người dùng.
Hadoop 3.x- Nó cũng hỗ trợ tính năng chụp nhanh.

u. Nền tảng

Hadoop 2.x- Nó phục vụ như một nền tảng cho nhiều loại phân tích dữ liệu. Nó cũng có thể chạy các hoạt động xử lý sự kiện, phát trực tuyến và thời gian thực.
Hadoop 3.x- Nó cũng có thể chạy xử lý sự kiện, phát trực tuyến và hoạt động thời gian thực trên đầu YARN.

Kết luận

Kết luận, Hadoop 3.0 đã thêm các tính năng mới như mã hóa xóa để xử lý khả năng chịu lỗi. Hadoop 3.x cũng giảm chi phí lưu trữ từ 200% đến 50%.

Nó cũng giới thiệu một công cụ dòng lệnh mới được gọi là Disk balancer. Do đó, Hadoop 3.x đã cải thiện hiệu suất tổng thể.

Nếu bạn tìm thấy bất kỳ sự khác biệt nào khác giữa Hadoop 2.x và Hadoop 3.x, hãy cho chúng tôi biết trong phần bình luận.