HBase
 sql >> Cơ Sở Dữ Liệu >  >> NoSQL >> HBase

20 Sự khác biệt đáng chú ý giữa Hadoop 2.x và Hadoop 3.x

Mục tiêu của hướng dẫn Hadoop này là để cung cấp cho bạn sự hiểu biết rõ ràng hơn giữa các phiên bản Hadoop khác nhau. Trong blog này, chúng tôi đã đề cập đến đầu trang, 20 Sự khác biệt giữa Hadoop 2.x và Hadoop 3.x.

Blog này đề cập đến sự khác biệt giữa Hadoop 2 và Hadoop 3 trên cơ sở các tính năng khác nhau.

Sự khác biệt giữa Hadoop 2.x và Hadoop 3.x

Apache Hadoop là một khung phần mềm mã nguồn mở để lưu trữ phân tán và xử lý số lượng lớn các tập dữ liệu.

Hadoop 3.x được giới thiệu để khắc phục hạn chế của Hadoop 2.x. Hadoop 3.x đã thêm một số tính năng mới, mặc dù các tính năng cũ vẫn được sử dụng.

So sánh chi tiết tính năng khôn ngoan giữa Hadoop 2.x và Hadoop 3.x được đưa ra dưới đây:

a. Giấy phép

  • Hadoop 2 . x- Apache 2.0, mã nguồn mở
  • Hadoop 3 . x- Apache 2.0, mã nguồn mở

b. Phiên bản Java được hỗ trợ tối thiểu

  • Hadoop 2 . x- Java 7.
  • Hadoop 3 . x- Java 8.

c. Khả năng chịu lỗi

  • Hadoop 2.x- Trong phiên bản này, tính năng sao chép xử lý khả năng chịu lỗi.
  • Hadoop 3.x- Trong phiên bản này, tính năng xóa mã hóa xử lý khả năng chịu lỗi.

d. Cân bằng dữ liệu

  • Hadoop 2.x- Sử dụng HDFS Cân bằng để cân bằng dữ liệu
  • Hadoop 3.x- Sử dụng trình cân bằng nút dữ liệu nội bộ, được gọi thông qua CLI của trình cân bằng đĩa HDFS.

e. Lược đồ lưu trữ

  • Hadoop 2.x- Sử dụng lược đồ sao chép 3X.
  • Hadoop 3.x- Sử dụng mã hóa Erasure.

f. Chi phí lưu trữ

  • Hadoop 2.x- Trong phiên bản này, HDFS có 200% dung lượng lưu trữ.
  • Hadoop 3.x- Trong phiên bản này, HDFS có 50% dung lượng lưu trữ.

g. Ví dụ về chi phí lưu trữ

  • Hadoop 2.x- Nếu có 6 khối, và nhân rộng 3x của mỗi khối, như vậy kết quả là 18 khối. Nó sẽ chiếm 18 khối không gian.
  • Hadoop 3.x- Nếu có 6 khối, thì nó sẽ chiếm 9 không gian khối, tức là 6 khối và 3 cho khối chẵn lẻ.

h. Dịch vụ dòng thời gian YARN

  • Hadoop 2.x- Sử dụng dịch vụ dòng thời gian cũ có vấn đề về khả năng mở rộng.
  • Hadoop 3.x- Phiên bản này cải thiện dịch vụ dòng thời gian v2. Nó cũng cải thiện khả năng mở rộng và độ tin cậy của dịch vụ dòng thời gian.

j. Phạm vi cổng mặc định

  • Hadoop 2.x- Trong phiên bản này, các cổng mặc định là phạm vi cổng tạm thời của Linux. Do đó, tại thời điểm khởi động, chúng sẽ không liên kết được.
  • Hadoop 3.x- Mặc dù phiên bản này đã được chuyển ra khỏi phạm vi tạm thời.

k. Công cụ

  • Hadoop 2.x- Hive, pig, Tez, Hama và các công cụ Hadoop khác cũng có sẵn.
  • Hadoop 3.x- Trong phiên bản này cũng có sẵn các công cụ Hive, pig, Tez, Hama và các công cụ Hadoop khác.

l. Hệ thống tệp tương thích

  • Hadoop 2.x- Nó hỗ trợ hệ thống HDFS (Mặc định FS), FTP File:Hệ thống này cũng lưu trữ tất cả dữ liệu của nó trên các máy chủ FTP có thể truy cập từ xa. Nó cũng hỗ trợ hệ thống tệp Amazon S3 (Dịch vụ lưu trữ đơn giản) hệ thống tệp Windows Azure Storage Blobs (WASB).
  • Hadoop 3.x- Nó hỗ trợ tất cả hệ thống trước đó cũng như hệ thống tệp Microsoft Azure Data Lake.

m. Tài nguyên Datanode

  • Hadoop 2.x- Đối với tài nguyên MapReduce Datanode không dành riêng. Chúng tôi cũng có thể sử dụng nó cho các ứng dụng khác.
  • Hadoop 3.x- Trong phiên bản này, tài nguyên nút dữ liệu cũng có thể được sử dụng cho các Ứng dụng khác.

n. Khả năng tương thích API MR

  • Hadoop 2.x- MR API tương thích với chương trình Hadoop 1.x để thực thi trên Hadoop 2.X
  • Hadoop 3.x- MR API cũng tương thích với việc chạy các chương trình Hadoop 1.x để thực thi trên Hadoop 3.X

o. Hỗ trợ cho Microsoft

  • Hadoop 2.x- Nó có thể được triển khai trên Windows.
  • Hadoop 3.x- Nó cũng hỗ trợ cho các cửa sổ Microsoft.

tr. Khe / vùng chứa

  • Hadoop 2.x- Hadoop 1.x hoạt động dựa trên khái niệm về vị trí trong khi Hadoop 2.X hoạt động trên khái niệm về vùng chứa.
  • Hadoop 3.x- Hadoop 3.x cũng hoạt động dựa trên khái niệm vùng chứa.

q. Điểm lỗi duy nhất

  • Hadoop 2.x- Nó có các tính năng để vượt qua SPOF. Vì vậy, bất cứ khi nào NameNode bị lỗi, nó sẽ tự động khôi phục.
  • Hadoop 3.x- Nó cũng có các tính năng để vượt qua SPOF. Vì vậy, bất cứ khi nào NameNode bị lỗi, nó sẽ tự động khôi phục mà không cần can thiệp thủ công.

r. Liên kết HDFS

  • Hadoop 2.x- Trong Hadoop 1.x chỉ có NameNode duy nhất để quản lý tất cả Namespace. Nhưng Hadoop 2.x có nhiều NameNode cho nhiều Namespace.
  • Hadoop 3.x- Nó cũng có nhiều Namenode cho nhiều không gian tên.

s. Khả năng mở rộng

  • Hadoop 2.x- Chúng tôi có thể mở rộng quy mô lên đến 10000 nút trên mỗi cụm.
  • Hadoop 3.x- Chúng tôi có thể mở rộng quy mô hơn 10000 Nút mỗi cụm.

t. Ảnh chụp nhanh HDFS

  • Hadoop 2.x- Nó bổ sung hỗ trợ cho một ảnh chụp nhanh. Nó cũng cung cấp khả năng phục hồi sau thảm họa và bảo vệ lỗi người dùng.
  • Hadoop 3.x- Nó cũng hỗ trợ tính năng chụp nhanh.

u. Nền tảng

  • Hadoop 2.x- Nó phục vụ như một nền tảng cho nhiều loại phân tích dữ liệu. Nó cũng có thể chạy các hoạt động xử lý sự kiện, phát trực tuyến và thời gian thực.
  • Hadoop 3.x- Nó cũng có thể chạy xử lý sự kiện, phát trực tuyến và hoạt động thời gian thực trên đầu YARN.

Kết luận

Kết luận, Hadoop 3.0 đã thêm các tính năng mới như mã hóa xóa để xử lý khả năng chịu lỗi. Hadoop 3.x cũng giảm chi phí lưu trữ từ 200% đến 50%.

Nó cũng giới thiệu một công cụ dòng lệnh mới được gọi là Disk balancer. Do đó, Hadoop 3.x đã cải thiện hiệu suất tổng thể.

Nếu bạn tìm thấy bất kỳ sự khác biệt nào khác giữa Hadoop 2.x và Hadoop 3.x, hãy cho chúng tôi biết trong phần bình luận.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Chuyển đổi kỹ thuật số là một hành trình dữ liệu từ Edge đến Insight

  2. Xây dựng quy trình có thể mở rộng bằng NiFi, Kafka và HBase trên CDP

  3. Xây dựng ứng dụng web CRUD đơn giản và kho lưu trữ hình ảnh bằng Cơ sở dữ liệu hoạt động Cloudera và Flask

  4. Bên trong Kiến trúc nhập dữ liệu gần thời gian thực của Santander (Phần 2)

  5. Quản trị Cơ sở dữ liệu Hoạt động