Được kích hoạt bởi Apache Spark

Cảm ơn vì đã dành thời gian cho tôi; Tôi chắc chắn cố gắng đánh giá cao giá trị của bạn. Trong phần 1 - chúng ta đã thảo luận về các thư viện Apache Spark, các Thành phần Spark như Driver, DAG Scheduler, Task Scheduler và Worker. Bây giờ trong Phần 2 -chúng ta sẽ thảo luận về Khái niệm cơ bản về Spark như Tập dữ liệu phân tán có khả năng phục hồi, Biến được chia sẻ, SparkContext, Chuyển đổi, Hành động và Ưu điểm của việc sử dụng Spark cùng với các ví dụ và thời điểm sử dụng Spark.

RDD - Tập dữ liệu phân tán có khả năng phục hồi

Chúng là tập hợp các phần tử có thể tuần tự hóa và tập hợp như vậy có thể được phân vùng trong trường hợp đó nó được lưu trữ trong nhiều nút.

Nó có thể nằm trong bộ nhớ hoặc trên đĩa.

Spark sử dụng RDD để giảm I / O và duy trì dữ liệu đã xử lý trong bộ nhớ

RDD giúp xử lý các lỗi nút và không cần phải khởi động lại toàn bộ quá trình hoặc quá trình tính toán

Thông thường, nó được tạo từ định dạng đầu vào Hadoop hoặc từ phép chuyển đổi được áp dụng trên các RDD hiện có.

RDD lưu trữ dòng dữ liệu của nó; nếu dữ liệu bị mất, Spark sẽ phát lại dòng để xây dựng lại các RDD bị mất.

RDD là bất biến.

Biến được chia sẻ

Spark có hai loại biến cho phép chia sẻ thông tin giữa các nút thực thi.

Hai biến là biến quảng bá và biến tích lũy.

Tất cả các biến quảng bá đều được gửi đến các nút thực thi từ xa, tương tự như các đối tượng Cấu hình MapReduce.

Tất cả các bộ tích lũy cũng được gửi đến các nút thực thi từ xa, với giới hạn là chúng tôi chỉ có thể thêm vào các biến bộ tích lũy, tương tự như bộ đếm MapReduce.

Bối cảnh tia lửa

Nó là một đối tượng đại diện cho kết nối với một cụm Spark.

Nó được sử dụng để tạo RDD, phát dữ liệu và khởi tạo bộ tích lũy.

Sự biến đổi

Đây là các hàm nhận một RDD và trả về một RDD khác.

Các phép biến đổi sẽ không bao giờ sửa đổi đầu vào của chúng, chỉ trả về RDD đã sửa đổi.

Nó luôn lười biếng, vì vậy họ không tính toán kết quả của mình. Thay vì gọi một hàm chuyển đổi, chỉ tạo ra một RDD mới.

Toàn bộ tập hợp các phép biến đổi nói trên được thực thi khi một hành động được gọi.

Có nhiều chuyển đổi trong Spark - map (), filter (), KeyBy (), Join (), groupByKey (), sort ().

Hành động

Các hành động là các phương thức sử dụng RDD và thực hiện tính toán và trả về kết quả cho ứng dụng trình điều khiển.

Hành động kích hoạt tính toán các phép biến đổi và kết quả có thể là một tập hợp, các giá trị trên màn hình, các giá trị được lưu vào tệp.

Hành động sẽ không bao giờ trả lại RDD.

Lợi ích

Tính đơn giản
Tính linh hoạt
Giảm I / O đĩa
Bộ nhớ
Đa ngôn ngữ
Tính độc lập của người quản lý tài nguyên
Vỏ tương tác (REPL)

Spark, giống như các công cụ dữ liệu lớn khác, nó mạnh mẽ, có khả năng và rất thích hợp để giải quyết một loạt các thách thức về phân tích và dữ liệu lớn.

Bài viết này ban đầu xuất hiện ở đây. Được phép xuất bản lại. Gửi khiếu nại bản quyền của bạn tại đây.