Tải dữ liệu tia lửa vào Mongo / Memcached để sử dụng bởi Webservice

Bạn không thể truy vấn RDD trực tiếp theo cách này. Hãy coi công việc Spark của bạn như một bộ xử lý luồng. Những gì bạn có thể làm là đẩy mô hình đã cập nhật vào một số "cửa hàng", chẳng hạn như cơ sở dữ liệu (với API tùy chỉnh hoặc JDBC), hệ thống tệp hoặc bộ nhớ đệm. Bạn thậm chí có thể thực hiện cuộc gọi dịch vụ web từ trong mã Spark.

Dù bạn làm gì, hãy cẩn thận rằng thời gian xử lý từng lô dữ liệu, bao gồm cả I / O, nằm trong khoảng thời gian bạn chỉ định. Nếu không, bạn có nguy cơ bị tắc nghẽn cuối cùng có thể gặp sự cố.

Một điều khác cần chú ý là trường hợp bạn có dữ liệu mô hình của mình trong nhiều hơn một phân vùng RDD trải rộng trên cụm, (tất nhiên là mặc định). Nếu thứ tự của "hồ sơ" của bạn không quan trọng, thì viết chúng ra song song cũng được. Nếu bạn cần một tổng đơn hàng cụ thể được viết tuần tự (và dữ liệu thực sự không lớn), hãy gọi collect để đưa chúng vào một cấu trúc dữ liệu trong bộ nhớ bên trong mã trình điều khiển của bạn (có nghĩa là lưu lượng mạng trong một công việc phân tán), sau đó viết từ đó.