Tại sao kết quả đếm khác nhau trên các lần đọc liên tiếp?

Trừ khi Dataset cached sử dụng bộ nhớ đáng tin cậy (Spark cache tiêu chuẩn sẽ chỉ cung cấp cho bạn những đảm bảo yếu) cơ sở dữ liệu có thể được truy cập nhiều lần, mỗi lần hiển thị trạng thái hiện tại của cơ sở dữ liệu. Kể từ

nhìn thấy các số lượng khác nhau là một hành vi được mong đợi.

Hơn nữa, nếu nguồn JDBC được sử dụng trong chế độ phân tán (với cột phân vùng hoặc các vị từ predicates ), sau đó mỗi luồng thực thi sẽ sử dụng giao dịch của chính nó. Kết quả là trạng thái của Dataset có thể không hoàn toàn nhất quán.

Không sử dụng JDBC. Bạn có thể làm ví dụ

COPY dữ liệu vào hệ thống tệp và tải nó từ đó.
Sử dụng giải pháp sao chép mà bạn chọn để tạo một bản sao dành riêng cho phân tích và thiết lập và tạm dừng quá trình sao chép trong khi sử dụng phân tích dữ liệu.