PostgreSQL
 sql >> Cơ Sở Dữ Liệu >  >> RDS >> PostgreSQL

Phân vùng khung dữ liệu SparkSQL PostgresQL

Về cơ bản, giới hạn dưới và giới hạn trên và số lượng phân vùng được sử dụng để tính toán gia số hoặc phân chia cho mỗi tác vụ song song.

Giả sử bảng có cột phân vùng "năm" và có dữ liệu từ năm 2006 đến năm 2016.

Nếu bạn xác định số lượng phân vùng là 10, với giới hạn thấp hơn 2006 và giới hạn cao hơn 2016, bạn sẽ có từng tác vụ tìm nạp dữ liệu cho năm của chính nó - trường hợp lý tưởng.

Ngay cả khi bạn chỉ định không chính xác giới hạn dưới và / hoặc giới hạn trên, ví dụ:đặt low =0 và upper =2016, sẽ có sự sai lệch trong quá trình truyền dữ liệu, nhưng bạn sẽ không "mất" hoặc không truy xuất được bất kỳ dữ liệu nào, bởi vì:

Nhiệm vụ đầu tiên sẽ tìm nạp dữ liệu cho năm <0.

Nhiệm vụ thứ hai sẽ tìm nạp dữ liệu cho năm từ 0 đến 2016/10.

Nhiệm vụ thứ ba sẽ tìm nạp dữ liệu cho năm từ 2016/10 đến 2 * 2016/10.

...

Và nhiệm vụ cuối cùng sẽ có điều kiện where với năm-> 2016.

T.



  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Lựa chọn không trả về giá trị Postgres-11.4

  2. PostgreSQL + Hibernate + Spring tự động tạo cơ sở dữ liệu

  3. Làm thế nào để có một khóa ngoại trỏ đến hai khóa chính?

  4. Cách hoạt động của hàm Power () trong PostgreSQL

  5. Làm thế nào để Lấy id của hàng đã chèn khi sử dụng upert với WITH cluase trong Posgres 9.5?