PostgreSQL
 sql >> Cơ Sở Dữ Liệu >  >> RDS >> PostgreSQL

Sử dụng nguồn Postgresql JDBC với Apache Spark trên EMR

Tôi nghĩ rằng bạn không cần phải sao chép postgres jar trong nô lệ vì chương trình trình điều khiển và trình quản lý cụm đảm nhiệm mọi thứ. Tôi đã tạo dataframe từ nguồn bên ngoài Postgres theo cách sau:

Tải xuống tệp trình điều khiển postgres :

cd $HOME && wget https://jdbc.postgresql.org/download/postgresql-42.2.5.jar

Tạo khung dữ liệu :

atrribute = {'url' : 'jdbc:postgresql://{host}:{port}/{db}?user={user}&password={password}' \
        .format(host=<host>, port=<port>, db=<db>, user=<user>, password=<password>),
                 'database' : <db>,
                 'dbtable' : <select * from table>}
 df=spark.read.format('jdbc').options(**attribute).load()

Gửi đến công việc bắt đầu: Thêm jar đã tải xuống vào đường dẫn lớp trình điều khiển trong khi gửi tác vụ tia lửa.

--properties spark.driver.extraClassPath=$HOME/postgresql-42.2.5.jar,spark.jars.packages=org.postgresql:postgresql:42.2.5 


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Hàm PostgreSQl trả về nhiều tập kết quả động

  2. PostgreSQL:chọn các hàng xảy ra vào một ngày nhất định trong tuần, trong một múi giờ cụ thể

  3. Cách giới hạn độ dài hiển thị tối đa của một cột trong PostgreSQL

  4. psycopg2 và tập lệnh python vô hạn

  5. Lỗi không khớp dữ liệu cấp độ khi sử dụng \ PDO ::ATTR_EMULATE_PREPARES => true