Chuyển đổi bảng mysql thành tập dữ liệu spark rất chậm so với cùng một từ tệp csv

Vấn đề này đã được đề cập nhiều lần trên StackOverflow:

và trong các nguồn bên ngoài:

https:// github. com / awesome-spark / spark-gotchas / blob / master / 05_spark_sql_and_dataset_api.md # song song hóa-đọc

vì vậy chỉ để nhắc lại - theo mặc định DataFrameReader.jdbc không phân phối dữ liệu hoặc đọc. Nó sử dụng một luồng, một exectuor.

Để phân phối các lần đọc:

sử dụng phạm vi với lowerBound / upperBound :

Thuộc tính

Properties properties;
Lower

Dataset<Row> set = sc
    .read()
    .option("partitionColumn", "foo")
    .option("numPartitions", "3")
    .option("lowerBound", 0)
    .option("upperBound", 30)
    .option("url", url)
    .option("dbtable", this.tableName)
    .option("driver","com.mysql.jdbc.Driver")
    .format("jdbc")
    .load();

predicates

Thuộc tính

Properties properties;
Dataset<Row> set = sc
    .read()
    .jdbc(
        url, this.tableName,
        {"foo < 10", "foo BETWWEN 10 and 20", "foo > 20"},
        properties
    )