Bằng cách sử dụng:
sc.parallelize(startDate to endDate)
Với startData và endDate as Longs được tạo từ Ngày theo định dạng:
("yyyy-MM-dd HH:mm:ss")
Tôi đã tạo ra tia lửa để xây dựng một mảng khổng lồ (hơn 100.000 đối tượng) để tham gia với bảng C * và nó không bị mắc kẹt gì cả- C * đã làm việc chăm chỉ để thực hiện liên kết và trả về dữ liệu.
Cuối cùng, tôi đã thay đổi phạm vi của mình thành:
case class TableKey(created_dh: String)
val data = Array("2015-10-29 12:00:00", "2015-10-29 13:00:00", "2015-10-29 14:00:00", "2015-10-29 15:00:00")
val snapshotsFiltered = sc.parallelize(data, 2).map(TableKey(_)).joinWithCassandraTable("listener","snapshots_tnew")
Và bây giờ nó ổn.