MongoDB
 sql >> Cơ Sở Dữ Liệu >  >> NoSQL >> MongoDB

Ngoại lệ khi kết nối với mongodb trong spark

Tôi nghĩ rằng tôi đã tìm thấy vấn đề:mongodb-hadoop có một công cụ sửa đổi "tĩnh" trên các phiên bản bộ mã hóa / giải mã BSON của nó trong lõi / src / main / java / com / mongodb / hadoop / input / MongoInputSplit.java. Khi Spark chạy ở chế độ đa luồng, tất cả các chuỗi sẽ thử và deserialise bằng cách sử dụng giống nhau các phiên bản bộ mã hóa / bộ giải mã, có thể đoán trước được kết quả không tốt.

Bản vá trên github của tôi tại đây (đã gửi yêu cầu kéo ngược dòng)

Bây giờ tôi có thể chạy 8 lõi Spark-> mongo collection count () từ Python!



  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Gọi Hàm db.system.js trong $ where

  2. MongoDB / PyMongo:Truy vấn nhiều tiêu chí - kết quả không mong đợi

  3. Mongoose - truy cập đối tượng lồng nhau với .populate

  4. MongoDB và Mongoid trong sản xuất

  5. Mongoose - Không thể tạo nhiều hơn 4 trường bằng cách sử dụng `findOrCreate`