Về cơ bản những gì bạn cần là thay đổi "lớp định dạng đầu ra" và bạn có một số cách ở đó:
- Sử dụng Trình kết nối MongoDB cho Hadoop : http://docs.mongodb.org/ecosystem/tools /hadoop/?_ga=1.111209414.370990604.1441913822
- Triển khai Định dạng đầu ra của riêng bạn : https:// hadoop. apache.org/docs/r2.7.0/api/org/apache/hadoop/mapred/OutputFormat.html (Thay vào đó sử dụng FileOutputFormat).
- Thực thi truy vấn mongodb bên trong trình giảm thiểu thay vào đó để viết trong ngữ cảnh MapREduce (Không đẹp, bạn có thể kết thúc với các tệp outut trống trong HDFS tùy thuộc vào OutputFormat được chỉ định trong trình điều khiển)
Theo ý kiến của tôi, tùy chọn 1 là tùy chọn tốt nhất nhưng tôi chưa sử dụng trình kết nối MongoDB để nói liệu nó có đủ ổn định và hoạt động hay không. Tùy chọn 2 yêu cầu bạn thực sự hiểu cách hoạt động của hadoop để tránh kết thúc với nhiều kết nối mở và các vấn đề với các giao dịch và thử lại các tác vụ của hadoop.