MongoDB
 sql >> Cơ Sở Dữ Liệu >  >> NoSQL >> MongoDB

MongoDB® với Hadoop và các công nghệ Dữ liệu lớn liên quan

Cơ sở dữ liệu quan hệ trong một thời gian dài đã đủ để xử lý các tập dữ liệu vừa hoặc nhỏ. Nhưng tốc độ dữ liệu ngày càng lớn khiến cho cách tiếp cận truyền thống để lưu trữ và truy xuất dữ liệu không khả thi. Vấn đề này đang được giải quyết bằng các công nghệ mới hơn có thể xử lý Dữ liệu lớn. Hadoop, Hive và Hbase là những nền tảng phổ biến để vận hành loại tập dữ liệu lớn này. Cơ sở dữ liệu NoSQL hoặc Không Chỉ SQL như MongoDB® cung cấp cơ chế lưu trữ và truy xuất dữ liệu trong mô hình nhất quán của người thua cuộc với các ưu điểm như:

  • Chia tỷ lệ theo chiều ngang
  • Tính khả dụng cao hơn
  • Truy cập nhanh hơn

Nhóm kỹ sư MongoDB® gần đây đã cập nhật Trình kết nối MongoDB® cho Hadoop để tích hợp tốt hơn. Điều này giúp người dùng Hadoop dễ dàng hơn:

  • Tích hợp dữ liệu thời gian thực từ MongoDB® với Hadoop để có phân tích sâu, ngoại tuyến.
  • Trình kết nối thể hiện sức mạnh phân tích của Hadoop’s MapReduce để cung cấp dữ liệu ứng dụng trực tiếp từ MongoDB®, thúc đẩy giá trị từ dữ liệu lớn nhanh hơn và hiệu quả hơn.
  • Trình kết nối giới thiệu MongoDB dưới dạng hệ thống tệp tương thích với Hadoop cho phép công việc MapReduce đọc trực tiếp từ MongoDB® mà không cần sao chép trước sang HDFS (Hệ thống tệp Hadoop), do đó loại bỏ sự cần thiết để di chuyển hàng Terabyte dữ liệu trên toàn mạng.
  • Các công việc MapReduce có thể chuyển các truy vấn dưới dạng bộ lọc, do đó, tránh phải quét toàn bộ bộ sưu tập và cũng có thể tận dụng khả năng lập chỉ mục phong phú của MongoDB® bao gồm không gian địa lý, văn bản- chỉ mục tìm kiếm, mảng, kết hợp và chỉ mục thưa thớt.
  • Đọc từ MongoDB®, kết quả của các công việc Hadoop cũng có thể được ghi lại cho MongoDB®, để hỗ trợ các quy trình hoạt động thời gian thực và truy vấn đặc biệt.

Trường hợp sử dụng Hadoop và MongoDB®:

Hãy xem mô tả cấp cao về cách MongoDB® và Hadoop có thể kết hợp với nhau trong một ngăn xếp Dữ liệu lớn điển hình. Chủ yếu chúng tôi có:

  • MongoDB® được sử dụng làm kho lưu trữ dữ liệu thời gian thực “Hoạt động”
  • Hadoop để xử lý và phân tích dữ liệu hàng loạt ngoại tuyến

Đọc tiếp để biết tại sao MongoDB là cơ sở dữ liệu để xử lý Dữ liệu lớn cách MongoDB® được các công ty và tổ chức như Aadhar, Shutterfly, Metlife và eBay sử dụng.

Ứng dụng MongoDB® với Hadoop trong Tổng hợp hàng loạt:

Trong hầu hết các trường hợp, chức năng tổng hợp tích hợp do MongoDB® cung cấp là đủ để phân tích dữ liệu. Tuy nhiên, trong một số trường hợp nhất định, việc tổng hợp dữ liệu phức tạp hơn có thể là cần thiết. Đây là nơi Hadoop có thể cung cấp một khuôn khổ mạnh mẽ cho các phân tích phức tạp.

Trong trường hợp này:

  • Dữ liệu được lấy từ MongoDB® và được xử lý trong Hadoop thông qua một hoặc nhiều lệnh MapReduce. Dữ liệu cũng có thể được lấy từ những nơi khác trong các công việc MapReduce này để phát triển giải pháp đa nguồn dữ liệu.
  • Kết quả từ các công việc MapReduce này sau đó có thể được ghi lại cho MongoDB® để truy vấn ở giai đoạn sau và cho bất kỳ phân tích nào trên cơ sở đặc biệt.
  • Các ứng dụng được xây dựng trên MongoDB® do đó có thể sử dụng thông tin từ phân tích hàng loạt để hiển thị cho khách hàng cuối hoặc để kích hoạt các tính năng cơ bản khác.

Ứng dụng trong Kho dữ liệu:

Trong thiết lập sản xuất thông thường, dữ liệu của ứng dụng có thể nằm trên nhiều kho dữ liệu, mỗi kho có ngôn ngữ và chức năng truy vấn riêng. Để giảm độ phức tạp trong các tình huống này, Hadoop có thể được sử dụng làm kho dữ liệu và hoạt động như một kho lưu trữ tập trung cho dữ liệu từ các nguồn khác nhau.

Trong loại tình huống này:

  • Bản đồ Định kỳ Giảm công việc tải dữ liệu từ MongoDB® vào Hadoop.
  • Sau khi dữ liệu từ MongoDB® và các nguồn khác có sẵn trong Hadoop, tập dữ liệu lớn hơn có thể được truy vấn.
  • Các nhà phân tích dữ liệu hiện có tùy chọn sử dụng MapReduce hoặc Pig để tạo các công việc truy vấn các bộ dữ liệu lớn hơn kết hợp dữ liệu từ MongoDB®.

Nhóm làm việc đằng sau MongoDB® đã đảm bảo rằng với khả năng tích hợp phong phú với các công nghệ Dữ liệu lớn như Hadoop, nó có thể tích hợp tốt trong Big Data Stack và giúp giải quyết một số vấn đề kiến ​​trúc phức tạp khi nói đến việc lưu trữ, truy xuất, xử lý, tổng hợp và nhập kho dữ liệu. Hãy theo dõi bài đăng sắp tới của chúng tôi về triển vọng nghề nghiệp cho những người sử dụng Hadoop với MongoDB®. Nếu bạn đang làm việc với Hadoop hoặc mới chọn MongoDB®, hãy xem các khóa học mà chúng tôi cung cấp cho MongoDB® tại đây

Khám phá thêm về các khái niệm Hadoop. Xem Khóa học dữ liệu lớn trực tuyến này , được tạo ra bởi các Chuyên gia làm việc trong ngành công nghiệp hàng đầu.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. MongoDB $ stdDevSamp

  2. mongodb kiểm tra xem điểm có nằm trong đa giác không

  3. MongoDB:ngoại lệ trong initAndListen:20 Đã cố tạo tệp khóa trên thư mục chỉ đọc:/ data / db, chấm dứt

  4. MongoDB dropIndexes ()

  5. Tích hợp &Dịch vụ có sẵn từ MongoDB cho Đám mây