MySQL Workbench
 sql >> Cơ Sở Dữ Liệu >  >> Database Tools >> MySQL Workbench

Gặp lỗi kích thước heap java khi cố gắng phân cụm tài liệu 15980 qua cà rốt2workbench

Sự nghi ngờ của bạn là đúng, đó là vấn đề về kích thước đống, hay chính xác hơn là hạn chế về khả năng mở rộng. Trực tiếp từ Câu hỏi thường gặp về cà rốt2: http://project.carrot2.org/faq.html#scalability

Phân nhóm Carrot2 mở rộng quy mô như thế nào đối với số lượng và độ dài của tài liệu? Đặc điểm quan trọng nhất của các thuật toán Carrot2 cần lưu ý là chúng thực hiện phân nhóm trong bộ nhớ. Vì lý do này, theo nguyên tắc chung, Carrot2 nên xử lý thành công lên đến một nghìn tài liệu, mỗi tài liệu có vài đoạn. Đối với các thuật toán được thiết kế để xử lý hàng triệu tài liệu, bạn có thể muốn xem dự án Mahout.

Một nhà phát triển cũng đã đăng về điều này tại đây: https://stackoverflow.com/a/28991477

Mặc dù các nhà phát triển đề xuất Mahout và đây có lẽ là cách để bạn thực hiện vì bạn sẽ không bị ràng buộc bởi các ràng buộc phân cụm trong bộ nhớ như trong cà rốt2, tuy nhiên, có thể có các khả năng khác:

  1. Nếu bạn thực sự thích cà rốt2 nhưng không nhất thiết phải có k-means, bạn có thể xem qua Lingo3G thương mại, dựa trên trường "Thời gian nhóm 100000 đoạn trích [s]" và nhận xét (***) trên http://carrotsearch.com/lingo3g-comparison nó sẽ có thể giải quyết nhiều tài liệu hơn. Cũng kiểm tra mục Câu hỏi thường gặp của họ về "Số lượng tài liệu tối đa mà Lingo3G có thể phân cụm là bao nhiêu?" trên http://carrotsearch.com/lingo3g-faq

  2. Cố gắng giảm thiểu kích thước nhãn của bạn mà k-mean đang thực hiện phân nhóm. Thay vì phân cụm trên tất cả nội dung tài liệu, hãy cố gắng phân cụm trên phần tóm tắt / tóm tắt hoặc trích xuất các từ khóa quan trọng và phân cụm trên chúng.



  1. DBeaver
  2.   
  3. phpMyAdmin
  4.   
  5. Navicat
  6.   
  7. SSMS
  8.   
  9. MySQL Workbench
  10.   
  11. SQLyog
  1. Cách tích hợp Dự án KIE Workbench 6.1.0.Final (Drools Guvnor) với Ứng dụng Java

  2. Đánh giá không mong muốn trong các bài tập trong Mathematica:tại sao nó xảy ra và làm thế nào để gỡ lỗi nó trong quá trình tải gói?

  3. Mysql Workbench Mac OS thiếu các công cụ quản lý và Nhập / Xuất dữ liệu

  4. Xóa hoặc tắt nút đóng X được hiển thị trên Phần soạn thảo RAP / RCP

  5. Không gian làm việc Eclipse gặp sự cố khi khởi động