Sự nghi ngờ của bạn là đúng, đó là vấn đề về kích thước đống, hay chính xác hơn là hạn chế về khả năng mở rộng. Trực tiếp từ Câu hỏi thường gặp về cà rốt2: http://project.carrot2.org/faq.html#scalability
Phân nhóm Carrot2 mở rộng quy mô như thế nào đối với số lượng và độ dài của tài liệu? Đặc điểm quan trọng nhất của các thuật toán Carrot2 cần lưu ý là chúng thực hiện phân nhóm trong bộ nhớ. Vì lý do này, theo nguyên tắc chung, Carrot2 nên xử lý thành công lên đến một nghìn tài liệu, mỗi tài liệu có vài đoạn. Đối với các thuật toán được thiết kế để xử lý hàng triệu tài liệu, bạn có thể muốn xem dự án Mahout.
Một nhà phát triển cũng đã đăng về điều này tại đây: https://stackoverflow.com/a/28991477
Mặc dù các nhà phát triển đề xuất Mahout và đây có lẽ là cách để bạn thực hiện vì bạn sẽ không bị ràng buộc bởi các ràng buộc phân cụm trong bộ nhớ như trong cà rốt2, tuy nhiên, có thể có các khả năng khác:
-
Nếu bạn thực sự thích cà rốt2 nhưng không nhất thiết phải có k-means, bạn có thể xem qua Lingo3G thương mại, dựa trên trường "Thời gian nhóm 100000 đoạn trích [s]" và nhận xét (***) trên http://carrotsearch.com/lingo3g-comparison nó sẽ có thể giải quyết nhiều tài liệu hơn. Cũng kiểm tra mục Câu hỏi thường gặp của họ về "Số lượng tài liệu tối đa mà Lingo3G có thể phân cụm là bao nhiêu?" trên http://carrotsearch.com/lingo3g-faq
-
Cố gắng giảm thiểu kích thước nhãn của bạn mà k-mean đang thực hiện phân nhóm. Thay vì phân cụm trên tất cả nội dung tài liệu, hãy cố gắng phân cụm trên phần tóm tắt / tóm tắt hoặc trích xuất các từ khóa quan trọng và phân cụm trên chúng.