Những gì bạn đang nói đến là một quá trình phân cụm văn bản. Bạn đang cố gắng tìm những đoạn văn bản tương tự và tùy ý chọn một trong số chúng. Tôi không quen với bất kỳ cơ sở dữ liệu nào thực hiện hình thức khai thác văn bản này.
Đối với những gì bạn mô tả, một kỹ thuật khai thác văn bản khá cơ bản có thể sẽ hoạt động. Tạo ma trận tài liệu thuật ngữ với tất cả các từ ngoại trừ tên người dùng. Sau đó, sử dụng phân rã giá trị kỳ dị để nhận được giá trị kỳ dị và vectơ lớn nhất (đây là thành phần chính đầu tiên của ma trận tương quan). Các hoạt động tương tự nên tập hợp dọc theo dòng này.
Nếu bạn có vốn từ vựng hạn chế và có các thuật ngữ trong bảng, bạn có thể đo khoảng cách giữa hai hành động bằng tỷ lệ các từ trùng nhau. Bạn có danh sách tất cả các từ trong các hành động không?