mysql - chỉ mục toàn văn bản - chế độ ngôn ngữ tự nhiên là gì

Tìm kiếm toàn văn bản bằng ngôn ngữ tự nhiên của MySQL nhằm đối sánh các truy vấn tìm kiếm với một kho ngữ liệu để tìm các kết quả phù hợp nhất. Vì vậy, giả sử chúng ta có một bài báo có chứa "I love pie" và chúng ta có các tài liệu d1, d2, d3 (cơ sở dữ liệu trong trường hợp của bạn). Tài liệu 1 và 2 lần lượt là về thể thao và tôn giáo, và tài liệu 3 là về thực phẩm. Truy vấn của bạn,

Sẽ trả về d3, và sau đó là d2, d1 (thứ tự ngẫu nhiên của d2, d1 tùy thuộc vào thứ tự nào bằng với bài viết hơn) vì d3 khớp với bài viết nhất.

Thuật toán cơ bản mà MYSQL sử dụng có lẽ là thuật toán tf-idf, trong đó tf là viết tắt của tần số thuật ngữ và idf cho tần suất tài liệu nghịch đảo. tf như nó nói, chỉ là số lần một từ w trong bài báo xuất hiện trong một tài liệu. idf dựa trên số lượng tài liệu mà từ đó xuất hiện. Vì vậy, các từ xuất hiện trong nhiều tài liệu không góp phần quyết định tài liệu tiêu biểu nhất. Sản phẩm của tf * idf tạo ra một điểm số, càng cao, từ đó thể hiện một tài liệu càng tốt. Vì vậy, 'pie' sẽ chỉ xảy ra trong tài liệu d3 và do đó sẽ có tf cao và idf cao (vì nó là nghịch đảo). Trong khi 'the' sẽ có tf cao nhưng idf thấp sẽ tạo ra tf và cho điểm thấp.

Chế độ Ngôn ngữ Tự nhiên MYSQL cũng đi kèm với một tập hợp các từ dừng (a, một số, v.v.) và loại bỏ các từ có ít hơn 4 chữ cái. Bạn có thể xem thông tin này trong liên kết mà bạn đã cung cấp.