Mysql
 sql >> Cơ Sở Dữ Liệu >  >> RDS >> Mysql

mysql - chỉ mục toàn văn bản - chế độ ngôn ngữ tự nhiên là gì

Tìm kiếm toàn văn bản bằng ngôn ngữ tự nhiên của MySQL nhằm đối sánh các truy vấn tìm kiếm với một kho ngữ liệu để tìm các kết quả phù hợp nhất. Vì vậy, giả sử chúng ta có một bài báo có chứa "I love pie" và chúng ta có các tài liệu d1, d2, d3 (cơ sở dữ liệu trong trường hợp của bạn). Tài liệu 1 và 2 lần lượt là về thể thao và tôn giáo, và tài liệu 3 là về thực phẩm. Truy vấn của bạn,

Sẽ trả về d3, và sau đó là d2, d1 (thứ tự ngẫu nhiên của d2, d1 tùy thuộc vào thứ tự nào bằng với bài viết hơn) vì d3 khớp với bài viết nhất.

Thuật toán cơ bản mà MYSQL sử dụng có lẽ là thuật toán tf-idf, trong đó tf là viết tắt của tần số thuật ngữ và idf cho tần suất tài liệu nghịch đảo. tf như nó nói, chỉ là số lần một từ w trong bài báo xuất hiện trong một tài liệu. idf dựa trên số lượng tài liệu mà từ đó xuất hiện. Vì vậy, các từ xuất hiện trong nhiều tài liệu không góp phần quyết định tài liệu tiêu biểu nhất. Sản phẩm của tf * idf tạo ra một điểm số, càng cao, từ đó thể hiện một tài liệu càng tốt. Vì vậy, 'pie' sẽ chỉ xảy ra trong tài liệu d3 và do đó sẽ có tf cao và idf cao (vì nó là nghịch đảo). Trong khi 'the' sẽ có tf cao nhưng idf thấp sẽ tạo ra tf và cho điểm thấp.

Chế độ Ngôn ngữ Tự nhiên MYSQL cũng đi kèm với một tập hợp các từ dừng (a, một số, v.v.) và loại bỏ các từ có ít hơn 4 chữ cái. Bạn có thể xem thông tin này trong liên kết mà bạn đã cung cấp.




  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. MySQL - Truy vấn Tất cả người dùng KHÔNG có cuộc hẹn

  2. Cách bù trừ bảng HTML với PHP để Trừ giá trị ô của hàng đầu tiên với giá trị ô ở hàng thứ 2 của các cột khác nhau

  3. Mysql:Có thực tế không khi tạo một bảng riêng cho các bài đăng của mỗi người dùng

  4. Nhận tổng giá trị cho hai phạm vi ngày riêng biệt trong cùng một cột và trong một truy vấn MySQL duy nhất

  5. Cách lưu trữ nhiều tùy chọn do người dùng chọn trong bảng