Mysql
 sql >> Cơ Sở Dữ Liệu >  >> RDS >> Mysql

Hàm Jaro-winkler:tại sao cùng một điểm số lại ghép các từ rất giống nhau và rất khác nhau?

Công thức khoảng cách Jaro-Winkler thiên về các chuỗi có đầu chung. Ví dụ:Valenti na và Valenti ria .

Nó cũng có một số "quy tắc" không trực quan (xem wikipedia ).

Trước tiên, bạn có thể nên xác định loại chênh lệch mà bạn đang mong đợi, sau đó tìm kiếm một công thức khoảng cách phù hợp. Ví dụ:trong văn bản, "angleworm" và "angelworm" rất dễ xảy ra lỗi, vì vậy khoảng cách giữa hai chuỗi phải thấp. Trong khi "there" và "ba" không khớp thì ít có khả năng xảy ra hơn và "ether" thậm chí còn nhiều hơn thế. Với các phép đảo chữ dài hơn, khoảng cách Jaro có thể giống hệt nhau và ngay cả việc chỉnh sửa Winkler cũng có thể không phát huy tác dụng.

Như bạn có thể đọc trong trang này (nhấn mạnh của tôi)



  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Loại bảng đã sử dụng không hỗ trợ chỉ mục FULLTEXT

  2. Cấu hình thư động với các giá trị từ cơ sở dữ liệu [Laravel]

  3. meta_query, cách tìm kiếm bằng cả quan hệ OR &AND?

  4. PHPMyAdmin buộc sử dụng ut8mb4 làm đối chiếu mặc định

  5. Zend_Db_Select thứ tự ngẫu nhiên, tương thích trong mssql / mysql