PostgreSQL
 sql >> Cơ Sở Dữ Liệu >  >> RDS >> PostgreSQL

PostgreSQL có sử dụng tf-idf không?

Không. Trong hàm ts_rank, không có phương pháp gốc nào để xếp hạng kết quả bằng cách sử dụng tần suất tổng thể (tổng thể) của chúng. Tuy nhiên, thuật toán xếp hạng không xếp hạng dựa trên tần suất trong tài liệu:

http://www.postgresql.org/docs/9.3/static /textsearch-controls.html

Vì vậy, nếu tôi tìm kiếm "dog | chihuahua", hai tài liệu sau sẽ có cùng thứ hạng mặc dù tần suất xuất hiện của từ "chihuahua" tương đối thấp hơn:

"I want a dog"
"I want a chihuahua"

Tuy nhiên, dòng sau sẽ được xếp hạng cao hơn hai dòng trước ở trên, vì nó chứa mã thông báo gốc "dog" hai lần trong tài liệu:

"dog lovers have an average of 1.5 dogs"

Tóm lại:tần suất kỳ hạn cao hơn trong tài liệu dẫn đến xếp hạng cao hơn, nhưng tần suất kỳ hạn thấp hơn trong ngữ liệu không có tác động.

Một lưu ý:tìm kiếm văn bản không bỏ qua các từ dừng, vì vậy bạn sẽ không đối sánh với các từ có tần suất cực cao như "the", "a", "of", "for", v.v. (giả sử bạn đã đặt đúng ngôn ngữ của mình)



  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Tóm lại, lập chỉ mục cơ sở dữ liệu với B + tree và Hash để so sánh

  2. Tìm phạm vi ngày trùng lặp trong PostgreSQL

  3. Truy vấn JSON lồng nhau PostgreSQL

  4. Cách chuyển đổi chuỗi thành ngày trong PostgreSQL

  5. Làm thế nào để tăng tốc các trang quản trị của Django với ước tính số lượng PostgreSQL?