PostgreSQL có sử dụng tf-idf không?

Không. Trong hàm ts_rank, không có phương pháp gốc nào để xếp hạng kết quả bằng cách sử dụng tần suất tổng thể (tổng thể) của chúng. Tuy nhiên, thuật toán xếp hạng không xếp hạng dựa trên tần suất trong tài liệu:

https://www.postgresql.org/docs/9.3/static /textsearch-controls.html

Vì vậy, nếu tôi tìm kiếm "dog | chihuahua", hai tài liệu sau sẽ có cùng thứ hạng mặc dù tần suất xuất hiện của từ "chihuahua" tương đối thấp hơn:

"I want a dog"
"I want a chihuahua"

Tuy nhiên, dòng sau sẽ được xếp hạng cao hơn hai dòng trước ở trên, vì nó chứa mã thông báo gốc "dog" hai lần trong tài liệu:

"dog lovers have an average of 1.5 dogs"

Tóm lại:tần suất kỳ hạn cao hơn trong tài liệu dẫn đến xếp hạng cao hơn, nhưng tần suất kỳ hạn thấp hơn trong ngữ liệu không có tác động.

Một lưu ý:tìm kiếm văn bản không bỏ qua các từ dừng, vì vậy bạn sẽ không đối sánh với các từ có tần suất cực cao như "the", "a", "of", "for", v.v. (giả sử bạn đã đặt đúng ngôn ngữ của mình)