Cấu trúc dữ liệu cơ bản cho hệ thống truy xuất văn bản là Chỉ mục được đảo ngược . Về cơ bản, đây là danh sách các từ được tìm thấy trong bộ sưu tập tài liệu cùng với danh sách các tài liệu có trong đó. Nó cũng có thể có siêu dữ liệu về sự xuất hiện của từng tài liệu, chẳng hạn như số lần từ xuất hiện.
Các tài liệu có chứa các từ có thể được truy vấn bằng cách đối sánh trên các cụm từ tìm kiếm. Để xác định mức độ liên quan, heuristic được gọi là Xếp hạng Cosine được tính trên lượt truy cập. Điều này hoạt động bằng cách xây dựng vectơ n-chiều với một thành phần cho mỗi trong số n cụm từ tìm kiếm. Bạn cũng có thể cân các cụm từ tìm kiếm nếu muốn. Vectơ này cho một điểm trong không gian n chiều tương ứng với các cụm từ tìm kiếm của bạn.
Một vectơ tương tự dựa trên các lần xuất hiện có trọng số trong mỗi tài liệu có thể được xây dựng từ chỉ số đảo ngược với mỗi trục trong vectơ tương ứng với trục cho mỗi cụm từ tìm kiếm. Nếu bạn tính tích số chấm của các vectơ này, bạn sẽ nhận được cosin của góc giữa chúng. 1,0 tương đương với cos (0), giả sử các vectơ chiếm một đường chung từ điểm gốc. Các vectơ càng gần nhau, góc càng nhỏ và cosin càng gần bằng 1,0.
Nếu bạn sắp xếp các kết quả tìm kiếm theo cosine (hoặc sắp xếp chúng thành một hàng đợi ưu tiên là mg không) bạn nhận được phù hợp nhất. Các thuật toán về mức độ liên quan thông minh hơn có xu hướng xoay xở với trọng số của các cụm từ tìm kiếm, làm nghiêng sản phẩm chấm thành các cụm từ có mức độ liên quan cao.
Nếu bạn muốn tìm hiểu kỹ, hãy Quản lý Gigabyte bởi Bell và Moffet thảo luận về kiến trúc bên trong của hệ thống truy xuất văn bản.