Trong tài liệu bạn cung cấp có ghi:
Điều này cho thấy rằng tiếng Hy Lạp không được hỗ trợ vì nó không thuộc bất kỳ bộ ký tự nào trong số này (tôi tin rằng tiếng Hy Lạp là tiếng Latinh-7). Điều đó nói rằng, bạn có thể thử đặt cờ ngôn ngữ ở mức bản ghi (vì bạn chỉ ra rằng dữ liệu của bạn bao gồm cả tiếng Anh và tiếng Hy Lạp) giả sử rằng mỗi ngôn ngữ có bản ghi riêng hoặc cố gắng triển khai ngôn ngữ chung bằng cách sử dụng dgidx và
dgraph
nhưng điều này sẽ ảnh hưởng đến những thứ như tạo nguồn gốc cho các bản ghi hoặc thuộc tính không có trong ngôn ngữ chung.
dgidx --lang el
dgraph --lang el
Mặc dù tôi không chắc nó sẽ hoạt động dựa trên tuyên bố ban đầu.
Ngoài ra, bạn có thể triển khai quy trình loại bỏ dấu phụ bằng cách sử dụng Accessor
tùy chỉnh , mở rộng atg.repository.search.indexing.PropertyAccessorImpl
lớp (một tùy chọn vì bạn tham khảo Nucleus
, vì vậy tôi giả sử bạn đang sử dụng ATG / Oracle Commerce). Sử dụng điều này, bạn chỉ định trường có thể tìm kiếm được chuẩn hóa trong chỉ mục của mình, trường này sao chép các trường có thể tìm kiếm trong chỉ mục hiện tại của bạn nhưng bây giờ đã loại bỏ tất cả các dấu phụ. Cùng một logic bạn áp dụng trong Accessor
sau đó cần được áp dụng như một bộ xử lý trước trên các cụm từ tìm kiếm của bạn để bạn chuẩn hóa đầu vào cho khớp với các giá trị được lập chỉ mục. Cuối cùng, hãy đặt các trường gốc của bạn trong chỉ mục (với các ký tự được đánh dấu) ở chế độ chỉ hiển thị và các trường chuẩn hóa có thể tìm kiếm được (nhưng không hiển thị chúng).
Kết quả sẽ khớp với văn bản chuẩn hóa của bạn nhưng nhược điểm là bạn có dữ liệu trùng lặp nên chỉ mục của bạn sẽ lớn hơn. Không phải là một vấn đề lớn với các tập dữ liệu nhỏ. Cũng có thể có tác động đến cách chức năng OOTB, chẳng hạn như gốc, hoạt động với tập dữ liệu chuẩn hóa. Bạn sẽ phải thực hiện một số thử nghiệm với các tình huống khác nhau bằng tiếng Hy Lạp và tiếng Anh để xem liệu độ chính xác và việc thu hồi có bị ảnh hưởng xấu hay không.