MongoDB
 sql >> Cơ Sở Dữ Liệu >  >> NoSQL >> MongoDB

Cùng một từ nhưng các ký tự unicode khác nhau

Vấn đề bạn gặp phải là unicode cho phép nhiều cách để soạn cùng một biểu tượng. Mô-đun Python unicodedata cung cấp một hàm normalize cho phép bạn chuyển đổi biểu diễn unicode thành một biểu mẫu cố định (ví dụ:NFC)

from unicodedata import normalize

S1 = b'\xc4\x83\xcc\x83'.decode('UTF-8')
S2 = b'\xe1\xba\xb5'.decode('UTF-8')

print(normalize('NFC', S1).encode('UTF-8'))
print(normalize('NFC', S2).encode('UTF-8'))

Trong ví dụ của bạn trên tripadvisor được hiển thị ở dạng NFD, trong khi notepad sử dụng NFC.




  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Cập nhật tài liệu MongoEngine bằng python dict?

  2. findOneAndUpdate - Cập nhật đối tượng đầu tiên trong mảng có thuộc tính cụ thể

  3. trích xuất giá trị mảng con trong mongodb

  4. Lặp lại con trỏ không đồng bộ với tác vụ con không đồng bộ

  5. MongoDB:Tổng số cuộc gọi () so với số lượng theo dõi trong một bộ sưu tập