tl; dr Không, chúng không hợp lệ, bất cứ điều gì mã hóa bị lỗi hoặc được thông báo sai thông tin mã hóa về đầu vào.
55357 và 56842 lần lượt là 0xD83D và 0xDE0A trong hex.
Trong Unicode, chúng nằm trong phạm vi tương ứng được gọi là "Đại diện cao" và "Đại diện thấp".
Điều đó có nghĩa là chúng không mã điểm mã Unicode thích hợp, nhưng được sử dụng trong UTF-16 để tạo một giá trị Unicode duy nhất không phù hợp với 16 bit (tức là Mặt phẳng đa ngôn ngữ cơ bản).
Hai giá trị cụ thể này giải mã thành MẶT NẠ NHỎ U + 1F60A CÓ MẮT NHỎ . Thực thể HTML thập phân chính xác cho điều đó sẽ là 😊
.
Lý do rất có thể cho điều này là một số biến đổi không biết về UTF-16 hoặc suy nghĩ văn bản này không phải là UTF-16 đã mã hóa (nhưng lẽ ra phải phát hiện ra rằng các giá trị đó không hợp lệ và đã báo lỗi ngay cả trong trường hợp đó).