Codepoint · ký tự ẩn · NFC/NFD
🔎 Soi Unicode
Nhìn tận bên trong một chuỗi: từng codepoint kèm byte UTF-8/16, ký tự ẩn zero-width bị đánh dấu đỏ, và chuẩn hóa NFC/NFD — cái bẫy kinh điển của văn bản tiếng Việt.
Chuẩn hóa
Dải codepoint (bấm để xem chi tiết)
NFC gộp dấu (“ế” = 1 codepoint U+1EBF), NFD tách dấu (“e” + mũ + sắc = 3 codepoint) — NHÌN giống hệt nhưng so sánh lại khác nhau, làm hỏng tìm kiếm & khử trùng lặp. Bộ gõ tiếng Việt cũ sinh NFD; chuẩn web là NFC. Ký tự zero-width và điều khiển bidi vô hình nhưng có thật — hay gặp khi copy từ chat hoặc trong lừa đảo.