有这样一行'\u041c\u0422\u0421_WSD',其中前三个字符是俄语字母 MTS,然后是英文的 _WSD。如何将其转换为“可读”形式。
我的代码:
s = '\u041c\u0422\u0421_WSD'.encode('utf-8').decode('utf-8')
如果分解成部分:
# кодируем в bytes
s = '\u041c\u0422\u0421_WSD'.encode('utf-8')
# декодируем в строку
s = s.decode('utf-8')
我与“编码”有很大的差距,所以我不明白这种转换是如何工作的。请帮助我了解谁遇到了这个问题。
您的字符串已经采用 UTF-8 编码。只是有些字符不是显式写的,而是通过它们的代码写的。例如,在比较时可以看出这一点:
此外,这些行动毫无意义:
因为 因此,字符串不会以任何方式改变。