UTF-8的BOM竟然是unicode标准

windows很多编辑器在编辑utf-8文件的时候都喜欢在前面加个efbbbf的BOM。utf-8本来就是无字节序的,何苦呢。
今天在http://unicode.org/faq/utf_bom.html上看见,这个竟然是unicode标准。
“An initial BOM is only used as a signature — an indication that an otherwise unmarked text file is in UTF-8. ”

假如我就打开一个文档里面写abc三个字符然后保存,你偏要再给加个efbbbf,然后害得很多程序解析不出来,何苦呢?不要这个BOM的话,理解成ascii也好,utf-8也好,iso8859-1也好,都可以啊。

不知道改天谁会不会再发明一个GB18030的BOM出来。以后给每个编码格式搞个BOM,然后混战。

此博客中的热门博文

少写代码,多读别人写的代码

在windows下使用llvm+clang

tensorflow distributed runtime初窥