Python:使用codecs解析文本中U+2028分隔符的异常

在使用python codecs读取文本内容的时候，会遇到U+2028的分隔符，会自动把它作为行分隔符，U+2028之后的内容，会丢失。在网上查过了之后，最容易的解决方法就是不使用codecs.

如下，如果使用codecs的话，

f = codecs.open(filename,encoding="utf-8")
for line in f:
    print line

这样写的话，如果遇到U+2028的话，会出现问题。

解决方法是直接使用open或者file 来读取就ok了


f = file(filename,"r")
for line in f:
    line = line.decode("utf-8")

便可以忽略分隔符。

本文标题: Python:使用codecs解析文本中U+2028分隔符的异常

发布时间: 2015-12-05, 14:36:08

最后更新: 2021-12-16, 23:11:45

非商业转载请注明作者及出处。商业转载请联系作者本人。