Python:使用codecs解析文本中U+2028分隔符的异常

在使用python codecs读取文本内容的时候,会遇到U+2028的分隔符, 会自动把它作为行分隔符,U+2028之后的内容,会丢失。 在网上查过了之后,最容易的解决方法就是不使用codecs.

如下,如果使用codecs的话,

1
2
3
4
f = codecs.open(filename,encoding="utf-8")
for line in f:
print line

这样写的话,如果遇到U+2028的话,会出现问题。

解决方法是直接使用open或者file 来读取就ok了

1
2
3
4
5

f = file(filename,"r")
for line in f:
line = line.decode("utf-8")

便可以忽略分隔符。

参考: http://stackoverflow.com/questions/1105106/how-to-exclude-u2028-from-line-separators-in-python-when-reading-file