在使用
python codecs
读取文本内容的时候,会遇到U+2028
的分隔符, 会自动把它作为行分隔符,U+2028
之后的内容,会丢失。 在网上查过了之后,最容易的解决方法就是不使用codecs
.
如下,如果使用codecs
的话, 1
2
3
4f = codecs.open(filename,encoding="utf-8")
for line in f:
print line
这样写的话,如果遇到U+2028
的话,会出现问题。
解决方法是直接使用open
或者file
来读取就ok了 便可以忽略分隔符。1
2
3
4
5
f = file(filename,"r")
for line in f:
line = line.decode("utf-8")