删除不掉的空白符
我在分析爬下来的HTML的时候,希望删除掉某段内容中的所有的空白字符,也就10几个字。于是用了Commons包里的工具方法,但是有时却剩一个空白字符,注意,是“有时”。也就是说,有时全部空白字符都没有了,如预期一样,有时却还剩一个。看了看工具方法的源码,也没发现什么问题,毕竟是全球都在用的Commons。然后我仔细看了HTML源文件,也没看到什么异常。存到数据库之后这个空白符变成了乱码。 于是我自己实现了一个剔除空白符的方法,现象还是这样。甚至Trim都不可以。 后来在公司一个前辈的指点下,让我把这个空白字符的ASCII打出来,发现问题了。这个空白字符的ASCII根本不是32,而是160,Google了一下对于这个字符不同浏览器会有不同显示,基本就是当不当是一个空格的区别。 至于“有时”,可能就是多台服务器上的数据不一致吧,因为这个有时的频率基本是固定的。
解决办法就是替换其中的ASCII为160的字符。 附两篇他人文章:
关于作者