String s = "http://tieba.baidu.com/f?kz=696057409 素颜★流转";
方法一:
s = s.replaceAll(" ", " ");
System.out.println(s);
String s1="";
if(s.trim().indexOf(" ")!=-1){
String ss[] = s.split(" ");
for(int i=0;i<ss.length;i++){
方法一:
s = s.replaceAll(" ", " ");
System.out.println(s);
String s1="";
if(s.trim().indexOf(" ")!=-1){
String ss[] = s.split(" ");
for(int i=0;i<ss.length;i++){
HTTP是一种请求/回应协议,用户通过客户端(比如IE)发送给网站一个请求,那么网站会返回一个相应,在发送请求信息之前,会发送一些头文件,也就是HTTP的请求头,这里我们用一个叫HTTP Analyzer的软件来截获一下我们访问网站时的HTTP头
view plaincopy to clipboardprint?
<headers>
<requestheaders>
<header>GET / HTTP/1.1</header>
<header>Accept: image/gif, image/jpeg, image/pjpeg, image/pjpeg, application/x-shockwave-flash, */*</header>
<header>Accept-Language: zh-cn</header>
<header>User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)</header>
view plaincopy to clipboardprint?
<headers>
<requestheaders>
<header>GET / HTTP/1.1</header>
<header>Accept: image/gif, image/jpeg, image/pjpeg, image/pjpeg, application/x-shockwave-flash, */*</header>
<header>Accept-Language: zh-cn</header>
<header>User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)</header>
有时候,在抓取网站的时候,网站的编码方式可能不统一,这样的情况,可能有些网页编码不成功,而htmlparser报了错,不能正常的读取。抛出来的异常为:org.htmlparser.util.EncodingChangeException: character mismatch (new: 中 [0x4e2d] != old: [0xd6?]) for encoding change from ISO-8859-1 to GB2312 at character offset 23
为了解决不管它是用何种编码方式,都能够正常读取数据。我在htmlparser的Page类中加了一个字段,之所以要在Page类中加,那是因为它历遍所有的标签过程中,把meta标签属性content捕获到了,并已经传值到setEncoding(String charset)办法中。
代码如下:
Java代码
为了解决不管它是用何种编码方式,都能够正常读取数据。我在htmlparser的Page类中加了一个字段,之所以要在Page类中加,那是因为它历遍所有的标签过程中,把meta标签属性content捕获到了,并已经传值到setEncoding(String charset)办法中。
代码如下:
Java代码