10-01

如何获取网络资源,实现下载网络文件

作者:Java伴侣日期:2010-01-18

上传可以用 http://commons.apache.org/fileupload/

下面的例子是 “下载”，来之 apache，你需要下载 httpcomponents才能编译 :
http://hc.apache.org/httpcomponents-client/examples.html

代码:
/*
* $HeadURL$
* $Revision$

分类:学习 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 286

10-01

18

HttpClient4.0 学习实例 - 页面获取

作者:Java伴侣日期:2010-01-18

zz from http://www.buaaer.com/bbs/blog.php?tid=39937

HttpClient 4.0出来不久，所以网络上面相关的实例教程不多，搜httpclient得到的大部分都是基于原 Commons HttpClient 3.1 (legacy) 包的，官网下载页面：http://hc.apache.org/downloads.cgi，如果大家看了官网说明就明白httpclient4.0是从原包分支出来独立成包的，以后原来那个包中的httpclient不会再升级，所以以后我们是用httpclient新分支，由于4.0与之前的3.1包结构以及接口等都有较大变化，所以网上搜到的实例大部分都是不适合4.0的，当然，我们可以通过那些实例去琢磨4.0的用法，我也是新手，记录下学习过程方便以后检索

本实例我们来获取抓取网页编码，内容等信息

默认情况下，服务器端会根据客户端的请求头信息来返回服务器支持的编码，像google.cn他本身支持utf-8,gb2312等编码，所以如果你在头部中不指定任何头部信息的话他默认会返回gb2312编码，而如果我们在浏览器中直接访问google.cn，通过httplook，或者firefox的firebug插件查看返回头部信息的话会发现他返回的是UTF-8编码

分类:学习 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 414

10-01

18

把多个空格变成一个

作者:Java伴侣日期:2010-01-18

        String s = "http://tieba.baidu.com/f?kz=696057409       素颜★流转";

方法一：
        s = s.replaceAll(" ", " ");
        System.out.println(s);
        String s1="";
        if(s.trim().indexOf(" ")!=-1){
           String ss[] = s.split(" ");
           for(int i=0;i<ss.length;i++){

分类:学习 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 339

10-01

16

使用HttpClient获取网页字符编码

作者:Java伴侣日期:2010-01-16

使用HttpClient获取网页字符编码
使用HttpClipent取得网页内容,但不同的网页编码又不一定一样
这样在取得网页响应流的时候,就要分别处理.
一般来说,常见的网页字符集有UTF-8,iso-8859-1,GBK,GB2312几种
当然,你要是一外文高手,全球那么多语言,全搞一遍,就不止这个数目了.
这里取得网页字符集编码只考虑最常见的情况,使用的HttpClient为4.0版本
基本上是目前最新的.下面来看代码.

复制内容到剪贴板

程序代码

/**

分类:学习 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 843

10-01

16

使用正则表达式来判断网页

作者:Java伴侣日期:2010-01-16

public String HtmlToTextGb2312(String inputString)
    {
              String htmlStr = inputString; //含html标签的字符串
              String textStr ="";
              Pattern p_script;
              Matcher m_script;
              Pattern p_style;
              Matcher m_style;
              Pattern p_html;

分类:学习 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 252

10-01

16

从http协议看无法获取网页charset的原因

作者:Java伴侣日期:2010-01-16

connection.getContentType();

　　这个需要服务器设置了 ContentType才可以，这个数据在文件头里面，而不是在文件的主体(也就是你看到的html）里面。

　　所以检测页面类型需要分3步，如果这一步不行，则用下一个

　　1 看header里面的ContentType,也就是你用的那个方法

　　2 看 html 里面的 ContentType ，也就是解析html页面

分类:学习 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 259

如何获取网络资源,实现下载网络文件

作者:Java伴侣日期:2010-01-18

HttpClient4.0 学习实例 - 页面获取

作者:Java伴侣日期:2010-01-18

把多个空格变成一个

作者:Java伴侣日期:2010-01-18

使用HttpClient获取网页字符编码

作者:Java伴侣日期:2010-01-16

使用正则表达式来判断网页

作者:Java伴侣日期:2010-01-16

从http协议看无法获取网页charset的原因

作者:Java伴侣日期:2010-01-16

Search

SweetTitles

Category

User Panel

Recent Comments

Statistics

Archive

Links

如何获取网络资源,实现下载网络文件

作者:Java伴侣 日期:2010-01-18

HttpClient4.0 学习实例 - 页面获取

作者:Java伴侣 日期:2010-01-18

把多个空格变成一个

作者:Java伴侣 日期:2010-01-18

使用HttpClient获取网页字符编码

作者:Java伴侣 日期:2010-01-16

使用正则表达式来判断网页

作者:Java伴侣 日期:2010-01-16

从http协议看无法获取网页charset的原因

作者:Java伴侣 日期:2010-01-16

Search

SweetTitles

Category

User Panel

Recent Comments

Statistics

Archive

Links

作者:Java伴侣日期:2010-01-18

作者:Java伴侣日期:2010-01-18

作者:Java伴侣日期:2010-01-18

作者:Java伴侣日期:2010-01-16

作者:Java伴侣日期:2010-01-16

作者:Java伴侣日期:2010-01-16