分类: 学习预览模式: 普通 | 列表
10-01
16

htmlparser 编码问题

     有时候,在抓取网站的时候,网站的编码方式可能不统一,这样的情况,可能有些网页编码不成功,而htmlparser报了错,不能正常的读取。抛出来的异常为:org.htmlparser.util.EncodingChangeException: character mismatch (new: 中 [0x4e2d] != old:  [0xd6?]) for encoding change from ISO-8859-1 to GB2312 at character offset 23

为了解决不管它是用何种编码方式,都能够正常读取数据。我在htmlparser的Page类中加了一个字段,之所以要在Page类中加,那是因为它历遍所有的标签过程中,把meta标签属性content捕获到了,并已经传值到setEncoding(String charset)办法中。

          代码如下:



Java代码

查看更多...

分类:学习 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 240
10-01
12

java中字符串转换成时间格式总结

通过长时间的对时间不同格式的转换,自己觉得其实就是对毫秒数的操作
Java代码
System.currentTimeMillis()  

    System.currentTimeMillis()


得到从1970年1月1日到现在的毫秒数,就可以转换成各种的形式。

有这样一个字符串:“20070911121547”,

查看更多...

Tags: 字符串

分类:学习 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 220
10-01
11

HttpWebRequest获取网页源代码时自动识别网页编码

       /// <summary>
        /// 获取源代码
        /// </summary>
        /// <param name="url"></param>
        /// <returns></returns>
        static string GetHtml(string url, Encoding encoding)
        {
            HttpWebRequest request = null;
            HttpWebResponse response = null;

查看更多...

分类:学习 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 477
10-01
11

使用java得到网页编码格式

package com.tag;

import java.net.MalformedURLException;

import java.net.URL;

import org.apache.commons.httpclient.Header;

import org.apache.commons.httpclient.HeaderElement;

查看更多...

Tags: 编码

分类:学习 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 141
10-01
11

JAVA正则表达式--Pattern和Matcher

1.简介:
java.util.regex是一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包。

它包括两个类:Pattern和Matcher Pattern 一个Pattern是一个正则表达式经编译后的表现模式。
Matcher 一个Matcher对象是一个状态机器,它依据Pattern对象做为匹配模式对字符串展开匹配检查。


首先一个Pattern实例订制了一个所用语法与PERL的类似的正则表达式经编译后的模式,然后一个Matcher实例在这个给定的Pattern实例的模式控制下进行字符串的匹配工作。

查看更多...

Tags: Pattern Matcher

分类:学习 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 101
10-01
11

使用CharBuffer和 InputStreamReader读取各种编码的网页

import java.io.BufferedReader;  
import java.io.IOException;  
import java.io.InputStreamReader;  
import java.net.URL;  
import java.nio.CharBuffer;  
  
public class PageParser {  
  
    public static void main(String args[]) {  

查看更多...

Tags: CharBuffer InputStreamReader

分类:学习 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 321