08-01
18
JSP远程采集原理
作者:Java伴侣 日期:2008-01-18
用jsp研究了下,发现原来小偷可以如此简单。。。。差不多就是读取文件,只是变为了远程而已
代码如下:
这里就已经抓取到网页的内容了,至于需要什么内容,具体的筛选我就不说明了,具体要求具体实现
代码如下:
复制内容到剪贴板 程序代码
<%@ page language="java" pageEncoding="UTF-8"%>
<%@ page import="java.io.*,java.net.URL"%>
<%
URL url = new URL("http://www.itpub.net");//建立URL对象,并实例化为url,获得要抓取的网页地址
BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream(),"GB2312"));//建立BufferedReader对象,并实例化为reader,这里的GB2312是要抓取的网页编码格式
while(reader.ready())
{
out.println(reader.readLine());
}
reader.close();
%>
<%@ page import="java.io.*,java.net.URL"%>
<%
URL url = new URL("http://www.itpub.net");//建立URL对象,并实例化为url,获得要抓取的网页地址
BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream(),"GB2312"));//建立BufferedReader对象,并实例化为reader,这里的GB2312是要抓取的网页编码格式
while(reader.ready())
{
out.println(reader.readLine());
}
reader.close();
%>
复制内容到剪贴板 程序代码
public static String matcherStr(String str, String cp, String s){
if(str==null || str.equals("")){
return "";
}
String txt = new String();
txt = str;
if(str!=null && !str.equals("")){
txt = str;
Pattern p = Pattern.compile(cp,2); //参数2表示大小写不区分
Matcher m = p.matcher(txt);
StringBuffer sb = new StringBuffer();
int i=0;
boolean result = m.find();
//使用循环将句子里所有匹配的内容找出并替换再将内容加到sb里
while(result) {
i++;
sb.append(m.group());
sb.append(s);
//继续查找下一个匹配对象
result = m.find();
}
txt = String.valueOf(sb);
}else{
txt = "";
}
return txt;
}
if(str==null || str.equals("")){
return "";
}
String txt = new String();
txt = str;
if(str!=null && !str.equals("")){
txt = str;
Pattern p = Pattern.compile(cp,2); //参数2表示大小写不区分
Matcher m = p.matcher(txt);
StringBuffer sb = new StringBuffer();
int i=0;
boolean result = m.find();
//使用循环将句子里所有匹配的内容找出并替换再将内容加到sb里
while(result) {
i++;
sb.append(m.group());
sb.append(s);
//继续查找下一个匹配对象
result = m.find();
}
txt = String.valueOf(sb);
}else{
txt = "";
}
return txt;
}
这里就已经抓取到网页的内容了,至于需要什么内容,具体的筛选我就不说明了,具体要求具体实现
评论: 0 | 引用: 0 | 查看次数: 735
发表评论