Tag: 采集预览模式: 普通 | 列表
08-07
16

dede 去掉采集内容中的超链接

5713090:
采集的时候,把文章内容里的链接去掉,过滤要怎么写

柏拉图:
{dede:trim}<a ([^>]*)>([^<]*)</a>{/dede:trim}

世界和平:
([^>]*)
什么意思,是不是代表任意字符!好想不是,

查看更多...

Tags: dede 采集 超链接

分类:Asp&Php | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 704
08-07
02

jsp防盗链

index.jsp

<html>
  <head><title>Simple jsp page</title></head>
  <body>Place your content here

  here is index jsp
    get header info
  <a href="a.jsp">a.jsp</a>

查看更多...

Tags: 盗链 防采集 采集

分类:Seo&Hacker | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 656
08-07
02

如何防止采集

之前写了很多关于采集的文章,这次说说如何防止采集吧。
防采集主要的办法就是给采集增加难度:
1.混淆字符串在文章中,再把这些随机字符串设置成统一的白色。
这样会给采集增加很大难度,但同时对搜索引擎不友好。

2.随机ID插入采集关于位置。
懂得采集的人都知道,采集需要先写一套规则,这套规则是固定不变的,如果我们在规则处写入随机字符串,那么规则就无从下手。如:
动易的:
<td  class=pv110title colSpan=2 zzz="{$ArticleID}">{$ArticleTitle}</td>

查看更多...

Tags: 采集

分类:Seo&Hacker | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 725
08-05
28

用java 获取指定url 网站内容

import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;


public class GetUrlContent {

public static String getUrlTheContent(String aimurl){

查看更多...

Tags: url 采集

分类:学习 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 804
08-05
12

部分内容截取,然后得到集合 (适用于采集)

正则表达:
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Test {
    private static String REGEX = "<a href=\"\\w*\"/>";

查看更多...

Tags: 自动 采集

分类:学习 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 523