Tag: 采集预览模式: 普通 | 列表
09-10
26

火车采集时,典型测试与在线发布不同步的解决办法

现象:写好的采集规则,测试【内容】无误,测试WEB在线发布时,内容只入库了一段话。

在软件中选择此选项,问题解决。

Tags: 火车 采集

分类:OpenSource | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 311
    功能说明:分析字符串s,提取s里面的超链接和链接文字.并存入动态数组
     同时根据指定包含和不包含的字符串进行过滤相关链接。
     2008年3月30日
      
*/
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.util.*;
public class RegTest

查看更多...

Tags: 超链接 文字 采集

分类:Java&Jsp | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 629
09-06
11

远程采集,无乱码

下面是读取csdn中某一页的内容:

  import   java.net.*;  
  import   java.io.*;  
  import   java.util.*;  
  public   class   URLDemo   {  
    
  public   static   void   main(String[]   args)   {  
    

查看更多...

Tags: 远程 采集 uncode

分类:学习 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 238
08-10
18

dede采集过滤全收罗

dede采集过程中最麻烦的莫过于采集的正则过滤函数的编写。说实在的,dede在这点上和很多ASP CMS系统比如说动易等,采集的时候直接选择几个选项就可以了,简单的完成想过滤的东西。不过他们只局限于对文章内容的过滤不是很好。而DEDE却能对所有采集的字段进行过滤,功能上弥补了易用性的缺陷,期待柏拉图在后续版本中加上选择性过滤功能。
下面是在综合论坛上网友的各种正则的一个全集:

以下是常用过滤:
{dede:trim} {/dede:trim}   // 过滤空格
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<script([^>]*)>([^>]*)</script>{/dede:trim}
{dede:trim}<div([^>]*)>([^<]*)</div>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}

查看更多...

Tags: dede 采集

分类:Asp&Php | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 509
08-09
05

dede采集,增加文章来源

第一步 修改【数据规则模型管理】中的文章模型





第二步 在【字段设定】中增加一个字段

查看更多...

Tags: dede 采集

分类:Asp&Php | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 741
引用内容 引用内容
比如,我有一个变量:
String text="aabbsdasdaiqo<a href="xxx"/>sasdadsa<a href="eee"/>sdasadpqwo<a href="ggg"/>||wxwdqwq<a href="bbb"/>...";

问题,如何取得text之中href=".."中的全部值,就是xxx,eee,ggg,bbb,把他们全部放入一个list中


正则的:
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;

查看更多...

Tags: 采集 截取 集合

分类:学习 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 742