dede采集过程中最麻烦的莫过于采集的正则过滤函数的编写。说实在的,dede在这点上和很多ASP CMS系统比如说动易等,采集的时候直接选择几个选项就可以了,简单的完成想过滤的东西。不过他们只局限于对文章内容的过滤不是很好。而DEDE却能对所有采集的字段进行过滤,功能上弥补了易用性的缺陷,期待柏拉图在后续版本中加上选择性过滤功能。
下面是在综合论坛上网友的各种正则的一个全集:
以下是常用过滤:
{dede:trim} {/dede:trim} // 过滤空格
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<script([^>]*)>([^>]*)</script>{/dede:trim}
{dede:trim}<div([^>]*)>([^<]*)</div>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
下面是在综合论坛上网友的各种正则的一个全集:
以下是常用过滤:
{dede:trim} {/dede:trim} // 过滤空格
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<script([^>]*)>([^>]*)</script>{/dede:trim}
{dede:trim}<div([^>]*)>([^<]*)</div>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
引用内容
比如,我有一个变量:
String text="aabbsdasdaiqo<a href="xxx"/>sasdadsa<a href="eee"/>sdasadpqwo<a href="ggg"/>||wxwdqwq<a href="bbb"/>...";
问题,如何取得text之中href=".."中的全部值,就是xxx,eee,ggg,bbb,把他们全部放入一个list中
String text="aabbsdasdaiqo<a href="xxx"/>sasdadsa<a href="eee"/>sdasadpqwo<a href="ggg"/>||wxwdqwq<a href="bbb"/>...";
问题,如何取得text之中href=".."中的全部值,就是xxx,eee,ggg,bbb,把他们全部放入一个list中
正则的:
复制内容到剪贴板 程序代码
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.List;
import java.util.regex.Matcher;