java htmlparser 使用教程_HtmlParser基础教程-程序员宅基地

技术标签: java htmlparser 使用教程  

1、相关资料

官方文档:http://htmlparser.sourceforge.net/samples.html

API:http://htmlparser.sourceforge.net/javadoc/index.html

其它HTML 解释器:jsoup等。由于HtmlParser自2006年以后就再没更新,目前很多人推荐使用jsoup代替它。

2、使用HtmlPaser的关键步骤

(1)通过Parser类创建一个解释器

(2)创建Filter或者Visitor

(3)使用parser根据filter或者visitor来取得所有符合条件的节点

(4)对节点内容进行处理

3、使用Parser的构造函数创建解释器

对于大多数使用者来说,使用最多的是通过一个URLConnection或者一个保存有网页内容的字符串来初始化Parser,或者使用静态函数来生成一个Parser对象。ParserFeedback的代码很简单,是针对调试和跟踪分析过程的,一般不需要改变。而使用Lexer则是一个相对比较高级的话题,放到以后再讨论吧。

这里比较有趣的一点是,如果需要设置页面的编码方式的话,不使用Lexer就只有静态函数一个方法了。对于大多数中文页面来说,好像这是应该用得比较多的一个方法。

4、HtmlPaser使用Node对象保存各节点信息

3f1906f19236f0798483fcb74e7635ab.png

(1)访问各个节点的方法

Node getParent ():取得父节点

NodeList getChildren ():取得子节点的列表

Node getFirstChild ():取得第一个子节点

Node getLastChild ():取得最后一个子节点

Node getPreviousSibling ():取得前一个兄弟(不好意思,英文是兄弟姐妹,直译太麻烦而且不符合习惯,对不起女同胞了)

Node getNextSibling ():取得下一个兄弟节点

(2)取得Node内容的函数

String getText ():取得文本

String toPlainTextString():取得纯文本信息。

String toHtml () :取得HTML信息(原始HTML)

String toHtml (boolean verbatim):取得HTML信息(原始HTML)

String toString ():取得字符串信息(原始HTML)

Page getPage ():取得这个Node对应的Page对象

int getStartPosition ():取得这个Node在HTML页面中的起始位置

int getEndPosition ():取得这个Node在HTML页面中的结束位置

5、使用Filter访问Node节点及其内容

(1)Filter的种类

顾名思义,Filter就是对于结果进行过滤,取得需要的内容。

所有的Filter均实现了NodeFilter接口,此接口只有一个方法Boolean accept(Node node),用于确定某个节点是否属于此Filter过滤的范围。

HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter,也可以分为几类。

TagNameFilterHasAttributeFilter

HasChildFilter

HasParentFilter

HasSiblingFilter

IsEqualFilter

AndFilterNotFilter

OrFilter

XorFilter

NodeClassFilterStringFilter

LinkStringFilter

LinkRegexFilter

RegexFilter

CssSelectorNodeFilter

除此以外,可以自定义一些Filter,用于完成特殊需求的过滤。

(2)Filter的使用示例

以下示例用于提取HTML文件中的链接

packageorg.ljh.search.html;

importjava.util.HashSet;

importjava.util.Set;

importorg.htmlparser.Node;

importorg.htmlparser.NodeFilter;

importorg.htmlparser.Parser;

importorg.htmlparser.filters.NodeClassFilter;

importorg.htmlparser.filters.OrFilter;

importorg.htmlparser.tags.LinkTag;

importorg.htmlparser.util.NodeList;

importorg.htmlparser.util.ParserException;

//本类创建用于HTML文件解释工具

publicclassHtmlParserTool {

// 本方法用于提取某个html文档中内嵌的链接

publicstaticSet extractLinks(String url, LinkFilter filter) {

Set links = newHashSet();

try{

// 1、构造一个Parser,并设置相关的属性

Parser parser = newParser(url);

parser.setEncoding("gb2312");

// 2.1、自定义一个Filter,用于过滤标签,然后取得标签中的src属性值

NodeFilter frameNodeFilter = newNodeFilter() {

@Override

publicbooleanaccept(Node node) {

if(node.getText().startsWith("frame src=")) {

returntrue;

} else{

returnfalse;

}

}

};

//2.2、创建第二个Filter,过滤标签

NodeFilter aNodeFilter = newNodeClassFilter(LinkTag.class);

//2.3、净土上述2个Filter形成一个组合逻辑Filter。

OrFilter linkFilter = newOrFilter(frameNodeFilter, aNodeFilter);

//3、使用parser根据filter来取得所有符合条件的节点

NodeList nodeList = parser.extractAllNodesThatMatch(linkFilter);

//4、对取得的Node进行处理

for(inti =0; i

Node node = nodeList.elementAt(i);

String linkURL = "";

//如果链接类型为

if(nodeinstanceofLinkTag){

LinkTag link = (LinkTag)node;

linkURL= link.getLink();

}else{

//如果类型为

String nodeText = node.getText();

intbeginPosition = nodeText.indexOf("src=");

nodeText = nodeText.substring(beginPosition);

intendPosition = nodeText.indexOf(" ");

if(endPosition == -1){

endPosition = nodeText.indexOf(">");

}

linkURL = nodeText.substring(5, endPosition -1);

}

//判断是否属于本次搜索范围的url

if(filter.accept(linkURL)){

links.add(linkURL);

}

}

} catch(ParserException e) {

e.printStackTrace();

}

returnlinks;

}

}

程序中的一些说明:

(1)通过Node#getText()取得节点的String。

(2)node instanceof TagLink,即节点,其它还有很多的类似节点,如tableTag等,基本上每个常见的html标签均会对应一个tag。官方文档说明如下:

The nodes package has the concrete node implementations.

The tags package contains specific tags.

因此可以通过此方法直接判断一个节点是否某个标签内容。

其中用到的LinkFilter接口定义如下:

packageorg.ljh.search.html;

//本接口所定义的过滤器,用于判断url是否属于本次搜索范围。

publicinterfaceLinkFilter {

publicbooleanaccept(String url);

}

测试程序如下:

packageorg.ljh.search.html;

importjava.util.Iterator;

importjava.util.Set;

importorg.junit.Test;

publicclassHtmlParserToolTest {

@Test

publicvoidtestExtractLinks() {

String url = "http://www.baidu.com";

LinkFilter linkFilter = newLinkFilter(){

@Override

publicbooleanaccept(String url) {

if(url.contains("baidu")){

returntrue;

}else{

returnfalse;

}

}

};

Set urlSet = HtmlParserTool.extractLinks(url, linkFilter);

Iterator it = urlSet.iterator();

while(it.hasNext()){

System.out.println(it.next());

}

}

}

输出结果如下:

http://www.hao123.com

http://www.baidu.com/

http://www.baidu.com/duty/

http://v.baidu.com/v?ct=301989888&rn=20&pn=0&db=0&s=25&word=

http://music.baidu.com

http://ir.baidu.com

http://www.baidu.com/gaoji/preferences.html

http://news.baidu.com

http://map.baidu.com

http://music.baidu.com/search?fr=ps&key=

http://image.baidu.com

http://zhidao.baidu.com

http://image.baidu.com/i?tn=baiduimage&ct=201326592&lm=-1&cl=2&nc=1&word=

http://www.baidu.com/more/

http://shouji.baidu.com/baidusearch/mobisearch.html?ref=pcjg&from=1000139w

http://wenku.baidu.com

http://news.baidu.com/ns?cl=2&rn=20&tn=news&word=

https://passport.baidu.com/v2/?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F

http://www.baidu.com/cache/sethelp/index.html

http://zhidao.baidu.com/q?ct=17&pn=0&tn=ikaslist&rn=10&word=&fr=wwwt

http://tieba.baidu.com/f?kw=&fr=wwwt

http://home.baidu.com

https://passport.baidu.com/v2/?reg&regType=1&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F

http://v.baidu.com

http://e.baidu.com/?refer=888

;

http://tieba.baidu.com

http://baike.baidu.com

http://wenku.baidu.com/search?word=&lm=0&od=0

http://top.baidu.com

http://map.baidu.com/m?word=&fr=ps01000

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_39838028/article/details/114192016

智能推荐

【基础知识】tiff格式图片介绍及读取-程序员宅基地

文章浏览阅读2.3w次,点赞26次,收藏121次。TIFF格式也叫TIF,属于位图格式,全名是。TIFF格式和JPEG及PNG都是属于一种主流且高位彩色图像格式。使用过扫描仪或传真的小伙伴应该还记得,很多品牌及其默认文件就是.tiff后缀。因为TIFF最初的设计目的就是在1980年左右,扫描仪厂商达成一个公用的统一的扫描图像文件格式,而不是每个厂商使用自己专有的格式造成混乱。TIFF是一种比较灵活的图像格式,它的全称是Tagged Image File Format,文件扩展名为TIF或 TIFF。_tiff格式

【干货】谈谈交互中容易混淆的各种“流”(产品经理必看)_节点交互与任务交互的区别-程序员宅基地

文章浏览阅读231次。当我决定想以最容易理解的方式来写一篇关于UX设计流程的文章时,我注意到了一个严重的问题——有的时候设计过程不符合一条单一的逻辑流线。 但是同一个工具怎么会同时有用却又难以理解呢? 所以我阅读了更多相关的内容,我开始慢慢理解。 在本文中,我将讨论从“流程图”到“用户流”的许多不同类型的视觉化图表之间的区别,也借这个机会浅谈为什么它会被这么多人误解。开始之前,我想先说明“流”(flow)这个术语在文中用来表示具有某种顺序或方向的图表。摹客支持PRD文档在线撰写、全貌画板和流程图模式,与富交互原型深度结合.._节点交互与任务交互的区别

Android Studio模拟器如何运行apk文件_android stodio怎么打开一个apk文件目录-程序员宅基地

文章浏览阅读2.1w次,点赞12次,收藏73次。Android手机软件都是以apk为后缀的,而apk文件在电脑中是无法直接运行的,需要在模拟器中安装和打开。如果使用Android Studio中的模拟器,首先需要打开自己的AVD模拟器。将apk文件复制到android studio安装目录里的androidsdk\platform-tools文件夹下(如下图所示文件夹)win+R运行cmd终端,运用指令cd切换到adb.exe所在文件夹下C:\Users\Lenovo>d:D:\>cd andriodD:\andriod&g_android stodio怎么打开一个apk文件目录

整数转换成固定位数的字符串_java固定位数字符串-程序员宅基地

文章浏览阅读3.6k次,点赞2次,收藏4次。int youNumber = 1; // 0 代表前面补充0 // 4 代表长度为4 // d 代表参数为正数型 String str = String.format("%04d", youNumber); System.out.println(str); // 0001_java固定位数字符串

elementUI树形组件el-tree添加层级虚线,指示线_element-plus tree前边的层级线展示-程序员宅基地

文章浏览阅读3.5k次。看实现效果element的官网由提供一个属性 indent ,该属性可以控制相邻级节点间的水平缩进,单位为像素。我们可以将该属性设置为0,然后我们在css中为所有 el-tree-node 设置 padding-left ,就可以达到缩进的效果了!由于每一层 el-tree-node 都被上一层的 el-tree-node 包裹着,上一层的padding会影响到下层的div位置,所以每一层的节点就不会撑满整个树形大盒子了,现在就可以直接根据 el-tree-node 定位伪元素了。实现代码<_element-plus tree前边的层级线展示

Windows下超详细安装Anaconda3以及jupyter notebook_下载anaconda后还要下载jupyter-程序员宅基地

文章浏览阅读3.3k次。1.下载Anaconda安装包Anaconda官网网站:https://www.anaconda.com/products/individual下载安装包速度比较慢,国内小伙伴不建议尝试。我们可以使用清华大学开源软件镜像站:清华大学开源软件镜像站:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/,请选择适合自己系统自行下载。下载完成后如下图:1.安装Anaconda安装包1.打开安装包,点击Next2.点击I Agre_下载anaconda后还要下载jupyter

随便推点

Kafka Consumer 执行 poll 操作时获取空数据的原因分析(2)_consumer.poll获取不到数据-程序员宅基地

文章浏览阅读6.1k次。上一个问题的回答:https://blog.csdn.net/weixin_37392582/article/details/1046851911. 场景当用户需要获取数据时,后端从指定 topic 下消费1条数据;每次操作的间隔为 0~;每个 topic 只有一个 消费者。2. 现象多个topic同时消费数据,经常出现“获取数据失败”的问题;所有的消费者均在一个 group 内。..._consumer.poll获取不到数据

SCRATCH 小游戏-程序员宅基地

文章浏览阅读6k次。scratch 小游戏《五连子》

修改caffe中resize的方式_caffe resize-程序员宅基地

文章浏览阅读824次。opencv的resize默认的是使用双线性插值INTER_LINEAR,也可以是尝试其他的方式进行插值操作if (param.random_interpolation_method()) { // 0: INTER_NEAREST // 1: INTER_LINEAR // 2: INTER_CUBIC // 3: INTER_AREA // 4: IN..._caffe resize

vue路由URL拼接全局参数_vue 在路由拦截里,给url加参数-程序员宅基地

文章浏览阅读3.3k次,点赞3次,收藏6次。vue-router地址栏URL拼接全局参数业务需求:vue单页面项目,需要在URL地址栏拼接固定的参数,在所有页面使用。默认采用vue路由的history模式;hash模式也可以同样适用。主要是在 vue-router 导航守卫的全局前置守卫中实现。即 vue-router 生命周期钩子函数 router.beforeEach 中进行路由拦截处理。主要代码:router.beforeEach((to, from, next) => { if (Object.keys(to.quer_vue 在路由拦截里,给url加参数

区块链学习笔记:DAY05 如何使用公有云区块链服务-程序员宅基地

文章浏览阅读1.3k次。这是最后一节课了,主要讲华为云在云区块链提供的服务,如何基于华为云BCS来构建应用先来个简单的比喻:1.有关BaaS的范围定义包含物理主机、虚拟主机、容器服务、区块链、智能合约和服务2.华为云区块链服务BCS3.华为云BCS特点:1)易用:一键部署,区块链系统全生命周期管理2.易用:可视化智能合约生命周期管理,多语言支持3)高可用:成员动态准入,..._公有云区块链服务

C语言-利用泰勒公式计算sinx的值 (不调用库函数,自己定义函数)_利用泰勒级数sinxc语言-程序员宅基地

文章浏览阅读5.1k次,点赞5次,收藏37次。#include<stdio.h>#include <math.h>//先定义一个阶乘函数double fac(double n){ double f=0; if(n == 1 || n==0) f =1; else f = fac(n-1)*n; return f;}//一个指数函数(次方)double kvat(double n,double ci){ double chengf=1; _利用泰勒级数sinxc语言

推荐文章

热门文章

相关标签