java htmlparser 使用教程_HtmlParser基础教程-程序员宅基地

技术标签： java htmlparser 使用教程

1、相关资料

官方文档：http://htmlparser.sourceforge.net/samples.html

API：http://htmlparser.sourceforge.net/javadoc/index.html

其它HTML 解释器：jsoup等。由于HtmlParser自2006年以后就再没更新，目前很多人推荐使用jsoup代替它。

2、使用HtmlPaser的关键步骤

(1)通过Parser类创建一个解释器

(2)创建Filter或者Visitor

(3)使用parser根据filter或者visitor来取得所有符合条件的节点

(4)对节点内容进行处理

3、使用Parser的构造函数创建解释器

对于大多数使用者来说，使用最多的是通过一个URLConnection或者一个保存有网页内容的字符串来初始化Parser，或者使用静态函数来生成一个Parser对象。ParserFeedback的代码很简单，是针对调试和跟踪分析过程的，一般不需要改变。而使用Lexer则是一个相对比较高级的话题，放到以后再讨论吧。

这里比较有趣的一点是，如果需要设置页面的编码方式的话，不使用Lexer就只有静态函数一个方法了。对于大多数中文页面来说，好像这是应该用得比较多的一个方法。

4、HtmlPaser使用Node对象保存各节点信息

(1)访问各个节点的方法

Node getParent ()：取得父节点

NodeList getChildren ()：取得子节点的列表

Node getFirstChild ()：取得第一个子节点

Node getLastChild ()：取得最后一个子节点

Node getPreviousSibling ()：取得前一个兄弟(不好意思，英文是兄弟姐妹，直译太麻烦而且不符合习惯，对不起女同胞了)

Node getNextSibling ()：取得下一个兄弟节点

(2)取得Node内容的函数

String getText ()：取得文本

String toPlainTextString()：取得纯文本信息。

String toHtml () ：取得HTML信息(原始HTML)

String toHtml (boolean verbatim)：取得HTML信息(原始HTML)

String toString ()：取得字符串信息(原始HTML)

Page getPage ()：取得这个Node对应的Page对象

int getStartPosition ()：取得这个Node在HTML页面中的起始位置

int getEndPosition ()：取得这个Node在HTML页面中的结束位置

5、使用Filter访问Node节点及其内容

(1)Filter的种类

顾名思义，Filter就是对于结果进行过滤，取得需要的内容。

所有的Filter均实现了NodeFilter接口，此接口只有一个方法Boolean accept(Node node)，用于确定某个节点是否属于此Filter过滤的范围。

HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter，也可以分为几类。

TagNameFilterHasAttributeFilter

HasChildFilter

HasParentFilter

HasSiblingFilter

IsEqualFilter

AndFilterNotFilter

OrFilter

XorFilter

NodeClassFilterStringFilter

LinkStringFilter

LinkRegexFilter

RegexFilter

CssSelectorNodeFilter

除此以外，可以自定义一些Filter，用于完成特殊需求的过滤。

(2)Filter的使用示例

以下示例用于提取HTML文件中的链接

packageorg.ljh.search.html;

importjava.util.HashSet;

importjava.util.Set;

importorg.htmlparser.Node;

importorg.htmlparser.NodeFilter;

importorg.htmlparser.Parser;

importorg.htmlparser.filters.NodeClassFilter;

importorg.htmlparser.filters.OrFilter;

importorg.htmlparser.tags.LinkTag;

importorg.htmlparser.util.NodeList;

importorg.htmlparser.util.ParserException;

//本类创建用于HTML文件解释工具

publicclassHtmlParserTool {

// 本方法用于提取某个html文档中内嵌的链接

publicstaticSet extractLinks(String url, LinkFilter filter) {

Set links = newHashSet();

try{

// 1、构造一个Parser，并设置相关的属性

Parser parser = newParser(url);

parser.setEncoding("gb2312");

// 2.1、自定义一个Filter，用于过滤标签，然后取得标签中的src属性值

NodeFilter frameNodeFilter = newNodeFilter() {

@Override

publicbooleanaccept(Node node) {

if(node.getText().startsWith("frame src=")) {

returntrue;

} else{

returnfalse;

}

};

//2.2、创建第二个Filter，过滤标签

NodeFilter aNodeFilter = newNodeClassFilter(LinkTag.class);

//2.3、净土上述2个Filter形成一个组合逻辑Filter。

OrFilter linkFilter = newOrFilter(frameNodeFilter, aNodeFilter);

//3、使用parser根据filter来取得所有符合条件的节点

NodeList nodeList = parser.extractAllNodesThatMatch(linkFilter);

//4、对取得的Node进行处理

for(inti =0; i

Node node = nodeList.elementAt(i);

String linkURL = "";

//如果链接类型为

if(nodeinstanceofLinkTag){

LinkTag link = (LinkTag)node;

linkURL= link.getLink();

}else{

//如果类型为

String nodeText = node.getText();

intbeginPosition = nodeText.indexOf("src=");

nodeText = nodeText.substring(beginPosition);

intendPosition = nodeText.indexOf(" ");

if(endPosition == -1){

endPosition = nodeText.indexOf(">");

}

linkURL = nodeText.substring(5, endPosition -1);

}

//判断是否属于本次搜索范围的url

if(filter.accept(linkURL)){

links.add(linkURL);

}

} catch(ParserException e) {

e.printStackTrace();

}

returnlinks;

}

程序中的一些说明：

(1)通过Node#getText()取得节点的String。

(2)node instanceof TagLink，即节点，其它还有很多的类似节点，如tableTag等，基本上每个常见的html标签均会对应一个tag。官方文档说明如下：

The nodes package has the concrete node implementations.

The tags package contains specific tags.

因此可以通过此方法直接判断一个节点是否某个标签内容。

其中用到的LinkFilter接口定义如下：

packageorg.ljh.search.html;

//本接口所定义的过滤器，用于判断url是否属于本次搜索范围。

publicinterfaceLinkFilter {

publicbooleanaccept(String url);

}

测试程序如下：

packageorg.ljh.search.html;

importjava.util.Iterator;

importjava.util.Set;

importorg.junit.Test;

publicclassHtmlParserToolTest {

@Test

publicvoidtestExtractLinks() {

String url = "http://www.baidu.com";

LinkFilter linkFilter = newLinkFilter(){

@Override

publicbooleanaccept(String url) {

if(url.contains("baidu")){

returntrue;

}else{

returnfalse;

}

};

Set urlSet = HtmlParserTool.extractLinks(url, linkFilter);

Iterator it = urlSet.iterator();

while(it.hasNext()){

System.out.println(it.next());

}

输出结果如下：

http://www.hao123.com

http://www.baidu.com/

http://www.baidu.com/duty/

http://v.baidu.com/v?ct=301989888&rn=20&pn=0&db=0&s=25&word=

http://music.baidu.com

http://ir.baidu.com

http://www.baidu.com/gaoji/preferences.html

http://news.baidu.com

http://map.baidu.com

http://music.baidu.com/search?fr=ps&key=

http://image.baidu.com

http://zhidao.baidu.com

http://image.baidu.com/i?tn=baiduimage&ct=201326592&lm=-1&cl=2&nc=1&word=

http://www.baidu.com/more/

http://shouji.baidu.com/baidusearch/mobisearch.html?ref=pcjg&from=1000139w

http://wenku.baidu.com

http://news.baidu.com/ns?cl=2&rn=20&tn=news&word=

https://passport.baidu.com/v2/?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F

http://www.baidu.com/cache/sethelp/index.html

http://zhidao.baidu.com/q?ct=17&pn=0&tn=ikaslist&rn=10&word=&fr=wwwt

http://tieba.baidu.com/f?kw=&fr=wwwt

http://home.baidu.com

https://passport.baidu.com/v2/?reg&regType=1&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F

http://v.baidu.com

http://e.baidu.com/?refer=888

;

http://tieba.baidu.com

http://baike.baidu.com

http://wenku.baidu.com/search?word=&lm=0&od=0

http://top.baidu.com

http://map.baidu.com/m?word=&fr=ps01000

本文链接：https://blog.csdn.net/weixin_39838028/article/details/114192016

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

【基础知识】tiff格式图片介绍及读取-程序员宅基地

文章浏览阅读2.3w次，点赞26次，收藏121次。TIFF格式也叫TIF，属于位图格式，全名是。TIFF格式和JPEG及PNG都是属于一种主流且高位彩色图像格式。使用过扫描仪或传真的小伙伴应该还记得，很多品牌及其默认文件就是.tiff后缀。因为TIFF最初的设计目的就是在1980年左右，扫描仪厂商达成一个公用的统一的扫描图像文件格式，而不是每个厂商使用自己专有的格式造成混乱。TIFF是一种比较灵活的图像格式，它的全称是Tagged Image File Format，文件扩展名为TIF或 TIFF。_tiff格式

【干货】谈谈交互中容易混淆的各种“流”（产品经理必看）_节点交互与任务交互的区别-程序员宅基地

文章浏览阅读231次。当我决定想以最容易理解的方式来写一篇关于UX设计流程的文章时，我注意到了一个严重的问题——有的时候设计过程不符合一条单一的逻辑流线。但是同一个工具怎么会同时有用却又难以理解呢？所以我阅读了更多相关的内容，我开始慢慢理解。在本文中，我将讨论从“流程图”到“用户流”的许多不同类型的视觉化图表之间的区别，也借这个机会浅谈为什么它会被这么多人误解。开始之前，我想先说明“流”（flow)这个术语在文中用来表示具有某种顺序或方向的图表。摹客支持PRD文档在线撰写、全貌画板和流程图模式，与富交互原型深度结合.._节点交互与任务交互的区别

Android Studio模拟器如何运行apk文件_android stodio怎么打开一个apk文件目录-程序员宅基地

文章浏览阅读2.1w次，点赞12次，收藏73次。Android手机软件都是以apk为后缀的，而apk文件在电脑中是无法直接运行的，需要在模拟器中安装和打开。如果使用Android Studio中的模拟器，首先需要打开自己的AVD模拟器。将apk文件复制到android studio安装目录里的androidsdk\platform-tools文件夹下（如下图所示文件夹）win+R运行cmd终端，运用指令cd切换到adb.exe所在文件夹下C:\Users\Lenovo>d:D:\>cd andriodD:\andriod&g_android stodio怎么打开一个apk文件目录

整数转换成固定位数的字符串_java固定位数字符串-程序员宅基地

文章浏览阅读3.6k次，点赞2次，收藏4次。int youNumber = 1; // 0 代表前面补充0 // 4 代表长度为4 // d 代表参数为正数型 String str = String.format("%04d", youNumber); System.out.println(str); // 0001_java固定位数字符串

elementUI树形组件el-tree添加层级虚线，指示线_element-plus tree前边的层级线展示-程序员宅基地

文章浏览阅读3.5k次。看实现效果element的官网由提供一个属性 indent ，该属性可以控制相邻级节点间的水平缩进，单位为像素。我们可以将该属性设置为0，然后我们在css中为所有 el-tree-node 设置 padding-left ，就可以达到缩进的效果了！由于每一层 el-tree-node 都被上一层的 el-tree-node 包裹着，上一层的padding会影响到下层的div位置，所以每一层的节点就不会撑满整个树形大盒子了，现在就可以直接根据 el-tree-node 定位伪元素了。实现代码<_element-plus tree前边的层级线展示

Windows下超详细安装Anaconda3以及jupyter notebook_下载anaconda后还要下载jupyter-程序员宅基地

文章浏览阅读3.3k次。1.下载Anaconda安装包Anaconda官网网站：https://www.anaconda.com/products/individual下载安装包速度比较慢，国内小伙伴不建议尝试。我们可以使用清华大学开源软件镜像站：清华大学开源软件镜像站：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/，请选择适合自己系统自行下载。下载完成后如下图：1.安装Anaconda安装包1.打开安装包，点击Next2.点击I Agre_下载anaconda后还要下载jupyter

随便推点

Kafka Consumer 执行 poll 操作时获取空数据的原因分析（2）_consumer.poll获取不到数据-程序员宅基地

文章浏览阅读6.1k次。上一个问题的回答：https://blog.csdn.net/weixin_37392582/article/details/1046851911. 场景当用户需要获取数据时，后端从指定 topic 下消费1条数据；每次操作的间隔为 0～；每个 topic 只有一个消费者。2. 现象多个topic同时消费数据，经常出现“获取数据失败”的问题；所有的消费者均在一个 group 内。..._consumer.poll获取不到数据

SCRATCH 小游戏-程序员宅基地

文章浏览阅读6k次。scratch 小游戏《五连子》

修改caffe中resize的方式_caffe resize-程序员宅基地

文章浏览阅读824次。opencv的resize默认的是使用双线性插值INTER_LINEAR,也可以是尝试其他的方式进行插值操作if (param.random_interpolation_method()) { // 0: INTER_NEAREST // 1: INTER_LINEAR // 2: INTER_CUBIC // 3: INTER_AREA // 4: IN..._caffe resize

vue路由URL拼接全局参数_vue 在路由拦截里,给url加参数-程序员宅基地

文章浏览阅读3.3k次，点赞3次，收藏6次。vue-router地址栏URL拼接全局参数业务需求：vue单页面项目，需要在URL地址栏拼接固定的参数，在所有页面使用。默认采用vue路由的history模式；hash模式也可以同样适用。主要是在 vue-router 导航守卫的全局前置守卫中实现。即 vue-router 生命周期钩子函数 router.beforeEach 中进行路由拦截处理。主要代码：router.beforeEach((to, from, next) => { if (Object.keys(to.quer_vue 在路由拦截里,给url加参数

区块链学习笔记：DAY05 如何使用公有云区块链服务-程序员宅基地

文章浏览阅读1.3k次。这是最后一节课了，主要讲华为云在云区块链提供的服务，如何基于华为云BCS来构建应用先来个简单的比喻：1.有关BaaS的范围定义包含物理主机、虚拟主机、容器服务、区块链、智能合约和服务2.华为云区块链服务BCS3.华为云BCS特点：1）易用：一键部署，区块链系统全生命周期管理2.易用：可视化智能合约生命周期管理，多语言支持3）高可用：成员动态准入，..._公有云区块链服务

C语言-利用泰勒公式计算sinx的值（不调用库函数，自己定义函数）_利用泰勒级数sinxc语言-程序员宅基地

文章浏览阅读5.1k次，点赞5次，收藏37次。#include<stdio.h>#include <math.h>//先定义一个阶乘函数double fac(double n){ double f=0; if(n == 1 || n==0) f =1; else f = fac(n-1)*n; return f;}//一个指数函数(次方)double kvat(double n,double ci){ double chengf=1; _利用泰勒级数sinxc语言