跳转到内容

HTML解析器对比

维基百科,自由的百科全书

这是本页的一个历史版本,由Ma3r留言 | 贡献2014年5月7日 (三) 07:56 (调整格式、排版)编辑。这可能和当前版本存在着巨大的差异。

解析HTML是一项自动化工作,由(所谓的)HTML解析器执行。它们有两个主要目的:

  • HTML遍历:为程序员提供一个接口,来轻松地访问和修改“HTML代码”。典型例子:DOM解析器
  • HTML清理:修正有语法错误的HTML,改善结果标记的布局和缩进样式。典型例子:HTML Tidy
解析器 许可证 实现语言 最新日期* HTML解析[1] 清理HTML** 升级HTML***
Beautiful Soup[2] Python S. F. L. Python 2013-05-31
Gumbo Apache许可证2.0 C 2013-08-13
html5lib MIT许可证 PythonPHP 2013-12-23[3]
HTML::Parser 艺术许可协议 Perl 2013-03-28 [4]
htmlPurifier GNU宽GPL PHP 2009-03-25[5]
HTML Tidy W3C许可证英语W3C Software Notice and License ANSI C 2009-03-25[6] [7]
HtmlCleaner BSD许可证[8] Java 2013-09-05
Hubbub MIT许可证 C 2013-04-19
Jaunt API Jaunt Beta许可证 Java 2013-08-01
Jericho HTML Parser Eclipse公共许可证 Java 2012-10-30[9] 否??
jsdom MIT许可证 JavaScript 2013-07-21
jsoup MIT许可证 Java 2013-01-27[10]
JTidy JTidy许可证 Java 2009-12-01[11]
libxml2 HTMLparser MIT许可证 C 2012-09-11[12]
NekoHTML Apache许可证2.0 Java 2013-02-27[13]
TagSoup Apache许可证2.0 Java 2011-07-07
Validator.nu HTML Parser MIT许可证 Java 2012-06-05
解析器 许可证 实现语言 最新日期* HTML解析 清理HTML** 升级HTML***
* (有重要更新的)最新版本日期。
** 规范(生成标准兼容的网页,减少垃圾信息,等)和清理(剥离过剩的表达标签,移除XSS代码,等)HTML代码。
*** 将HTML4.X升级到XHTML或HTML5,将废弃的标签(如CENTER)转换为有效的标签(如带有style="text-align:center;"的DIV)。

参考资料