HTML解析器对比

解析HTML是一项自动化工作，由（所谓的）HTML解析器执行。它们有两个主要目的：

解析器	许可证	实现语言	最新日期*	HTML解析^[1]	清理HTML**	升级HTML***
Beautiful Soup^[2]	Python S. F. L.	Python	2013-05-31	是	？	？
Gumbo	Apache许可证2.0	C	2013-08-13	是	？	？
html5lib	MIT许可证	Python和PHP	2013-12-23^[3]	是	是	否
HTML::Parser	艺术许可协议	Perl	2013-03-28	否^[4]	？	？
htmlPurifier	GNU宽GPL	PHP	2009-03-25^[5]	否	是	是
HTML Tidy	W3C许可证（英语：W3C Software Notice and License）	ANSI C	2009-03-25^[6]	是^[7]	是	？
HtmlCleaner	BSD许可证^[8]	Java	2013-09-05	否	是	？
Hubbub	MIT许可证	C	2013-04-19	是	？	？
Jaunt API	Jaunt Beta许可证	Java	2013-08-01	是	是	否
Jericho HTML Parser	Eclipse公共许可证	Java	2012-10-30^[9]	否？？	？	？
jsdom	MIT许可证	JavaScript	2013-07-21	否	？	？
jsoup	MIT许可证	Java	2013-01-27^[10]	是	是	是
JTidy	JTidy许可证	Java	2009-12-01^[11]	是	？	？
libxml2 HTMLparser	MIT许可证	C	2012-09-11^[12]	是	？	？
NekoHTML	Apache许可证2.0	Java	2013-02-27^[13]	否	？	？
TagSoup	Apache许可证2.0	Java	2011-07-07	否	？	？
Validator.nu HTML Parser	MIT许可证	Java	2012-06-05	是	？	？
解析器	许可证	实现语言	最新日期*	HTML解析	清理HTML**	升级HTML***

* （有重要更新的）最新版本日期。

** 规范（生成标准兼容的网页，减少垃圾信息，等）和清理（剥离过剩的表达标签，移除XSS代码，等）HTML代码。

*** 将HTML4.X升级到XHTML或HTML5，将废弃的标签（如CENTER）转换为有效的标签（如带有style="text-align:center;"的DIV）。

参考资料