HTML解析器对比

解析HTML是一项自动化工作，由（所谓的）HTML解析器执行。它们有两个主要目的：

解析器	许可证	实现语言	最新日期*	HTML解析^[1]	清理HTML**	修改HTML***
Beautiful Soup (base on lxml and html5lib)^[2]	Python S. F. L.	Python	2013-05-31	是	?	?
Gumbo	Apache License 2.0	C (programming language)	2013-08-13	是	?	?
html5lib	MIT License	Python and PHP	2013-12-23^[3]	是	是	否
HTML::Parser	Perl license	Perl	2013-03-28	否^[4]	?	?
htmlPurifier	GNU Lesser GPL	PHP	2009-03-25^[5]	否	是	是
HTML Tidy	W3C license	ANSI C	2009-03-25^[6]	是^[7]	是	?
HtmlCleaner	BSD License^[8]	Java	2013-09-05	否	是	?
Hubbub	MIT License	C (programming language)	2013-04-19	是	?	?
Jaunt API	Jaunt Beta License	Java	2013-08-01	是	是	否
Jericho HTML Parser	Eclipse Public License	Java	2012-10-30^[9]	否??	?	?
jsdom	MIT license	JavaScript	2013-07-21	否	?	?
jsoup	MIT license	Java	2013-01-27^[10]	是	是	是
JTidy	JTidy License	Java	2009-12-01^[11]	是	?	?
libxml2 HTMLparser	MIT License	C (programming language)	2012-09-11^[12]	是	?	?
NekoHTML	Apache License 2.0	Java	2013-02-27^[13]	否	?	?
TagSoup	Apache License 2.0	Java	2011-07-07	否	?	?
Validator.nu HTML Parser	MIT License	Java	2012-06-05	是	?	?
Parser	License	Implementation language(s)	Latest date*	HTML Parsing	Clean HTML**	Update HTML***

* （有重要更新的）最新版本日期。

** 规范（生成标准兼容的网页，减少垃圾信息，等）和清理（剥离过剩的表达标签，移除XSS代码，等）HTML代码。

*** 将HTML4.X升级到XHTML或HTML5，将废弃的标签（如CENTER）转换为有效的标签（如带有style="text-align:center;"的DIV）。

References