HTML解析器对比
外观
此條目目前正依照其他维基百科上的内容进行翻译。 (2014年5月) |
解析HTML是一项自动化工作,由(所谓的)HTML解析器执行。它们有两个主要目的:
- * (有重要更新的)最新版本日期。
- ** 规范(生成标准兼容的网页,减少垃圾信息,等)和清理(剥离过剩的表达标签,移除XSS代码,等)HTML代码。
- *** 将HTML4.X升级到XHTML或HTML5,将废弃的标签(如CENTER)转换为有效的标签(如带有style="text-align:center;"的DIV)。
References
- ^ 12.2 解析HTML文档——HTML标准(英文)
- ^ http://www.crummy.com/software/BeautifulSoup/
- ^ Releases · html5lib/html5lib-python
- ^ Bug #53300 for HTML-Parser: HTML 5
- ^ HTML Tidy for Windows
- ^ HTML Tidy for Windows
- ^ Tidy parser example: class.tidynode of PHP
- ^ HtmlCleaner is distributed under BSD License
- ^ Jericho HTML Parser - Browse /jericho-html/3.3 at SourceForge.net
- ^ jsoup/CHANGES at master · jhy/jsoup · GitHub
- ^ JTidy - Browse /JTidy at SourceForge.net
- ^ libxml2 Releases
- ^ NekoHTML | Change History