Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。 对于Ruby,使用Rubyful Soup。
Beautiful Soup的官方中文文档地址:
http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html
1.Beautiful Soup的下载和安装
下载地址:http://www.crummy.com/software/BeautifulSoup/download/3.x/
推荐下载BeautifulSoup-3.2.0.tar.gz
Windows环境下:
直接用Winrar或者其他解压软件解压,然后运行cmd(在Beautiful Soup-3.2.0的文件夹下shift+鼠标右键即可),输入:
setup.py install
然后Beautiful Soup的文件就自动复制到了Python\Lib\site-packages下面,运行BeautifulSoupTests.py,测试是否安装成功即可。
2.Beautiful Soup的使用
(1)一般来说下面三句选择一句合适的即可
from BeautifulSoup import BeautifulSoup # For processing HTML
from BeautifulSoup import BeautifulStoneSoup # For processing XML
import BeautifulSoup # To get everything
(2)创建Beautiful Soup对象
from BeautifulSoup import BeautifulSoup
html = "<html><p>Para 1<p>Para 2<blockquote>Quote 1<blockquote>Quote 2"
soup = BeautifulSoup(html)
不用担心,BeautifulSoup 会智能判断那些需要添加关闭标签的位置,即使原始的文档没有。
(3)Beautiful Soup常用的方法
soup.prettify() 规范化html,包括缩进和自动闭合部分标签
soup.find(name, attrs, recursive, text, **kwargs) 参数name 匹配tags的名字、keyword参数用于筛选tag的属性,此外还可以根据Css类进行匹配
分享到:
相关推荐
简谈buntu之DIY发行版.pdf 简谈buntu之DIY发行版.pdf 简谈buntu之DIY发行版.pdf
简谈Windows下的反调试技术 简谈Windows下的反调试技术 简谈Windows下的反调试技术 简谈Windows下的反调试技术 简谈Windows下的反调试技术 简谈Windows下的反调试技术
手机成像技术简谈.pdf
手机成像技术简谈.doc
班级管理方法简谈.doc
房地产开发流程简谈.pptx
大众车系编码简谈.pdf
简谈英文自我介绍精选.doc
简谈ERP上机实验心得体会
简谈计算机应用基础教学 简谈计算机应用基础教学 任务驱动教学法是一种建立在建构主义学习理论基础上的教学法,怎样分析计算 机应用基础教学? 一、引言 从事中职计算机教学多年来,发现了一个非常普遍的现象,即使...
简谈环境工程的发展史.doc
简谈小学数学的教学技巧.doc
简谈高层建筑的消防管理.docx
营销渠道研究常见问题简谈.doc
计算机网络安全漏洞防范简谈.pdf
.NET简谈事务、分布式事务处理 ,DTC应用
简谈手机游戏移植,从网上看到的一篇文章,感觉挺好的,尤其在最近深受移植之苦之时,看了看,挺好!与君共享!
简谈校园网络安全方案的设计.pdf