超级详细的BeautifulSoup使用方法【转】

(2024-04-20 14:10:51)

标签：

beautifulsoup

python

html或xml的解析库

分类：软件工具

超级详细的BeautifulSoup使用方法

BeautifulSoup 的使用

我们学习了正则表达式的相关用法，但是一旦正则写的有问题，可能得到的就不是我们想要的结果了，而且对于一个网页来说，都有一定的特殊的结构和层级关系，而且很多标签都有 id 或 class 来对作区分，所以我们借助于它们的结构和属性来提取不也是可以的吗？

所以，这一节我们就介绍一个强大的解析工具，叫做 BeautiSoup，它就是借助网页的结构和属性等特性来解析网页的工具，有了它我们不用再去写一些复杂的正则，只需要简单的几条语句就可以完成网页中某个元素的提取。

废话不多说，接下来我们就来感受一下 BeautifulSoup 的强大之处吧。

BeautifulSoup 简介

简单来说，BeautifulSoup 就是 Python 的一个 HTML 或 XML 的解析库，我们可以用它来方便地从网页中提取数据，官方的解释如下：

BeautifulSoup 提供一些简单的、python 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。BeautifulSoup 自动将输入文档转换为 Unicode 编码，输出文档转换为 utf-8 编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时你仅仅需要说明一下原始编码方式就可以了。BeautifulSoup 已成为和 lxml、html6lib 一样出色的 python 解释器，为用户灵活地提供不同的解析策略或强劲的速度。

所以说，利用它我们可以省去很多繁琐的提取工作，提高解析效率。

安装

使用之前，我们当然需要首先说明一下它的安装方式。目前 BeautifulSoup 的最新版本是 4.x 版本，之前的版本已经停止开发了，推荐使用 pip 来安装，安装命令如下：

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：anaconda安装模块requests

后一篇：BeautifulSoup详细使用方法【转】

新浪BLOG意见反馈留言板　欢迎批评指正