pyspider爬虫教程(1)：HTML和CSS选择

虽然以前写过如何抓取WEB页面和如何从 WEB 页面中提取信息。但是感觉还是需要一篇 step by step 的教程，不然没有一个总体的认识。不过，没想到这个教程居然会变成一篇译文，在这个爬虫教程系列文章中，会以实际的例子，由浅入深讨论爬取(抓取和解析)的一些关键问题。

在教程一中，我们将要爬取的网站是豆瓣电影：http://movie.douban.com/
你可以在: http://demo.pyspider.org/debug/tutorial_douban_movie 获得完整的代码，和进行测试。

向光路径科技

2024全新的计算机网络技术专业个人简历下载，Hr最喜欢的计算机网络技术专业个人简历下载，600万大学生选择的计算机网络技术专业个人简历免费使用。海量的计算机网络技术专业个人简历供你选择，更有秋招大礼包等你免费拿!

2025-03-29 02:09广告

立即查看

开始之前
由于教程是基于 pyspider 的，你可以安装一个 pyspider(Quickstart，也可以直接使用 pyspider 的 demo 环境： http://demo.pyspider.org/。

所以，爬网页实际上就是：
找到包含我们需要的信息的网址(URL)列表
通过 HTTP 协议把页面下载回来
从页面的 HTML 中解析出需要的信息
找到更多这个的 URL，回到 2 继续

选取一个开始网址
既然我们要爬所有的电影，首先我们需要抓一个电影列表，一个好的列表应该：
包含足够多的电影的 URL
通过翻页，可以遍历到所有的电影
一个按照更新时间排序的列表，可以更快抓到最新更新的电影

我们在 http://movie.douban.com/ 扫了一遍，发现并没有一个列表能包含所有电影，只能退而求其次，通过抓取分类下的所有的标签列表页，来遍历所有的电影： http://movie.douban.com/tag/

创建一个项目
在 pyspider 的 dashboard 的右下角，点击 “Create” 按钮

武汉黎火文化传媒

体检身体主要检哪几大项目，2分钟测试您的健康问题，只需对症答题，方便快捷，在家也可以检测，发现多种重要疾病的有效措施。点击测试

2025-03-29 02:09广告

立即查看

点击绿色的 run 执行，你会看到 follows 上面有一个红色的 1，切换到 follows 面板，点击绿色的播放按钮：

Tag 列表页
在 tag 列表页中，我们需要提取出所有的电影列表页的 URL。你可能已经发现了，sample handler 已经提取了非常多大的 URL，所有，一种可行的提取列表页 URL 的方法就是用正则从中过滤出来：

import re
...
@config(age=10 * 24 * 60 * 60)
def index_page(self, response):
for each in response.doc('a[href^="http"]').items():
if re.match("http://movie.douban.com/tag/\w+", each.attr.href, re.U):
self.crawl(each.attr.href, callback=self.list_page)

由于电影列表页和 tag列表页长的并不一样，在这里新建了一个 callback 为 self.list_page
@config(age=10 * 24 * 60 * 60) 在这表示我们认为 10 天内页面有效，不会再次进行更新抓取
由于 pyspider 是纯 Python 环境，你可以使用 Python 强大的内置库，或者你熟悉的第三方库对页面进行解析。不过更推荐使用 CSS选择器。

电影列表页
再次点击 run 让我们进入一个电影列表页(list_page)。在这个页面中我们需要提取：
电影的链接，例如，http://movie.douban.com/subject/1292052/
下一页的链接，用来翻页

CSS选择器
CSS选择器，顾名思义，是 CSS 用来定位需要设置样式的元素所使用的表达式。既然前端程序员都使用 CSS选择器为页面上的不同元素设置样式，我们也可以通过它定位需要的元素。你可以在 CSS 选择器参考手册这里学习更多的 CSS选择器语法。

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

1 2 下一页尾页
26回复贴，共2页
，跳到页

<<返回网络技术吧

分享到:

日	一	二	三	四	五	六