python—爬虫爬取电影页面实例

红米煮粥 2024-07-25 08:05:04 阅读 60

下面是一个简单的爬虫实例，使用Python的requests库来发送HTTP请求，并使用lxml库来解析HTML页面内容。这个爬虫的目标是抓取一个电影网站，并提取每部电影的主义部分。

首先，确保你已经安装了requests和lxml库。如果没有安装，可以通过pip安装它们：

<code>pip install lxml

安装好lxml库后，就可以在Python代码中通过from lxml import etree来导入etree模块，并使用它提供的各种功能。

然后，我们可以编写如下的爬虫脚本：

import re

import fake_useragent

import requests

from lxml import etree

if __name__ == '__main__':

# UA伪装

head = {

"User-Agent": fake_useragent.UserAgent().random

}

fp = open("./douban", "w", encoding="utf8")code>

# 1.url

for i in range(0,250,25):

url = "https://movie.douban.com/top250?start={i}&filter="

# 2.发送请求

response = requests.get(url, headers=head)

# 3.获取想要的数据

res_text = response.text

# 4.数据解析

tree = etree.HTML(res_text)

# 定位所有的li标签

li_list = tree.xpath("//ol[@class='grid_view']/li")code>

for li in li_list:

film_name = "".join(li.xpath(".//span[@class='title'][1]/text()"))code>

director_actor_y_country_type = "".join(li.xpath(".//div[@class='bd']/p[1]/text()"))code>

score = "".join(li.xpath(".//span[@class='rating_num']/text()"))code>

quote = "".join(li.xpath(".//span[@class='inq']/text()"))code>

new_str = director_actor_y_country_type.strip()

y = re.match(r"([\s\S]+?)(\d+)(.*?)", new_str).group(2)

country = new_str.rsplit("/")[-2].strip()

types = new_str.rsplit("/")[-1].strip()

director = re.match(r"导演: ([a-zA-Z\u4e00-\u9fa5·]+)(.*?)", new_str).group(1)

try:

actor = re.match(r"(.*?)主演: ([a-zA-Z\u4e00-\u9fa5·]+)(.*?)", new_str).group(2)

except Exception as e:

actor = "no"

fp.write(film_name + "#" + y + "#" + country + "#" + types + "#" + director + "#" + actor + "#" + score + "#" + quote + "\n")

print(film_name, score, quote, y, country, types, director)

fp.close()

这段代码是一个Python脚本，用于从豆瓣电影Top 250页面抓取电影信息，并将这些信息保存到本地文件中。下面是对代码的详细解释：

`1.导入必要的库：`

 re: 用于正则表达式匹配。
 fake_useragent: 用于生成随机的User-Agent，以模拟不同的浏览器访问，避免被网站识别为爬虫。
 requests: 用于发送HTTP请求。
 lxml.etree: 用于解析HTML文档，提取所需信息。
 
2.设置User-Agent：
 使用fake_useragent.UserAgent().random生成一个随机的User-Agent，并存储在head字典中，作为HTTP请求头的一部分。
 
3.打开文件：
 使用open(“./douban”, “w”, encoding=“utf8”)以写入模式打开（或创建）一个名为douban的文件，用于存储抓取的电影信息。
 
4.循环请求豆瓣电影Top 250页面：
 通过循环，每次请求豆瓣电影Top 250页面的一个子集，start参数从0开始，每次增加25，直到250（但不包括250，因为range的结束值是开区间）。
 
5.发送HTTP请求：
 使用requests.get(url, headers=head)发送GET请求，请求头中包含之前设置的User-Agent。
 
6.解析HTML文档：
 使用etree.HTML(res_text)将响应的文本内容解析为HTML文档。
 通过XPath表达式//ol[@class=‘grid_view’]/li定位所有包含电影信息的li标签。
 
7.提取电影信息：
 遍历每个li标签，提取电影名称、导演/演员/年份/国家/类型、评分、简介等信息。
 使用正则表达式处理director_actor_y_country_type字符串，以提取年份、国家和类型。
 注意，这里对演员信息的提取使用了异常处理，如果正则表达式匹配失败（例如，某些电影信息中可能没有演员信息），则将演员设置为"no"。
 
8.写入文件：
 将提取的电影信息拼接成字符串，并写入之前打开的文件中，每条信息占一行。
 
9.关闭文件：
 循环结束后，关闭文件。
 
 这里我们截取了部分输出结果的信息，可以看到已经成功爬取电影网站中的部分信息，这个简单的爬虫示例展示了如何发送HTTP请求、解析HTML内容以及提取所需信息的基本流程。

 
 
   上一篇： 【C++练级之路】【Lv.26】类型转换 
  下一篇： Python --- 如何修改Jupyter Notebook保存文件的路径？ 
  本文标签 
  python—爬虫爬取电影页面实例    
 
  
  声明
  本文内容仅代表作者观点，或转载于其他网站，本站不以此文作为商业用途
 如有涉及侵权，请联系本站进行删除
 转载本站原创文章，请注明来源及作者。

python—爬虫爬取电影页面实例

`1.导入必要的库：`

2.设置User-Agent：

3.打开文件：

4.循环请求豆瓣电影Top 250页面：

5.发送HTTP请求：

6.解析HTML文档：

7.提取电影信息：

8.写入文件：

9.关闭文件：

本文标签

声明

相关文章

阅读排行

热门文章