网络爬虫_爬(电影天堂) – word.zhuohua.store

例子一：

保存通过URL（https://m.dytt8.net/index2.htm）获取到的网页源代码和内容：

连接公网安装第三方库（requests）：

C:\Users\jacky\Desktop>pip3 install requests -i http://mirrors.aliyun.com/pypi/simple –trusted-host=mirrors.aliyun.com

脚本内容：

#coding=utf-8

import requests

url = ‘https://m.dytt8.net/index2.htm’ #网站 (电影天堂)的URL

response = requests.get(url=url)

response.encoding = ‘gbk’ #有些网站使用gbk，有些网站使用utf-8

Key_1 = response.text

#print(Key_1)

Path_1 = “./1.txt”

f_name = open(Path_1,’w’,encoding=’utf-8′) #写入（覆盖）文件内容

Result_1 = f_name.write(Key_1)

f_name.close()

运行脚本的结果：（脚本所在目录下会生成文件1.txt，文件里会包含网页源代码和内容）

C:\Users\jacky\Desktop>python xx.py

C:\Users\jacky\Desktop>

######

例子二：

从例子一获取的数据中筛选出版块[最新电影下载]下的所有电影名称：

笺注：

版块[最新电影下载]下的电影名称格式，如下：

[<a href=”/html/gndy/dyzz/index.html”>最新电影下载</a>]<a href=’/html/gndy/dyzz/20220527/62647.html’>2022年剧情《以青春之名》HD国语中字</a><br/>

[<a href=”/html/gndy/dyzz/index.html”>最新电影下载</a>]<a href=’/html/gndy/dyzz/20220527/62645.html’>2022年爱情喜剧《替身演员》BD中英双字</a><br/>

[<a href=”/html/gndy/dyzz/index.html”>最新电影下载</a>]<a href=’/html/gndy/dyzz/20220527/62646.html’>2021年悬疑惊悚《黑匣子/黑盒线索》BD中字</a><br/>

脚本内容：

#coding=utf-8

from io import StringIO

String_1 = StringIO()

def func1(): #读取文件内容

Path_1 = “./1.txt”

f_name = open(Path_1,’r’,encoding=’utf-8′)

fields_1 = f_name.readlines() #输出结果为列表，包含换行符

f_name.close()

func2(fields_1)

def func2(fields_1): #从func1()获得的数据中进行筛选

K_1 = “最新电影下载</a>” #关键字

for Key_1 in fields_1:

if K_1 in Key_1:

Result_1 = f”{Key_1.split(‘html’)[4][2:][:-10]}\n” #以’html’为分隔符进行分割后，取第五项，然后去掉前面2个字符，再去掉最后10个字符，最后换行

String_1.write(Result_1)

Result_2 = String_1.getvalue()

Result_2 = Result_2.rstrip(‘\n’) #去除结果最后（右边）的一个换行符

print(“版块[最新电影下载]下的所有电影名称：”)

print(Result_2)

if __name__ == ‘__main__’:

func1()

脚本运行的结果：

C:\Users\jacky\Desktop>python xx.py

版块[最新电影下载]下的所有电影名称：

2021年剧情灾难《峰爆/无限救援》BD国语中字

2022年剧情《以青春之名》HD国语中字

2022年爱情喜剧《替身演员》BD中英双字

2021年悬疑惊悚《黑匣子/黑盒线索》BD中字

2022年动作《记忆/失忆刺客/记忆杀神》BD中英双字

2022年科幻动作喜剧《刺猬索尼克2》HD中英双字

2022年纪录片《网络炼狱：揭发N号房》BD韩语中字

2022年动画喜剧《奇奇与蒂蒂：救援突击队》BD中英双字

2022年科幻惊悚《双重躯体》BD中英双字

2021年剧情传记《幸存者》BD中英双字

2022年喜剧奇幻《瞬息全宇宙》BD中英双字

2022年喜剧《重返毕业季》BD中英双字

2022年动作《青面修罗》HD国语中英双字

2022年动作科幻《暗夜博士：莫比亚斯》BD中英双字

2022年动作冒险《北欧人》BD中英双字

C:\Users\jacky\Desktop>

######

例子三：

从例子一获取的数据中筛选出版块[最新电影下载]下的所有电影名称：

脚本内容：（使用正则表达式）

#coding=utf-8

import re #导入正则表达式的模块（内置模块，不用额外安装）

def func1(): #读取文件内容

Path_1 = “./1.txt”

f_name = open(Path_1,’r’,encoding=’utf-8′)

fields_1 = f_name.readlines() #输出结果为列表，包含换行符

f_name.close()

func2(fields_1)

def func2(fields_1): #从func1()获得的数据中进行筛选

print(“版块[最新电影下载]下的所有电影名称：”)

K_1 = “最新电影下载</a>” #关键字

for Key_1 in fields_1:

if K_1 in Key_1:

Result_1 = re.compile(u”.*?html’>(.*?)</a><br/>.*?”)

Result_2 = Result_1.findall(Key_1)

print(Result_2[0])

if __name__ == ‘__main__’:

func1()

脚本运行的结果：

C:\Users\jacky\Desktop>python xx.py

版块[最新电影下载]下的所有电影名称：

2021年剧情灾难《峰爆/无限救援》BD国语中字

2022年剧情《以青春之名》HD国语中字

2022年爱情喜剧《替身演员》BD中英双字

2021年悬疑惊悚《黑匣子/黑盒线索》BD中字

2022年动作《记忆/失忆刺客/记忆杀神》BD中英双字

2022年科幻动作喜剧《刺猬索尼克2》HD中英双字

2022年纪录片《网络炼狱：揭发N号房》BD韩语中字

2022年动画喜剧《奇奇与蒂蒂：救援突击队》BD中英双字

2022年科幻惊悚《双重躯体》BD中英双字

2021年剧情传记《幸存者》BD中英双字

2022年喜剧奇幻《瞬息全宇宙》BD中英双字

2022年喜剧《重返毕业季》BD中英双字

2022年动作《青面修罗》HD国语中英双字

2022年动作科幻《暗夜博士：莫比亚斯》BD中英双字

2022年动作冒险《北欧人》BD中英双字

C:\Users\jacky\Desktop>

发表评论 取消回复

发表评论取消回复