Python爬虫request模块的get、post方法应用

创始人

2024-02-26 14:53:21

0次

post方法使用

一、确定爬取网站的数据

二、分析数据类型和相应类型

三、使用requetst模块方法进行爬取

四、源代码分享

get的方法使用

一、分析抓取网站操作

二、参数的分析和组成

三、使用get模块方法进行爬取结果

四、源代码分享

思考和总结

参考网站

爬虫是当代最流行的数据抓取方法，使用python语言模拟浏览器爬取网站的数据应用到各个模块中，实现数据的价值和利用，达到某种商业的目的。不过因为被爬取的数据的类型和参数不同，所需要进行数据清洗和编码有所不同。下面介绍学习到的request模块方法中的get、post方法的使用。

post方法使用

一、确定爬取网站的数据

我需要爬取的网站是百度翻译的结果，这个百度翻译结果是我任意输入一个英文翻译出来的结果。我想要爬取翻译以后的英文单词，将英文单词的数据统统抓取下来了。

二、分析数据类型和相应类型

按照F12看网络参数，刷一下页面，在Fetch/XHR中看到名称中最后一条数据显示正常，常规中网站状态是200码属于正常的响应码。

请求的网站：

载荷显示出请求的标识符，大概意思就是用户输入的数据。

预览状态可以看到dog参数翻译出来的结果

响应是我们要抓取的数据，不过数据类型是Json，需要转化。

分析大致思路是：

使用request模块导入，请求参数，请求符，伪造浏览器标识符，进行抓取数据，将数据格式化，抽取有用信息进行编码。

三、使用requetst模块方法进行爬取

编码结果：

fileNama中有含有love的解释

四、源代码分享

# -*- conding:utf-8 -*-
#导入模块
import requests
import json
if __name__ == '__main__':#需要爬取的网站的url（刷新界面最先开始请求的url参数值）post_url = 'https://fanyi.baidu.com/sug'#请求的浏览器伪装符headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'}word = input('enter a word:')#请求参数data={'kw':word}#post方法抓取数据response=requests.post(url=post_url,data=data,headers=headers)print('post抓取下来的数据相应码：',response)#使用json格式进行编码和解码dic_obj = response.json()print('使用json转换出来的数据：',dic_obj)#给查询的阐述加上一个json后缀名fileName = word+'.json'#写入一个文件fp = open('fileName','w',encoding='utf-8')#使用json.dump编码和解码json数据json.dump(dic_obj,fp=fp,ensure_ascii=False)print('over python!!!')

get的方法使用

使用GET方法抓取豆瓣电影的数据，获取有用的数据，将数据本地化存储。

一、分析抓取网站操作

打开网站的源代码进行分析，观察到数据，网站的请求参数由网站地址加上请求参数组成。我们可以将URL作为编码中的抓取网站，载荷参数设定为请求值

二、参数的分析和组成

https://movie.douban.com/j/chart/top_list?（前部分是请求URL）type=11&interval_id=100:90&action=&start=0&limit=1（后半部分是请求参数，请求参数正好是载荷值）

三、使用get模块方法进行爬取结果

编码结果：

douban.json文件中包涵了编译结果的记录

四、源代码分享：

# -*- conding:utf-8 -*-
import requests
import json
if __name__ == '__main__':#定义爬虫的urlpost_url = 'https://movie.douban.com/j/chart/top_list'#浏览器请求标识符headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'}#请求参数确定param ={'type':'24','interval_id' : '100:90','action' : '','start' : '40','limit' : '20'}#用get方法进行抓取response = requests.get(url=post_url,headers=headers,params=param)# print(response)#使用json方法进行解码list_data = response.json()print("获取到网页的json参数：",list_data)fp = open('./douban.json','w',encoding='utf-8')#使用json.dump进行写入，ascill编码为否。json.dump(list_data,fp=fp,ensure_ascii=False)print('over python!!!')

思考和总结：

什么时候用get方法，什么时候用post方法呢。那就在于我们使用F12刷新网站的时候，出来的标头，请求参数是get方法或者post方法了。针对不同的请求方法，使用不同的取值方式。

参考网站：

4.requests模块巩固深入案例之破解百度翻译_哔哩哔哩_bilibili

上一篇：计算机组成原理课程设计（1）

下一篇：【PdgCntEditor】解决PDF的目录页码和PDF实际页码不一致的问题，书签页码偏移页面偏移功能，PDF页面标签的添加

Python爬虫request模块的get、post方法应用

post方法使用

一、确定爬取网站的数据

二、分析数据类型和相应类型

三、使用requetst模块方法进行爬取

四、源代码分享

get的方法使用

一、分析抓取网站操作

二、参数的分析和组成

三、使用get模块方法进行爬取结果

四、源代码分享：

思考和总结：

参考网站：

相关内容

热门资讯