博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
3 爬虫cookie的处理办法
阅读量:6695 次
发布时间:2019-06-25

本文共 1086 字,大约阅读时间需要 3 分钟。

cookie的应用和处理

- cookie:服务器端记录客户端的相关状态- 处理cookie的方式:    - 手动处理:不建议  页面找隐藏的标签,获取value    - 自动处理:会话对象Session,该对象可以像requests模块一样进行网络请求的发送(get,post)。session进行的请求发送可以自动携带和处理cookie cookie/session处理请求不是必须的 ,因为session是耗费资源的
#基于cookie的案例分析:https://xueqiu.com/    案例使用自动处理cookie办法#1.从首页中获取详情页的url    #发现:首页中的新闻数据是动态加载出来(ajax) json数据中taget对应的value值就是详情页的urlimport requests,jsonheaders = {    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}# 第一次请求url 自动获取cookiesession = requests.Session()session.get(url='https://xueqiu.com',headers=headers) # cookie就会自动存到session中# 捕获ajax数据包获取的urlurl = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=-1&count=10&category=-1'# 携带cookie进行的请求发送dic_json = session.get(url=url,headers=headers).json()#从响应数据中获取详情页的urlfor dic in dic_json['list']:    info = json.loads(dic['data'])    detail_url = 'https://xueqiu.com' + info['target']  # 详情页url    title = info['title']    print(detail_url,title)

 

转载于:https://www.cnblogs.com/zhangchen-sx/p/10821536.html

你可能感兴趣的文章
我的友情链接
查看>>
apache虚拟主机的搭建
查看>>
【Linux系统安装】磁盘与分区的命名规则
查看>>
关于Android手势类GestureDetector类
查看>>
hadoop相关要点
查看>>
Cubieboard官方 GPIO驱动使用总结
查看>>
rman恢复数据库
查看>>
Struts2学习笔记(一)初步了解Struts2以及配置
查看>>
我的友情链接
查看>>
presto Resource Groups
查看>>
我的友情链接
查看>>
慢工出细活,Facebook点赞按钮设计中的门道
查看>>
思科路由器配置命令一览表
查看>>
Git 远程操作
查看>>
我的友情链接
查看>>
iostat命令解析
查看>>
linux Containers——试用lxc
查看>>
linux运维实战练习-2016年1月19日-2月3日课程作业(练习)安排
查看>>
行为型模式:中介者模式
查看>>
政府信息化建设重点——服务、多元化
查看>>