您的位置:首页 > 新闻资讯 >文章内容
服务器如何处理压缩数据
来源: 作者:admin 时间:2021-03-06 16:52:39

    在爬虫开发过程中,需要掌握一定的爬虫知识。除了 代理ip 的帮助,爬虫软件本身的设置和处理也影响了很大一部分的顺利工作。


微信截图_20210302174109.png


    Cookies是一些网站存储在用户本地终端上的数据(通常是加密的),目的是识别用户的身份并跟踪会话。python提供了cookieslib模块来处理cookie。cookieslib模块的主要功能是提供可以存储cookie的对象,以便与urllib2模块一起使用,访问互联网资源。


    关键是CookieJar(),用于管理HTTPcookie值,存储HTTP请求生成的cookie,向传出的HTTP请求添加cookie对象。整个cookie存储在内存中,CookieJar实例垃圾收集后cookie会丢失,所以不需要所有进程独立操作。Gzip压缩。


    你有没有遇到过一些网页,不管怎么转码,都很乱。也就是说你不知道很多web服务都有发送压缩数据的能力,可以将网络线路上传输的大量数据减少60%以上。这尤其适用于XMLweb服务,因为XML数据的压缩率可以非常高。


    但是一般服务器不会给你发送压缩数据,除非你告诉服务器你可以处理压缩数据。创建一个请求对象,添加一个接受编码头,告诉服务器您可以接受gzip压缩数据,然后解压缩它。面对不同网站上不同类型的爬虫,我们需要做好研究。


相关文章内容简介
>
在线咨询
微信客服

微信客服

微信公众号

微信公众号

回到顶部