20.网络爬虫—Scrapy-Redis分布式爬虫-程序员宅基地

技术标签: 爬虫  Python网络爬虫从入门到精通  scrapy  redis  

前言
️️个人简介:以山河作礼
️️:Python领域新星创作者,CSDN实力新星认证
​第一篇文章《1.认识网络爬虫》获得全站热榜第一,python领域热榜第一
第四篇文章《4.网络爬虫—Post请求(实战演示)全站热榜第八
第八篇文章《8.网络爬虫—正则表达式RE实战全站热榜第十二
第十篇文章《10.网络爬虫—MongoDB详讲与实战全站热榜第八领域热榜第二
第十三篇文章《13.网络爬虫—多进程详讲(实战演示)全站热榜第十二
第十四篇文章《14.网络爬虫—selenium详讲测试领域热榜第二十
第十六篇文章《16.网络爬虫—字体反爬(实战演示)全站热榜第二十五
第十九篇文章《19.网络爬虫—照片管道全站综合热榜第十二。
Python网络爬虫》专栏累计发表二十篇文章,上榜八篇。欢迎免费订阅!欢迎大家一起学习,一起成长!!
悲索之人烈焰加身,堕落者不可饶恕。永恒燃烧的羽翼,带我脱离凡间的沉沦。

:文章末尾扫描二维码可以加入粉丝交流群

Redis的安装与使用

下载地址:

https://github.com/tporadowski/redis/releases

Redis 支持 32 位和 64 位。这个需要根据你系统平台的实际情况选择,这里我们下载 Redis-x64-xxx.zip压缩包到 D 盘,解压后,将文件夹重新命名为 redis

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

打开一个 cmd 窗口 使用 cd 命令切换目录到 C:\redis 运行:

redis-server.exe redis.windows.conf

如果想方便的话,可以把 redis 的路径加到系统的环境变量里,这样就省得再输路径了,后面的那个 redis.windows.conf 可以省略,如果省略,会启用默认的。输入之后,会显示如下界面:
在这里插入图片描述

分布式概念和作用

分布式:一个业务分拆多个子业务,部署在不同的服务器上; 是一种将任务分布在不同地方的工作方式。

作用:提高安全性和效率

分布式爬虫

分布式爬虫是一种利用多个计算机节点协作进行网页数据抓取的技术。传统的爬虫一般是单机或者集群爬虫,而分布式爬虫将爬虫任务分配到多个节点上进行并行处理,从而提高爬取效率和速度。

默认情况下,我们使用scrapy框架进行爬虫时使用的是单机爬虫,就是说它只能在一台电脑上运行,因为爬虫调度器当中的队列queue去重和set集合都只能在本机上创建的,其他电脑无法访问另外一台电脑上的内存和内容。
分布式爬虫实现了多台电脑使用一个共同的爬虫程序,它可以同时将爬虫任务部署到多台电脑上运行,这样可以提高爬虫速度,实现分布式爬虫。

分布式爬虫特点

分布式爬虫一般具有以下特点

  1. 分布式协作:通过分布式协作技术,将爬虫任务拆分成多个小任务,分配到不同的节点上进行处理,从而提高爬取效率和速度。

  2. 网络通信:多个节点之间需要进行网络通信,以确保任务的协调和数据的传输。

  3. 数据一致性:由于分布式爬虫是在多个节点上进行的,因此需要考虑如何确保爬取的数据一致性。

  4. 难度复杂:分布式爬虫需要涉及到分布式架构、负载均衡、任务调度等技术,需要具备一定的技术水平和经验。

分布式爬虫的优点主要有以下几点

  1. 更快的爬取速度:分布式爬虫可以利用多个节点并行处理任务,从而提高爬取效率和速度。

  2. 更好的可扩展性:分布式爬虫可以通过增加节点数量来扩展系统的容量和性能,具有更好的可扩展性。

  3. 更好的稳定性:由于分布式爬虫具有节点冗余机制,系统的稳定性更高,即使某些节点发生故障,也不会影响整个系统的运行。

  4. 更好的数据一致性:分布式爬虫可以通过数据一致性机制来确保爬取的数据准确、完整、一致。

  5. 更好的资源利用率:分布式爬虫可以利用多个节点的计算能力和存储能力,更好地利用系统资源,降低成本。

当然,分布式爬虫也存在一些挑战和限制,比如节点之间的通信和协作问题,节点故障造成的影响,数据一致性问题等,需要通过技术手段来解决。

redis的使用

修改redis.windows.conf

bind 127.0.0.1 -> bind 0.0.0.0

关闭安全模式,可以远程访问redis

把protected-mode yes改为protected-mode no

Redis 操作/启动

启动服务器
redis-server.exe

启动数据库
启动文件redis-cli.exe

# 伪分布式
bind 127.0.0.1

启动分布式
lpush key:value url
注意:使用时,记得提前在redis中添加。例如:
lpush db:start_urls https://movie.douban.com/top250

Redis Desktop Manager下载

这是一个redis的桌面工具,可以图形化界面操作redis数据库

1,redis需要打开

2,是否已经创建链接,如果已经创建,双击数据库进行链接

3,如果没有就点击下面的connect to redis server ,输入数据库名称例如root,输入host,如127.0.0.1

特点和架构

scrapy_redis是一个基于Redis的Scrapy组件,用于scrapy项目的分布式部署和开发

特点:分布式爬取

可以启动多个spider对象,互相之间共享有一个redis的request队列。最适合多个域名的广泛内容的爬取。

分布式数据处理:
爬取到的item数据被推送到redis中,这意味着你可以启动尽可能多的item处理程序。

安装和使用

  • 一般通过pip安装Scrapy-redis:
pip install scrapy-redis  # 下载模块
  • scrapy-redis的使用非常简单,几乎可以并不改变原本scrapy项目的代码,只用做少量设置

Scrapy-redis 代码部署

spider文件

类继承 RedisSpider (原来是继承scrapy.Spider)

from scrapy_redis.spiders import RedisSpider # 让爬虫继承新的爬虫模块

注释strat_urls 设置 redis_key = “db:start_urls” 开启爬虫钥匙

settings文件


# 使用scrapy_redis组件自己的调度器   必须
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 确保所有spider通过redis共享相同的重复过滤。 必须
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 可选 不清理redis队列,允许暂停/恢复抓取。 允许暂定,redis数据不丢失
SCHEDULER_PERSIST = True

# REDIS 主机和端口 必须
REDIS_HOST = '127.0.0.1'  # 写自己电脑的ip地址
REDIS_PORT = 6379

#公共管道 
#如果你希望数据后期统一处理,则可以增加’scrapy_redis.pipelines.RedisPipeline’: 300
#ITEM_PIPELINES  =  {
    
#    'scrapy_redis.pipelines.RedisPipeline':300,    #为了写的redis 
#}

本专栏所有文章是博主学习笔记,仅供学习使用,爬虫只是一种技术,希望学习过的人能正确使用它。
博主也会定时一周三更爬虫相关技术更大家系统学习,如有问题,可以私信我,没有回,那我可能在上课或者睡觉,写作不易,感谢大家的支持!!


版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_50804299/article/details/130373008

智能推荐

MATLAB算法实战应用案例精讲-【图像处理】缺陷检测(补充篇)-程序员宅基地

文章浏览阅读116次。缺陷检测是工业上非常重要的一个应用,由于缺陷多种多样,传统的机器视觉算法很难做到对缺陷特征完整的建模和迁移,复用性不大,要求区分工况,这会浪费大量的人力成本。深度学习在特征提取和定位上取得了非常好的效果,越来越多的学者和工程人员开始将深度学习算法引入到缺陷检测领域中。虽然当前深度学习技术十分火爆,但它占AOI落地项目中的比例仅约10%。传统算法依然无法被完全取代,它有着计算复杂度低、调试成本低等优点。

家政服务小程序开发还是家政服务APP开发?-程序员宅基地

文章浏览阅读44次。现在,随着智能手机和移动互联网的普及,越来越多的企业开始关注移动应用的开发。对于家政服务行业来说,开发一个移动应用程序似乎是个不错的主意。但是,是选择开发家政服务小程序还是家政服务APP呢?在现代社会,人们的生活节奏越来越快,时间越来越宝贵。为了更好地满足人们的服务需求,越来越多的家政服务企业开始关注移动应用的开发。无论是家政服务小程序还是家政服务APP,都可以为用户提供更加便捷的服务体验。但是,这两种应用程序各有优缺点,家政服务企业应该如何选择最适合自己的移动应用程序呢?

15个程序员实用的开发工具,你有用过几个呢?-程序员宅基地

文章浏览阅读2.1k次,点赞2次,收藏7次。FeHelper是一个非常好用的插件,支持Chrome、Firefox、MS-Edge浏览器,工具集包括 JSON自动/手动格式化、JSON内容比对、代码美化与压缩、信息编解码转换、二维码生成与解码、图片Base64编解码转换、Markdown、 网页油猴、网页取色器、脑图(Xmind)等贴心工具,甚至在目前新版本的FeHelper中,还集成了FH开发者工具。很多人可能用的是 codePen 或者 CodeSandbox 等,但是我觉得掘金的码上掘金也挺好用的,并且登录自己的掘金账号就能看到,挺方便的。_开发工具

探索FOSSASIA的日历项目:一个开放源代码的协作日程管理工具-程序员宅基地

文章浏览阅读928次,点赞14次,收藏17次。探索FOSSASIA的日历项目:一个开放源代码的协作日程管理工具项目地址:https://gitcode.com/fossasia/calendar.fossasia.org在数字化的世界里,管理和共享日程变得越来越重要。为此,我们向您推荐calendar.fossasia.org,一个由FOSSASIA开发的开源日历应用,旨在提供一个高效、可定制且协同友好的平台,帮助您和团队更好地组织时间..._开源 日历日程

python读取oracle数据_Python读写oracle数据库-程序员宅基地

文章浏览阅读971次。最近项目中需要用到Python调用oracle实现读写操作,踩过很多坑,历尽艰辛终于实现了。性能怎样先不说,有方法后面再调优嘛。现在把代码和注意点记录一下。1. 所需Python工具库cx_Oracle,pandas,可以使用通过控制台使用pip进行安装(电脑中已经安装)2. 实现查询操作#工具库导入import pandas as pdimport cx_Oracle#注:设置环境编码方式,可解..._pandas 分批读取oracle 表

基于JSP后台的志愿者小程序 毕业设计毕设作品欣赏_jsp参赛作品-程序员宅基地

文章浏览阅读767次。基于JSP后台的志愿者小程序_jsp参赛作品

随便推点

java杨辉三角金字塔型_java金字塔形杨辉三角形-程序员宅基地

文章浏览阅读588次。太久没有回过头看数据结构和算法,今天突然重新做一些算法题惊叹有点糊涂了。金字塔的杨辉三角怎么网上都是*字符?经过编写测试,我把我简单写的po出来给大家看看。可能有点笨拙,因为没用到方法调用和递归,当然这样更容易新手秒懂。public claa TestYHSJ{ public static void main(String[] args){ int[][] array=new int[10][10];//array作为一个普通数组必须要先定义长度,而arraylist就不需要 _java金字塔形杨辉三角形

java集合类的方法_java集合类的基本方法的使用-程序员宅基地

文章浏览阅读106次。我们看一个简单的例子,来了解一下集合类的基本方法的使用:import java.util.*;public class CollectionToArray {public static void main(String args) {Collection collection1=new ArrayList();//创建一个集合对象collection1.add("000");//添加对象到Coll..._java中object element=iterator.next();是什么意思

你最大的优点是什么?(回答技巧及范例)-程序员宅基地

文章浏览阅读829次。http://bbs.yingjiesheng.com/thread-186906-1-1.html你最大的优点是什么?问题分析: 在这个问题上, 面试官关注的问题有两点。第一, 申请人没有撒谎, 而是真实地阐述了自己的优点。第二, 他所阐述的优点, 恰好是这个职位所需要的素质。有很多时候, 对于一个岗位而言的优点, 会成为另一个岗位的缺点。比如说, 如果你具备很强的领导能力, 往往不适合..._说说你们最大的优点是什么

软件工程文档编写标准包括哪些内容_工程文档写作都有什么-程序员宅基地

文章浏览阅读1.2k次。在项目开发过程中,应该按要求编写好十三种文档,文档编制要求具有针对性、精确性、清晰性、完整性、灵活性、可追溯性。   ◇ 可行性分析报告:说明该软件开发项目的实现在技术上、经济上和社会因素上的可行性,评述为了合理地达到开发目标可供选择的各种可能实施方案,说明并论证所选定实施方案的理由。   ◇ 项目开发计划:为软件项目实施方案制订出具体计划,应该包括各部分工作的负责人员、开发的进度、开发经费的_工程文档写作都有什么

互联网产品中的平台、社区、软件、网站、品牌等科普_小米社区和oppo社区 谁算是交易型社区-程序员宅基地

文章浏览阅读2k次。科普大杂烩_小米社区和oppo社区 谁算是交易型社区

STL模型分割工具:解放3D打印的尺寸限制_分解stl模型-程序员宅基地

文章浏览阅读334次,点赞6次,收藏5次。STL模型分割工具是一个简单易用的在线应用,无需安装任何软件,只需通过网页浏览器即可操作。_分解stl模型

推荐文章

热门文章

相关标签