设为首页收藏本站

EPS数据狗论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1582|回复: 0

浅谈增量式爬虫

[复制链接]

8

主题

50

金钱

87

积分

新手用户

发表于 2019-11-1 14:51:01 | 显示全部楼层 |阅读模式

引入:
在我们爬取某些网站时会遇到一些问题?某些网站会定时在原有网页数据的基础上更新一批数据。

例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等。

那么遇到类似的场景,我们就可以采用增量式爬虫了

而增量式爬虫分为两个步骤:
1.增量爬取
2.爬取结果去重

1、增量爬取
一个站点更新也会出现下面两种情况:

1.1 单个页面数据更新
当出现这种情况的时候,我们对此特定页面的内容做哈希,当然要去除动态变化的那一部分,比如有的页面有验证码或者日期,程序定期执行,在执行的最开始检测此页面的哈希值跟上次抓取是否有变化,如果有变化就开始抓取。

1.2 新增页面
如果是新增页面呢,我们会对页面入口内容做哈希,并且存储分页面的URL哈希值,如果页面入口哈希值发生变化,获取新增的页面url列表,在这里需要用到url的去重,和数据去重类似,采用redis集合类型处理。

redis集合类型不允许添加重复的数据,当添加重复的时候时,返回0,并且添加失败。我们将所有的url list存入redis集合,当页面入口变化时,进行页面url去重,只抓取新增的页面。

2、爬取结果去重
结果去重也有以下两种常用的方法:

2.1 布隆过滤器
其中布隆过滤器是通过写文件的方式,多个进程使用需要添加同步和互斥,较为繁琐,不推荐多线程/进程的时候使用,另外写文件是磁盘I/O操作,耗费时间长,可以累积到一定数量再一次写入,或者利用上下文管理器在程序结束或异常退出时一次性写入。
  1. class Spider(object):
  2.     def __init():
  3.         # 布容过滤器初始化
  4.         self.burongname = 'test.bl'
  5.         if not os.path.isfile(self.burongname):
  6.             self.bl = BloomFilter(capacity=100000, error_rate=0.000001)
  7.         else:
  8.             with open(self.burongname, 'rb') as f:
  9.                 self.bl = BloomFilter.fromfile(f)
  10.    
  11.     def __enter__(self):
  12.         u"""
  13.         上下文管理器进入入口
  14.         """
  15.         return self

  16.     def __exit__(self, *args):
  17.         u"""
  18.         上下文管理器,退出出口
  19.         """
  20.         if self.conn is not None:
  21.             self.conn.close()

  22.         with open(self.burongname, 'wb') as f:
  23.             self.fingerprints.tofile(f)
  24.     def get_infos(self):
  25.         """
  26.         抓取主函数
  27.         """
  28.         # 布隆过滤器使用部分, x为抓取到得数据
  29.         x = json.dumps(i)
  30.         if x not in self.bl:
  31.             self.bl.add(x)

  32. if __name__ == '__main__':
  33.     with Spider() as MSS:
  34.         MSS.get_infos()
复制代码

上下文管理器,在主函数执行之前执行 def enter ,在程序运行结束或异常退出时执行def exit, 上下文管理器还可以用来统计程序执行的时间。

2.2 redis集合
使用redis集合去重能够支持多线程多进程.

利用redis集合无重复数据的特点,在redis建立集合,往其中添加数据的sha1值,添加成功返回1,表示无重复,添加失败返回0,表示集合中已经有重复数据

使用步骤:
建立redis连接池
重复检查
下面的例子是接口,并提供example。
  1. [Redis]
  2. server=192.168.0.100
  3. pass=123@123
复制代码
  1. import sys
  2. import hashlib
  3. import os
  4. import codecs
  5. import ConfigParser
  6. import redis


  7. """
  8. 利用redis的集合不允许添加重复元素来进行去重
  9. """


  10. def example():
  11.     pool, r = redis_init()
  12.     temp_str = "aaaaaaaaa"
  13.     result = check_repeate(r, temp_str, 'test:test')
  14.     if result == 0:
  15.         print ("重复")
  16.     else:
  17.         print ("不重复")
  18.     redis_close(pool)

  19. def redis_init(parasecname="Redis"):
  20.     """
  21.     初始化redis
  22.     :return: redis连接池
  23.     """
  24.     cur_script_dir = os.path.split(os.path.realpath(__file__))[0]
  25.     cfg_path = os.path.join(cur_script_dir, "db.conf")

  26.     cfg_reder = ConfigParser.ConfigParser()
  27.     secname = parasecname
  28.     cfg_reder.readfp(codecs.open(cfg_path, "r", "utf_8"))
  29.     redis_host = cfg_reder.get(secname, "server")
  30.     redis_pass = cfg_reder.get(secname, "pass")

  31.     # redis
  32.     pool = redis.ConnectionPool(host=redis_host, port=6379, db=0, password=redis_pass)
  33.     r = redis.Redis(connection_pool=pool)

  34.     return pool, r

  35. def sha1(x):
  36.     sha1obj = hashlib.sha1()
  37.     sha1obj.update(x)
  38.     hash_value = sha1obj.hexdigest()
  39.     return hash_value

  40. def check_repeate(r, check_str, set_name):
  41.     """
  42.     向redis集合中添加元素,重复则返回0,不重复则添加成功,并返回1
  43.     :param r:redis连接
  44.     :param check_str:被添加的字符串
  45.     :param set_name:项目所使用的集合名称,建议如下格式:”projectname:task_remove_repeate“
  46.     """
  47.     hash_value = sha1(check_str)
  48.     result = r.sadd(set_name, hash_value)
  49.     return result

  50. def redis_close(pool):
  51.     """
  52.     释放redis连接池
  53.     """
  54.     pool.disconnect()

  55. if __name__ == '__main__':
  56.     example()
复制代码

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

客服中心
关闭
在线时间:
周一~周五
8:30-17:30
QQ群:
653541906
联系电话:
010-85786021-8017
在线咨询
客服中心

意见反馈|网站地图|手机版|小黑屋|EPS数据狗论坛 ( 京ICP备09019565号-3 )   

Powered by BFIT! X3.4

© 2008-2028 BFIT Inc.

快速回复 返回顶部 返回列表