爬取套图网站某个美女的所有写真

雪诺 · 发表于 2021-3-6 07:38

爬取套图网站某个美女的所有写真

[Python] 纯文本查看 复制代码

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from mid.items import XiurenjiItem

class SpidernameSpider(CrawlSpider):
    name = 'spidername'
    # allowed_domains = ['www.xxx.com']
    #搜索页的一个连接
    start_urls = ['https://www.xiurenji.cc/plus/search/index.asp?keyword=egg&searchtype=title&p=4']
    #链接提取器，拿到所有的搜索分页的连接
    link = LinkExtractor(allow='title&p=\d+')
    rules = (
        Rule(link, callback='parse_item', follow=True),
    )

    #自定义这个爬虫的图片下载的本地存储位置
    custom_settings = {
        'IMAGES_STORE': r'W:\HDTV\写真\女神egg'
    }

    #解析每个分页的url
    def parse_item(self, response):
        #分页页面内的套图a标签
        title_tag=response.xpath('//div[@class="list"]//div[@class="title1"]/a')
        #循环a标签可以拿到套图的title和url
        for title in title_tag:
            t=''.join(title.xpath('.//text()').extract())
            u=f'https://www.xiurenji.cc/{title.xpath("./@href").extract_first()}'
            #手动发请求，回调套图的解析，要传个参数，把当前套图的title传过去
            yield scrapy.Request(url=u,callback=self.parse_page,meta={'title':t})

    #套图的解析
    def parse_page(self, response):
        #拿到套图的title
        title=response.meta['title']
        #套图里面也有分页，每个分页里面有几张写真，拿到分页里面的写真
        p=response.xpath('//div[@class="img"]/p/img')
        #循环页面内的写真图片，拿到每一个写真图片的url
        for img in p:
            #url要拼接一下
            img_url='https://www.xiurenji.cc'+img.xpath('./@src').extract_first()
            #实例化item，这个是要传到管道的
            item=XiurenjiItem()
            item['url']=img_url
            #图片按title分类，scrapy会自动根据路径建文件夹
            item['path']=title+'\\'+img_url.split('/')[-1]
            #把item传到管道
            yield item
        #拿到下一页的url
        next_url=response.xpath('//div[@class="page"]/a[text()="后"]/@href').extract_first()
        #如果存在就回调页面解析
        if next_url:
            next_url=f'https://www.xiurenji.cc{next_url}'
            #这里要把title传过去
            yield scrapy.Request(url=next_url,callback=self.parse_page,dont_filter=True,meta={'title':title})

a8213568 · 发表于 2021-3-6 07:53

感谢楼主的分享

satand8 · 发表于 2021-3-6 08:23

感谢分享，谢谢提供分享

徐可乐 · 发表于 2021-3-6 08:25

谢谢大佬分享

f244614952 · 发表于 2021-3-6 08:30

谢谢分享

laven701 · 发表于 2021-3-6 08:40

谢谢@Thanks！

aiminei · 发表于 2021-3-6 08:43

6666666666

peijiji · 发表于 2021-3-6 09:11

谢谢大佬

今心 · 发表于 2021-3-6 09:34

一定支持，谢谢大佬的分享

912652626 · 发表于 2021-3-6 09:47

感谢楼主分享

		自动登录	找回密码
密码			注册[Register]

[Android] 爬取套图网站某个美女的所有写真

浏览过的版块