20231215爬虫更新代理池相关内容

2023-12-15 14:29:31 +08:00 · 2023-12-15 14:29:31 +08:00 · b428606ea5
parent 9e4b2f4679
commit b428606ea5
12 changed files with 448 additions and 0 deletions
--- a/Spider/Chapter09_代理的使用/付费代理/init.py
+++ b/Spider/Chapter09_代理的使用/付费代理/init.py
@ -0,0 +1,8 @@
+#-*- encoding:utf-8 -*-
+
+'''
+@Author : dingjiawen
+@Date : 2023/12/14 16:39
+@Usage : 
+@Desc :
+'''
--- a/Spider/Chapter09_代理的使用/付费代理/ip.json
+++ b/Spider/Chapter09_代理的使用/付费代理/ip.json
@ -0,0 +1,21 @@
+{
+  "code": 0,
+  "msg": "",
+  "data": {
+    "count": 10,
+    "dedup_count": 10,
+    "order_left_count": 990,
+    "proxy_list": [
+      "124.172.117.189:19812",
+      "219.133.31.120:26947",
+      "183.237.194.145:28436",
+      "183.62.172.50:23485",
+      "163.125.157.243:17503",
+      "183.57.42.79:26483",
+      "202.103.150.70:17251",
+      "182.254.129.124:15395",
+      "58.251.132.181:20659",
+      "112.95.241.76:21948"
+    ]
+  }
+}
--- a/Spider/Chapter09_代理的使用/付费代理/test.py
+++ b/Spider/Chapter09_代理的使用/付费代理/test.py
@ -0,0 +1,45 @@
+# -*- encoding:utf-8 -*-
+
+'''
+@Author : dingjiawen
+@Date : 2023/12/14 16:40
+@Usage : 
+@Desc :
+'''
+
+import requests
+import json
+
+PROXY_API = 'https://dps.kdlapi.com/api/getdps/?secret_id=oimi28znnx51x79f3r0d&num=10&signature=25zjft23etaeswom3ipa56bsyqnne347&pt=1&format=json&sep=2'
+
+
+def get_proxies():
+    response = requests.get(PROXY_API)
+    res = json.loads(response.text)
+    return res['data']['proxy_list']
+
+
+def test_proxies():
+    proxies = get_proxies()
+    # 注意这里要用户名和密码 在订单中心可以看https://www.kuaidaili.com/uc/dps/?orderid=930254289411869
+    auth = "d2118699212:bxb0p3l8"
+    for proxy in proxies:
+        proxy = proxy.strip()
+        print(f"using proxy {proxy}")
+        p = {
+            'http': f'http://{auth}@{proxy}',
+            'https': f'http://{auth}@{proxy}',
+
+        }
+        try:
+            requests.Request()
+            response = requests.get('http://www.httpbin.org/ip', proxies=p)
+            # response = requests.get('http://www.baidu.com', proxies=p)
+            print(response.text)
+        except requests.ConnectionError as e:
+            print(e)
+            print(f"proxy {proxy} is invalid")
+
+
+if __name__ == '__main__':
+    test_proxies()
--- a/Spider/Chapter09_代理的使用/代理反爬实战/init.py
+++ b/Spider/Chapter09_代理的使用/代理反爬实战/init.py
@ -0,0 +1,8 @@
+#-*- encoding:utf-8 -*-
+
+'''
+@Author : dingjiawen
+@Date : 2023/12/14 19:09
+@Usage : 
+@Desc :
+'''
--- a/Spider/Chapter09_代理的使用/代理反爬实战/core/init.py
+++ b/Spider/Chapter09_代理的使用/代理反爬实战/core/init.py
@ -0,0 +1,8 @@
+#-*- encoding:utf-8 -*-
+
+'''
+@Author : dingjiawen
+@Date : 2023/12/14 19:20
+@Usage : 
+@Desc :
+'''
--- a/Spider/Chapter09_代理的使用/代理反爬实战/core/config.py
+++ b/Spider/Chapter09_代理的使用/代理反爬实战/core/config.py
@ -0,0 +1,31 @@
+# -*- encoding:utf-8 -*-
+
+'''
+@Author : dingjiawen
+@Date : 2023/12/14 19:22
+@Usage : 
+@Desc :
+'''
+
+from environs import Env
+
+env = Env()
+env.read_env()
+
+REDIS_HOST = env.str('REDIS_HOST', '192.168.118.202')
+
+REDIS_PORT = env.int('REDIS_PORT', 6379)
+
+REDIS_PASSWORD = env.str('REDIS_PASSWORD', None)
+
+REDIS_KEY = env.str('REDIS_KEY', 'antispider5')
+
+PROXY_POOL_URL = env.str('PROXY_POOL_URL', 'http://127.0.0.1:5555/random')
+
+IS_AUTH_PROXY = env.bool('IS_AUTH_PROXY', True)
+
+TIMEOUT = env.int('TIMEOUT', 10)
+
+MAX_FAILED_TIME = env.int('MAX_FAILED_TIME', 20)
+
+VALID_STATUSES = env.list('VALID_STATUSES', [200])
--- a/Spider/Chapter09_代理的使用/代理反爬实战/core/db.py
+++ b/Spider/Chapter09_代理的使用/代理反爬实战/core/db.py
@ -0,0 +1,48 @@
+#-*- encoding:utf-8 -*-
+
+'''
+@Author : dingjiawen
+@Date : 2023/12/14 19:26
+@Usage : 
+@Desc :
+'''
+
+from redis import StrictRedis
+from core.config import *
+from pickle import dumps, loads
+from core.request import MovieRequest
+
+# Request对象不能直接存取，可以通过pickle的dumps和loads进行序列化和反序列化
+class RedisQueue():
+    def __init__(self):
+        """
+        init redis connection
+        """
+        self.db = StrictRedis(
+            host=REDIS_HOST, port=REDIS_PORT, password=REDIS_PASSWORD)
+
+    def add(self, request):
+        """
+        add request to queue
+        :param request: request
+        :param fail_time: fail times
+        :return: result
+        """
+        if isinstance(request, MovieRequest):
+            return self.db.rpush(REDIS_KEY, dumps(request))
+        return False
+
+    def pop(self):
+        """
+        get next request
+        :return: Request or None
+        """
+        if self.db.llen(REDIS_KEY):
+            return loads(self.db.lpop(REDIS_KEY))
+        return False
+
+    def clear(self):
+        self.db.delete(REDIS_KEY)
+
+    def empty(self):
+        return self.db.llen(REDIS_KEY) == 0
--- a/Spider/Chapter09_代理的使用/代理反爬实战/core/request.py
+++ b/Spider/Chapter09_代理的使用/代理反爬实战/core/request.py
@ -0,0 +1,20 @@
+# -*- encoding:utf-8 -*-
+
+'''
+@Author : dingjiawen
+@Date : 2023/12/14 19:21
+@Usage : 
+@Desc :
+'''
+
+from core.config import *
+from requests import Request
+
+
+class MovieRequest(Request):
+    def __init__(self, url, callback, method='GET', headers=None, fail_time=0, timeout=TIMEOUT):
+        Request.__init__(self, method, url, headers)
+        # 增加几个参数，分别代表回调函数，失败次数，和超时时间
+        self.callback = callback
+        self.fail_time = fail_time
+        self.timeout = timeout
--- a/Spider/Chapter09_代理的使用/代理反爬实战/core/spider.py
+++ b/Spider/Chapter09_代理的使用/代理反爬实战/core/spider.py
@ -0,0 +1,192 @@
+# -*- encoding:utf-8 -*-
+
+'''
+@Author : dingjiawen
+@Date : 2023/12/14 19:34
+@Usage : 实际爬取  依赖于之前代理池的运行
+@Desc :
+'''
+
+import re
+import requests
+from urllib.parse import urljoin
+from requests import Session
+from requests.exceptions import RequestException
+from core.config import *
+from core.db import RedisQueue
+from core.request import MovieRequest
+from pyquery import PyQuery as pq
+from loguru import logger
+
+BASE_URL = 'https://antispider5.scrape.center/'
+HEADERS = {
+    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'
+}
+
+
+class Spider():
+    session = Session()
+    queue = RedisQueue()
+
+    @logger.catch
+    def get_proxy(self):
+        """
+        get proxy from proxypool
+        :return: proxy
+        """
+        response = requests.get(PROXY_POOL_URL)
+        if response.status_code == 200:
+            logger.debug(f'get proxy {response.text}')
+            return response.text
+
+    @logger.catch
+    def get_proxy_safe(self):
+        """
+        get proxy from proxypool
+        :return: proxy
+        """
+        response = requests.get(PROXY_POOL_URL)
+        if response.status_code == 200:
+            logger.debug(f'get proxy {response.text}')
+            return response.text
+
+    def start(self):
+        """
+        start request
+        """
+        self.session.headers.update(HEADERS)
+        start_url = BASE_URL
+        request = MovieRequest(
+            url=start_url, callback=self.parse_index)
+        # schedule first request
+        self.queue.add(request)
+
+    def parse_index(self, response):
+        """
+        parse index page
+        :param response: response
+        :return: new request
+        """
+        doc = pq(response.text)
+
+        # request for detail
+        items = doc('.item .name').items()
+        for item in items:
+            detail_url = urljoin(BASE_URL, item.attr('href'))
+            request = MovieRequest(
+                url=detail_url, callback=self.parse_detail)
+            yield request
+
+        # request for next page
+        next_href = doc('.next').attr('href')
+        if next_href:
+            next_url = urljoin(BASE_URL, next_href)
+            request = MovieRequest(
+                url=next_url, callback=self.parse_index)
+            yield request
+
+    def parse_detail(self, response):
+        """
+        parse detail
+        :param response: response of detail
+        :return: data
+        """
+        doc = pq(response.text)
+        cover = doc('img.cover').attr('src')
+        name = doc('a > h2').text()
+        categories = [item.text()
+                      for item in doc('.categories button span').items()]
+        published_at = doc('.info:contains(上映)').text()
+        published_at = re.search('(\d{4}-\d{2}-\d{2})', published_at).group(1) \
+            if published_at and re.search('\d{4}-\d{2}-\d{2}', published_at) else None
+        drama = doc('.drama p').text()
+        score = doc('p.score').text()
+        score = float(score) if score else None
+        yield {
+            'cover': cover,
+            'name': name,
+            'categories': categories,
+            'published_at': published_at,
+            'drama': drama,
+            'score': score
+        }
+
+    def request(self, request):
+        """
+        execute request
+        :param request: weixin request
+        :return: response
+        """
+        try:
+            proxy = self.get_proxy()
+            logger.debug(f'get proxy {proxy}')
+            proxies = None
+            auth = "d2118699212:bxb0p3l8"
+            if proxy:
+                if IS_AUTH_PROXY:
+                    proxies = {
+                        'http': f'http://{auth}@{proxy}',
+                        'https': f'http://{auth}@{proxy}',
+                    }
+                else:
+                    proxies = {
+                        'http': 'http://' + proxy,
+                        'https': 'https://' + proxy
+                    }
+            return self.session.send(request.prepare(),
+                                     timeout=request.timeout,
+                                     proxies=proxies)
+        except RequestException:
+            logger.exception(f'requesting {request.url} failed')
+
+    def error(self, request):
+        """
+        error handling
+        :param request: request
+        :return:
+        """
+        request.fail_time = request.fail_time + 1
+        logger.debug(
+            f'request of {request.url} failed {request.fail_time} times')
+        if request.fail_time < MAX_FAILED_TIME:
+            self.queue.add(request)
+
+    def schedule(self):
+        """
+        schedule request
+        :return:
+        """
+        # 从池子里取,然后不断爬取
+        while not self.queue.empty():
+            request = self.queue.pop()
+            callback = request.callback
+            logger.debug(f'executing request {request.url}')
+            response = self.request(request)
+            logger.debug(f'response status {response} of {request.url}')
+            if not response or not response.status_code in VALID_STATUSES:
+                self.error(request)
+                continue
+            results = list(callback(response))
+            if not results:
+                self.error(request)
+                continue
+            for result in results:
+                if isinstance(result, MovieRequest):
+                    logger.debug(f'generated new request {result.url}')
+                    self.queue.add(result)
+                if isinstance(result, dict):
+                    # 到这里就证明是爬取成功了，可以保存之类的了
+                    logger.debug(f'scraped new data {result}')
+
+    def run(self):
+        """
+        run
+        :return:
+        """
+        self.start()
+        self.schedule()
+
+
+if __name__ == '__main__':
+    spider = Spider()
+    spider.run()
--- a/Spider/Chapter09_代理的使用/代理池的维护/init.py
+++ b/Spider/Chapter09_代理的使用/代理池的维护/init.py
@ -0,0 +1,8 @@
+#-*- encoding:utf-8 -*-
+
+'''
+@Author : dingjiawen
+@Date : 2023/12/14 12:57
+@Usage : 
+@Desc :
+'''
--- a/Spider/Chapter09_代理的使用/代理的设置/aiohttpDemo.py
+++ b/Spider/Chapter09_代理的使用/代理的设置/aiohttpDemo.py
@ -22,5 +22,19 @@ async def main():
            print(await response.text())


+async def socks():
+    from aiohttp_socks import ProxyConnector, ProxyType
+    connector = ProxyConnector(
+        proxy_type=ProxyType.HTTP,
+        host='127.0.0.1',
+        port=7890,
+        # username='user',
+        # password='password',
+        # rdns=True
+    )
+    async with aiohttp.ClientSession(connector=connector) as session:
+        async with session.get('https://httpbin.org/get') as response:
+            print(await response.text())
+
 if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())
--- a/Spider/Chapter09_代理的使用/代理的设置/playwrightDemo.py
+++ b/Spider/Chapter09_代理的使用/代理的设置/playwrightDemo.py
@ -0,0 +1,45 @@
+# -*- encoding:utf-8 -*-
+
+'''
+@Author : dingjiawen
+@Date : 2023/12/14 12:39
+@Usage : 
+@Desc :
+'''
+
+from playwright.sync_api import sync_playwright
+
+
+def http():
+    with sync_playwright() as p:
+        browser = p.chromium.launch(headless=False, proxy={
+            'server': 'http://127.0.0.1:7890'
+        })
+        page = browser.new_page()
+        page.goto('https://httpbin.org/get')
+        print(page.content())
+        browser.close()
+
+
+def http_auth():
+    with sync_playwright() as p:
+        browser = p.chromium.launch(proxy={
+            'server': 'http://127.0.0.1:7890',
+            'username': 'foo',
+            'password': 'bar'
+        })
+        page = browser.new_page()
+        page.goto('https://httpbin.org/get')
+        print(page.content())
+        browser.close()
+
+
+def socks():
+    with sync_playwright() as p:
+        browser = p.chromium.launch(proxy={
+            'server': 'socks5://127.0.0.1:7891'
+        })
+        page = browser.new_page()
+        page.goto('https://httpbin.org/get')
+        print(page.content())
+        browser.close()