Python爬虫怎么设置代理IP，Requests和Scrapy库的操作

代理IP在Python爬虫中的重要性

在编写Python爬虫时，很多朋友会遇到一个头疼的问题：目标网站突然就访问不了了，返回一堆错误码，或者直接封掉了你的访问。这背后，往往是因为你的网络请求行为被对方识别为“非人类”操作，从而限制了你的IP地址。一个有效的应对策略，就是使用代理IP。简单来说，代理IP就像一个中间人，你的爬虫程序不再直接向目标网站发送请求，而是先把请求发给这个“中间人”，再由它转发出去。这样，目标网站看到的是代理IP的地址，而不是你真实的IP，从而大大降低了被识别和封锁的风险。对于需要长时间、大规模采集数据的工作，合理设置代理IP是保证任务顺利进行的关键一步。

获取代理IP的途径

在动手设置之前，你得先有可用的代理IP。代理IP的来源主要有两种：免费的和付费的。免费的代理IP在网上不难找到，但它们通常存在稳定性差、速度慢、可用率低的问题，可能刚用几分钟就失效了，对于严肃的数据采集项目来说，反而会浪费大量时间在测试和更换IP上。对于企业级或稳定的爬虫需求，更推荐使用专业的付费代理IP服务。

这里推荐全民HTTP代理服务。它拥有海量的IP资源，覆盖国内众多城市，响应速度快，更重要的是IP的可用率非常高，资源纯净稳定。它提供了多种产品形态，比如适合长期固定业务的长效静态IP，能自动更换IP的隧道代理，以及资源独享的独享代理IP等，可以灵活匹配不同的业务场景。无论是短时高频的抓取，还是长期稳定的数据监控，都能找到合适的解决方案。接下来，我们将具体看看如何在Python两大常用库——Requests和Scrapy中，使用这些代理IP。

使用Requests库设置代理IP

Requests是Python中最简单易用的HTTP库，设置代理IP也非常直观。基本上，你只需要在发起请求时，将一个包含了代理协议的字典传递给`proxies`参数就可以了。代理字典的格式是固定的：`{'http': '代理地址:端口', 'https': '代理地址:端口'}`。

举个例子，假设你从全民HTTP获取到了一个HTTP协议的代理IP，地址是`123.45.67.89`，端口是`8080`。那么你在代码中就可以这样使用：


import requests

 设置代理IP
proxies = {
    'http': 'http://123.45.67.89:8080',
    'https': 'http://123.45.67.89:8080'
}

 使用代理发起请求
try:
    response = requests.get('http://httpbin.org/ip', proxies=proxies, timeout=10)
    print(response.text)
except Exception as e:
    print(f"请求失败: {e}")

这里有几个要点需要注意：第一，代理地址的协议（如`http://`）要和字典键指定的协议类型对应好。第二，强烈建议设置`timeout`参数，避免因为某个代理IP失效而长时间等待。第三，对于需要身份验证的代理IP（即含有用户名和密码），你需要将用户名和密码嵌入到代理地址中，格式像这样：`http://user:pass@123.45.67.89:8080`。

在实际的爬虫项目中，你通常不会只用一个代理IP，而是会准备一个IP池，从中轮流选取使用，以避免单个IP过度使用。这时，你可以自己维护一个IP列表，每次请求前随机选择一个，或者直接使用全民HTTP提供的隧道代理服务。隧道代理会给你一个固定的域名和端口，每次请求时，服务端会自动为你分配一个新的出口IP，你无需再手动管理和池，非常省心。

使用Scrapy框架设置代理IP

Scrapy是一个功能强大的爬虫框架，设置代理IP的方式比Requests更灵活，通常通过下载器中间件（Downloader Middleware）来实现。这是Scrapy处理请求和响应的核心机制之一，允许你在请求发出前和响应返回后插入自定义逻辑。

最常用的方法是在项目的`middlewares.py`文件中创建一个代理中间件，并在`settings.py`中启用它。下面是一个基础的代理中间件示例：


 在 middlewares.py 中添加
class ProxyMiddleware(object):
    def process_request(self, request, spider):
         从你的IP池中获取一个代理地址
        proxy = "http://123.45.67.89:8080"
        request.meta['proxy'] = proxy

然后，在`settings.py`文件中，你需要将这个中间件添加到下载器中间件列表里，并设置一个较高的优先级：


DOWNLOADER_MIDDLEWARES = {
    '你的项目名.middlewares.ProxyMiddleware': 543,   数值越小优先级越高
}

这样配置后，Scrapy发出的每一个请求都会经过这个中间件，并被赋予你指定的代理IP。更高级的用法是，在中间件里实现复杂的IP池管理逻辑，比如随机选择、失败重试、自动剔除失效IP等。同样，如果你使用的是全民HTTP的隧道代理，那么配置会更简单，只需要将隧道代理的固定地址（如`http://tunnel.全民HTTP.com:8080`）设置为代理即可，IP轮换的事情交给服务端自动完成。

Scrapy框架也支持为每个请求单独设置代理，你可以在生成Request对象时，通过`meta`参数指定：`yield scrapy.Request(url, meta={'proxy': proxy_address})`。这种方式适合需要根据不同规则使用不同代理的场景。

常见问题与解决方案

Q1：设置了代理IP，但爬虫还是被网站封了，是怎么回事？
A：这可能有几个原因。一是代理IP本身质量不高，已经被目标网站拉黑，建议使用像全民HTTP这样高可用率的纯净IP池。二是你的爬虫行为过于规律，即使IP在变，但访问频率、时间间隔等特征仍被识别。需要配合随机延迟、变换User-Agent等反反爬策略。三是单个代理IP的请求量仍然过大，即使使用隧道代理自动更换，也需要控制好总体的请求节奏。

Q2：使用代理后，爬虫速度变得非常慢，怎么优化？
A：速度慢通常与代理IP的质量和网络延迟有关。选择响应速度快的代理服务商是关键，例如全民HTTP代理的响应速度就非常快。检查你的代码，确保设置了合理的超时时间，避免在无效IP上等待过久。对于Scrapy项目，可以调整并发请求数（`CONCURRENT_REQUESTS`）和下载延迟（`DOWNLOAD_DELAY`）来找到速度与稳定性的平衡点。

Q3：如何处理需要账号登录才能访问的页面？
A：对于这类页面，使用代理IP时需要特别注意会话（Session）的保持。一个常见的做法是，将同一组账号的登录状态（Cookies）与一个固定的长效静态IP或独享代理IP绑定。这样可以模拟真实用户从固定地点登录的行为，降低被封的风险。你可以使用Requests的Session对象，或Scrapy的CookieMiddleware来管理会话。

Q4：我应该选择哪种类型的代理IP产品？
A：这取决于你的具体业务场景：

场景	推荐产品	原因
短期、高频的数据抓取	隧道代理IP	IP自动轮换，无需手动管理，省时省力。
长期监控某个平台数据	长效静态IP	IP地址固定且长期可用，适合需要稳定身份的场景。
业务量巨大，对稳定性要求极高	独享代理IP	资源池独享，不与他人共享，性能稳定有保障。
模拟移动端数据访问	移动代理IP	IP来自真实的移动运营商网络，更贴近移动用户行为。

全民HTTP提供了上述多种产品，你可以根据需求灵活选择或组合使用。

Q5：在代码中管理大量代理IP很麻烦，有什么好办法？
A：手动管理IP池确实繁琐且容易出错。最佳实践是借助专业的代理服务商提供的管理功能。例如，全民HTTP支持多种使用方式，对于隧道代理，你完全不需要在代码里维护IP列表；对于需要提取IP的场景，其API接口可以让你按需提取新鲜IP，并实时查看IP的可用状态。对于企业用户，还可以定制专属的资源池和提取参数，由服务商来保障IP的质量和调度，让你更专注于爬虫逻辑本身。