Python编程中如何使用代理IP？Requests库与Scrapy框架配置

搞爬虫的朋友都知道，IP被封是家常便饭的事儿。有时候刚跑几分钟，目标网站就把你IP给禁了，整个数据采集流程直接卡壳。这时候代理IP就成了救命稻草，它能帮你换着IP地址去访问，降低被封的风险。今天咱们就专门唠唠，在Python里怎么用代理IP，重点讲Requests库和Scrapy框架的配置方法。

代理IP是啥？为啥非用不可？

简单说，代理IP就是个中间人，你的请求先发到代理服务器，再由它转发给目标网站。这样对方看到的是代理的IP，不是你本机的真实地址。用代理IP不是为了啥限制，主要是为了提高采集效率，避免因频繁访问被网站封IP。特别是做大规模数据采集时，没代理IP基本寸步难行。

市面上代理IP分好几种类型，比如长效静态IP、隧道代理IP、独享代理IP这些。长效静态IP适合需要稳定连接的场景，隧道代理IP会自动更换IP，省去手动管理的麻烦，独享代理IP则是你自己独享的资源，稳定性和速度都有保障。根据不同业务需求选择合适的类型很重要。

Requests库配置代理IP

Requests是Python里最常用的HTTP库，配置代理IP非常简单。你只需要在请求时传递proxies参数就行了。这里有个重点：代理IP的格式要写对，一般是协议://IP地址:端口这样的结构。

举个例子，如果你用的是HTTP代理，可以这么写：

import requests

proxies = {
"http": "http://1.10:3128",
"https": "http://1.10:1080"
}

response = requests.get("http://example.org", proxies=proxies)

如果你需要认证的代理，可以在URL里加上用户名密码：

proxies = {
"http": "http://user:pass@1.10:3128/"
}

实际项目中，你可能会用多个代理IP，这时候就需要有个IP池来管理。你可以把代理IP放在列表里，每次随机选一个使用：

import random

proxy_list = [
  "http://ip1:port",
  "http://ip2:port",
  "http://ip3:port"
]

proxy = random.choice(proxy_list)
proxies = {"http": proxy, "https": proxy}

这样每次请求都用不同的IP，大大降低被封的概率。

Scrapy框架配置代理IP

Scrapy是专业的爬虫框架，配置代理IP也很方便。主要有两种方式：通过中间件或直接在settings.py里设置。

最简单的方法是在settings.py中添加：

DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
}

HTTP_PROXY = 'http://user:pass@ip:port'

不过这种方式只能设置一个静态代理，不太实用。更常见的做法是自定义中间件，实现动态代理功能：

import random

class RandomProxyMiddleware(object):
def __init__(self, proxy_list):
self.proxy_list = proxy_list

  @classmethod
  def from_crawler(cls, crawler):
    return cls(proxy_list=crawler.settings.get('PROXY_LIST'))

  def process_request(self, request, spider):
    proxy = random.choice(self.proxy_list)
    request.meta['proxy'] = proxy

然后在settings.py中配置PROXY_LIST，并启用这个中间件：

PROXY_LIST = [
  'http://ip1:port',
  'http://ip2:port',
  'http://ip3:port'
]

DOWNLOADER_MIDDLEWARES = {
'myproject.middlewares.RandomProxyMiddleware': 100,
}

这样Scrapy每次请求都会随机选用一个代理IP，采集效率会高很多。

优质代理IP服务推荐

自己维护代理IP池挺麻烦的，IP质量、稳定性都难保证。我推荐使用专业的代理IP服务，比如全民HTTP。他们家提供多种类型的代理IP，包括长效静态IP、隧道代理IP、独享代理IP等，覆盖200多个城市，拥有9000多万国内IP资源。

全民HTTP的代理IP响应速度快，支持HTTP、HTTPS、SOCKS5三种协议，特别适合企业级大数据采集。不管是AI数据抓取、市场调研还是价格监控，都能找到合适的解决方案。他们的隧道代理IP尤其好用，能自动轮换IP，省去手动管理的麻烦。

用全民HTTP的代理IP，在Requests或Scrapy中配置起来都很简单。他们提供详细的API文档和示例代码，上手很快。对于需要稳定高速代理IP的项目，我个人很推荐试试他们的服务。

常见问题QA

Q: 代理IP连接超时怎么办？
A: 可能是代理服务器不稳定或网络问题。建议换一个代理IP试试，或者检查网络连接。质量好的代理IP服务如全民HTTP通常稳定性更好。

Q: 如何测试代理IP是否有效？
A: 可以用requests简单测试：
try:
  response = requests.get('http://httpbin.org/ip', proxies=proxies, timeout=5)
  print(response.json())
except:
  print('代理失效')

Q: Scrapy中使用代理IP被ban怎么办？
A: 可能需要降低采集频率，或者更换更多不同的代理IP。也可以考虑使用更高质量的独享代理IP，降低被封概率。

Q: 代理IP需要经常更换吗？
A: 取决于目标网站的反爬策略。对于反爬严格的网站，建议每次请求都换IP，或者至少每隔几分钟更换一次。隧道代理IP可以自动处理这个问题。

Q: 为什么用了代理IP还是被封？
A: 可能原因有很多：代理IP质量差（很多人共用）、采集行为过于频繁、或者网站有其他反爬措施。建议使用高质量独享代理IP，并合理设置采集间隔。

Python编程中如何使用代理IP？Requests库与Scrapy框架配置其实并不复杂，关键是选对代理IP服务并正确配置。好的代理IP能让你的数据采集工作事半功倍，避免很多不必要的麻烦。希望上面的内容对你有帮助！

国内高品质代理IP服务商-全民HTTP

使用方法：注册账号→联系客服免费试用→购买需要的套餐→前往不同的场景使用代理IP

账号注册→账号登录 不限量代理IP、独享代理IP、隧道代理IP、长效静态IP、移动网络IP

正文

Python编程中如何使用代理IP？Requests库与Scrapy框架配置