为了帮助用户在爬虫开发过程中,快速接入我们的服务,我们在 GitHub 上开源了一套全面的示例代码库。

如果有遗漏或者代码存在问题,请联系我们。

注意:请在阅读这份文档前,先了解接入文档

获取示例代码

方式一:通过 GitHub (推荐)

您可以在 GitHub 上查看最新代码,欢迎给我们点亮 Star 支持: https://github.com/qtproxy/qt-proxy-demo

方式二:通过蓝奏云下载(适合 GitHub 访问不畅的用户)

如果您所在的网络环境不方便访问 GitHub,可以直接下载完整的代码压缩包: 点击此处下载示例代码压缩包

编程语言示例

浏览器自动化

针对动态网页渲染,我们提供了结合隧道代理/私密代理进行无头浏览器操作的示例:

工具 语言 目录 备注
Selenium Python 查看 经典自动化工具,此处演示 Python 版本
Playwright Node.js 查看 现代高性能工具,此处演示 Node.js 版本
Puppeteer Node.js 查看 Chrome 官方工具
PhantomJS Python 查看 已停止维护,推荐迁移至 Playwright
Splash Python 查看 适合与 Scrapy 结合
Requests-HTML Python 查看 内置 Pyppeteer 渲染
ChromeDP Go 查看 Go 语言流行自动化库
Rod Go 查看
Crawlee Node.js 查看 现代爬虫方案(Node.js 版)
Camoufox Python 查看 防指纹追踪
Botright Python 查看 绕过反爬检测
Rebrowser Node.js 查看
Rendertron Python 查看
Ferret Go 查看

爬虫框架

对于工程化爬虫项目,我们也整理了主流爬虫框架集成代理 IP 的中间件和配置示例:

框架 语言 目录 备注
Scrapy Python 查看 最流行的大型框架
Crawlee Python 查看 现代爬虫方案(Python 版)
Crawl4AI Python 查看 AI/LLM 友好,适合大模型数据处理
Firecrawl Python 查看 适合 LLM 的网页内容提取
PySpider Python 查看 已停止更新,推荐迁移到 Scrapy
EasySpider Python 查看 可视化爬虫

错误码定义

私密代理 API 错误码

调用提取接口(API)时返回的错误信息。

错误码 说明
10001 接口调用频率过快:请适当增加请求间隔
10003 参数有误:请检查请求参数是否完整或格式正确
20002 服务不可用:可能原因包括订单过期、未支付、剩余可提取数不足等
20009 订单号不存在:请确认输入的订单号是否正确

私密代理 IP / 隧道代理错误码

用于在使用代理进行网络请求时返回的 HTTP 状态码。

错误码 说明
407 需要身份验证:代理鉴权失败,请检查用户名密码或白名单配置
429 超过并发限制:请降低并发频率,或调整/升级隧道代理套餐
500 内部服务器错误:通常由请求超时或连接被拒绝引起,请务必做好代码层面的异常重试处理
502 Bad Gateway:连接目标网站失败
504 Gateway Timeout:连接目标网站超时

注意事项 (避坑指南)

Java 环境配置

如果您的运行环境是 Java 8 以上版本,在处理带密码验证的隧道代理时可能会遇到限制。请在运行项目时增加以下参数:

-Djdk.http.auth.tunneling.disabledSchemes=""

原因参考Unable to tunnel through proxy since Java 8 Update 111 (StackOverflow)

Python requests 库版本要求

在使用 Python requests 第三方 HTTP 网络库的过程中,如果您确认账密无误但依然出现 407 身份验证错误,请将 requests 升级至 2.27.1 或以上版本。官方已针对代理 Auth 解析问题进行了修复。

参考链接GitHub PR #6028: Fix auth parsing for proxies

开源协议

本项目示例代码采用 MIT License 开源,您可以自由地将其应用于您的商业或个人项目中。

获取帮助

如果您在接入代理 IP 的过程中遇到任何技术问题,我们的技术支持团队随时为您提供协助。

点击联系在线客服

转载请注明