IP_POOL-爬虫代理项目-动态代理

这个仓库 IP_POOL 是一个爬虫代理项目，旨在提供免费代理 IP 的获取、检测和管理功能。以下是对该仓库的详细介绍：

Python 2.7
依赖库可通过 pip install -r requirements.txt 安装，包括 Flask 0.12.1、requests 2.13.0、pymongo 3.4.0。
需正确安装 MongoDB 数据库。

从请求框架地址下载框架到本地，修改 work_spider.py、delete_not_update_ip.py、get_proxies_base_spider.py 中 sys.append(...) 的地址为本地框架路径，路径尽量不带中文。
执行 pip install -r requirements.txt 安装依赖库。
在 proxy_basic_config.py 中配置代理 IP 网站，若只想试运行，可使用已有配置项。
在 config.py 中配置请求框架，试运行时可使用现有配置。
确保正确安装 MongoDB 数据库。
若网站特殊，自定义解析函数并在第一步中正确配置。
执行 work_spider.py 脚本开始抓取、检测和入库。
执行 proxy_api.py 脚本开启 API 服务。
执行 delete_not_update_ip.py 脚本对超过存活时间阀值的 IP 进行重新检测、删除或更新插入时间。

work_spider.py：入口脚本，从 get_proxies_base_spider.py 继承 SpiderMain 类，重写 run 方法，可传入自定义请求函数。
get_proxies_base_spider.py：主程序，提供默认的 IP 获取、检测和入库函数，解析函数可自定义。包含 run、craw、get_and_check、parse_to_get_ip、start_check、save_ip 等方法。
_request.py：检测脚本程序，包含 valid 方法，用于检测 IP 是否可用，需返回响应时间与检测的 IP。
proxy_basic_config.py：代理网页设置脚本，包含 target_urls、collection_name、over_time、url_parse_dict 等字段，用于配置代理 IP 网站。
custom_get_ip 文件夹下的脚本：用于自定义解析函数，以 get_ip_from_peauland.py 为例，需定义解析函数并在 proxy_basic_config.py 中配置。

db_method.py：封装数据库方法，包括 get_one、get_all、delete_one、total 等。
proxy_api.py：接口服务主脚本，默认启动 22555 端口，提供 /、/count/、/get_one/、/get_all/、/delete/ 等 API 接口。

该项目采用 Apache License 2.0 许可。

从零构建开源智能系统