在centos7上搭建pyspider爬虫框架

pyspider是全国产的一个开源爬虫框架。

调度、采集、任务处理、结果统计都比较优秀。

在centos下安装pyspider,还是有些小坑的。

这里罗列下基本的安装步骤:

  1. 创建虚拟环境

    1
    2
    3
    mkdir pyspider
    cd pyspider/
    virtualenv env

  2. 安装centos的开发环境、依赖库

    1
    2
    sudo yum install libcurl-devel
    sudo yum install libxml2-devel libxslt-devel python-devel

  3. 为了顺利pip顺利安装,打个补丁

    1
    2
    3
    export PYCURL_SSL_LIBRARY=nss
    pip uninstall pycurl
    pip install pycurl --no-cache-dir

  4. 安装pyspider

    1
    pip install pyspider

  5. 启动pyspider

    1
    pyspider

然后,访问主机端口5000,使用pyspider。

ps,这货蛮好用的。