9-02 5,073 views
在ubuntu环境下,使用scrapy定时执行抓取任务,由于scrapy本身没有提供定时执行的功能,所以采用了crontab的方式进行定时执行:
首先编写要执行的命令脚本cron.sh
#! /bin/sh
export PATH=$PATH:/usr/local/bin
#你spider所在目录
cd /apps/meinv/python/spider/
#执行spider 并写入日志
nohup scrapy crawl example >> example.log 2>&1 &
执行,crontab -e,规定crontab要执行的命令和要执行的时间频率,这里我需要每一分钟就执行scrapy crawl example这条爬取命令:
*/1 * * * * sh /apps/meinv/python/spider/cron.sh
然后执行命令:tail -n 20 /var/log/cron ,查看蜘蛛是否执行!