在ubuntu环境下,使用scrapy定时执行抓取任务,由于scrapy本身没有提供定时执行的功能,所以采用了crontab的方式进行定时执行:

首先编写要执行的命令脚本cron.sh

#! /bin/sh                                                                                                                                            

export PATH=$PATH:/usr/local/bin
#你spider所在目录
cd /apps/meinv/python/spider/ 
#执行spider 并写入日志
nohup scrapy crawl example >> example.log 2>&1 &
执行,crontab -e,规定crontab要执行的命令和要执行的时间频率,这里我需要每一分钟就执行scrapy crawl example这条爬取命令:
*/1 * * * *  sh /apps/meinv/python/spider/cron.sh
然后执行命令:tail -n 20 /var/log/cron ,查看蜘蛛是否执行!

本文参考地址:http://www.cnblogs.com/justinzhang/p/4500409.html

python清空文件夹下log文件

#!/usr/bin/python import os import sys files_list = [] def print_files(path): lsdir = os.listdir(path) dirs = [i for i in lsdir if os.path...

阅读全文

python paramiko(SFTP) 相关文档

python paramiko SFTP文档地址: http://docs.paramiko.org/en/2.4/api/sftp.html import paramiko host = "THEHOST.com" #...

阅读全文

python 执行cmd命令并获取pid

process = subprocess.Popen('cmd命令') pid = process.pid print(pid)

阅读全文

欢迎留言