在ubuntu环境下,使用scrapy定时执行抓取任务,由于scrapy本身没有提供定时执行的功能,所以采用了crontab的方式进行定时执行:

首先编写要执行的命令脚本cron.sh

#! /bin/sh                                                                                                                                            

export PATH=$PATH:/usr/local/bin
#你spider所在目录
cd /apps/meinv/python/spider/ 
#执行spider 并写入日志
nohup scrapy crawl example >> example.log 2>&1 &
执行,crontab -e,规定crontab要执行的命令和要执行的时间频率,这里我需要每一分钟就执行scrapy crawl example这条爬取命令:
*/1 * * * *  sh /apps/meinv/python/spider/cron.sh
然后执行命令:tail -n 20 /var/log/cron ,查看蜘蛛是否执行!

本文参考地址:http://www.cnblogs.com/justinzhang/p/4500409.html

centos7安装python3.8

1.安装python 依赖 sudo yum -y install epel-release sudo yum -y update 安装完后可以 reboot 重其服务器,非必须。 2.安装gcc编译环境等等 sudo yum -y gro...

阅读全文

python清空文件夹下log文件

#!/usr/bin/python import os import sys files_list = [] def print_files(path): lsdir = os.listdir(path) dirs = [i for i in lsdir if os.path...

阅读全文

python paramiko(SFTP) 相关文档

python paramiko SFTP文档地址: http://docs.paramiko.org/en/2.4/api/sftp.html import paramiko host = "THEHOST.com" #...

阅读全文

欢迎留言