LinuxSir.cn,穿越时空的Linuxsir!

 找回密码
 注册
搜索
热搜: shell linux mysql
查看: 850|回复: 2

一个自动下ieee文档的脚本,功能:如果已有文件,就不下载

[复制链接]
发表于 2005-10-12 23:07:35 | 显示全部楼层 |阅读模式
打开要下载的网页的源代码,用grep命令抓下所有联接,再用如gvim编辑加工成文件address,内容比如为:
/iel5/9112/28901/01300945.pdf?tp=&arnumber=1300945&isnumber=28901
/iel5/8570/27140/01205864.pdf?tp=&arnumber=1205864&isnumber=27140
/iel5/8570/27140/01205780.pdf?tp=&arnumber=1205780&isnumber=27140
/iel5/8535/26975/01199484.pdf?tp=&arnumber=1199484&isnumber=26975
/iel5/8091/22457/01048150.pdf?tp=&arnumber=1048150&isnumber=22457

执行脚本bot:

domain=http://ieeexplore.ieee.org;
for i in `less address`;
  do
  echo $i>a;
    for j in `sed 's/\/iel5.*\///' a`;
      do
        if [ ! -f  $j ];
        then proz -r -1 "$domain$i";
          sleep 15;
        fi;
      done;
  done

就可以了

下载后的文件形如:
01300945.pdf?tp=&arnumber=1300945&isnumber=28901
 楼主| 发表于 2005-10-12 23:41:50 | 显示全部楼层
为什么这样执行:
domain=http://ieeexplore.ieee.org;
for i in `less address`;
do
j=`sed 's/\/iel5.*\///' "$i"`;
if [ ! -f  $j ];
then proz -1 -r "$domain$i";
fi;
done
不对?
回复 支持 反对

使用道具 举报

 楼主| 发表于 2005-10-13 10:56:37 | 显示全部楼层
一个更简单的脚本(带输入参数):
domain=http://ieeexplore.ieee.org;
for i in $(less $1);
do
j=${i##/iel5/*/};
if [ ! -f  $j ];
then proz -1 -r "$domain$i";
sleep 15;
fi;
done
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表