专注是一种工匠精神

如何使用火车头上传采集图片设置?(9.X版)

火车头采集器图片采集上传设置

前面我们写了基础的标题和文章采集,下面介绍下图片的采集。

图片采集不是必须的,但是图片可以丰富网站的内容,具体我也不清楚对网站的SEO有什么影响。我测试采集图片和不采集图片收录没区别,我见到的一些采集站,大部分也是不采集图片的!

如果采集数据量比较大的话可以选择不采集图片。

首先是火车头采集器上的设置。

我们以这个文章为例:https://www.rank50.com/issue/1659.html

这个里面有一些内文图片,并且也是前面我们教程里用做示范的网站。

声明:本人目前没使用任何景安的产品(以前用过),也对他产品印象不好。仅做教程示例,没有推荐他产品的意思。

我们直接打开前面教程创建的那个火车头采集任务。

在内容采集规则 >> 内容 >> 文件下载

点击文件下载后,会跳出一个界面,界面上有 将相对地址补全为绝对地址、下载图片、探测文件真实地址但不下载、探测文件并下载。
我们把「将相对地址补全为绝对地址」和「下载图片」勾选起来。

文件地址必须含有该采集目标站的url,例如https://www.rank50.com/upload/123.jpg,那么你可以 键入含有 /upload/ 的字。

文件保存目录范例:i\m\g/yyyyMMdd

这个目录是你采集器的本地电脑和服务器里面要创建的目录,先存到本地然后上传到服务器里。

目录里面的\斜杠是因为默认img里面m和g会被火车头识别为内置函数(字母颜色会变绿),没办法正常解析,所以加上斜杠。正常的话是img/yyyyMMdd这样的

含义:表示保存到网站的/img目录下,然后根据年月日自动创建对应的目录。

 

火车头图片采集,火车头采集图片,火车头采集教程

 

然后我们进行图片的上传设置,我们采集时候顺序是,先将图片下载到本地,然后传到服务器这样一个步骤。

通过FTP的方式来上传。

先在宝塔面板上传建一个FTP账户,FTP默认目录要设置在我们网站跟目录。

采集器会根据我们上面的设置自己创建对应的目录。

火车头图片采集,火车头采集图片,火车头采集教程

 

注意:FTP使用的端口记得打开!21、20、39000-40000不打开端口你图片自然传不了。放行20和39000到40000这些端口是因为宝塔的FTP经常出现FTP连接错误的情况,这是另一个问题。这里不给大家解释了,不然篇幅太长了。

火车头FTP设置如下:

  1. 模式选择「FTP上传」
  2. 服务器填写你的服务器IP地址(站群服务器随便选择一个IP即可)
  3. 用户名填写FTP帐号名
  4. 密码填写FTP密码
  5. 端口默认21
  6. 文件上传根目录填写你要存储的"绝对地址"
  7. 次序选择先发布数据
  8. 文件上传成功后删除本地文件默认是

 

火车头图片采集,火车头采集图片,火车头采集教程

 

设置好了之后我们点一下上传测试文件:

看下下面的框里显示的信息,有没有成功上传,并且打开网站目录内也看下有没有测试文件Test.zip被上传。

火车头图片采集,火车头采集图片,火车头采集教程

 

火车头图片采集,火车头采集图片,火车头采集教程

 

测试OK的话保存一下设置,我们测试下看看采集效果

把这个网址填入到网址采集规则里,https://www.rank50.com/issue/1659.html

火车头图片采集,火车头采集图片,火车头采集教程

 

因为我们测试的直接是一个内容页网址,所以网址采集规则下面我们要点一下:起始网址就是内容页网址

保存,然后清空任务采集数据

运行任务

火车头图片采集,火车头采集图片,火车头采集教程

 

看运行日志没问题,我们到网站上看看有没有发布上

文章正确进行了发布,图片都正常显示了

赞(0)
未经允许不得转载:伦客网 » 如何使用火车头上传采集图片设置?(9.X版)

评论 抢沙发

5 + 2 =