火车头采集器图片采集上传设置
前面我们写了基础的标题和文章采集,下面介绍下图片的采集。
图片采集不是必须的,但是图片可以丰富网站的内容,具体我也不清楚对网站的SEO有什么影响。我测试采集图片和不采集图片收录没区别,我见到的一些采集站,大部分也是不采集图片的!
如果采集数据量比较大的话可以选择不采集图片。
首先是火车头采集器上的设置。
我们以这个文章为例:https://www.rank50.com/issue/1659.html
这个里面有一些内文图片,并且也是前面我们教程里用做示范的网站。
声明:本人目前没使用任何景安的产品(以前用过),也对他产品印象不好。仅做教程示例,没有推荐他产品的意思。
我们直接打开前面教程创建的那个火车头采集任务。
在内容采集规则 >> 内容 >> 文件下载
点击文件下载后,会跳出一个界面,界面上有 将相对地址补全为绝对地址、下载图片、探测文件真实地址但不下载、探测文件并下载。
我们把「将相对地址补全为绝对地址」和「下载图片」勾选起来。
文件地址必须含有该采集目标站的url,例如https://www.rank50.com/upload/123.jpg,那么你可以 键入含有 /upload/ 的字。
文件保存目录范例:i\m\g/yyyyMMdd
这个目录是你采集器的本地电脑和服务器里面要创建的目录,先存到本地然后上传到服务器里。
目录里面的\斜杠是因为默认img里面m和g会被火车头识别为内置函数(字母颜色会变绿),没办法正常解析,所以加上斜杠。正常的话是img/yyyyMMdd这样的
含义:表示保存到网站的/img目录下,然后根据年月日自动创建对应的目录。
然后我们进行图片的上传设置,我们采集时候顺序是,先将图片下载到本地,然后传到服务器这样一个步骤。
通过FTP的方式来上传。
先在宝塔面板上传建一个FTP账户,FTP默认目录要设置在我们网站跟目录。
采集器会根据我们上面的设置自己创建对应的目录。
注意:FTP使用的端口记得打开!21、20、39000-40000不打开端口你图片自然传不了。放行20和39000到40000这些端口是因为宝塔的FTP经常出现FTP连接错误的情况,这是另一个问题。这里不给大家解释了,不然篇幅太长了。
火车头FTP设置如下:
- 模式选择「FTP上传」
- 服务器填写你的服务器IP地址(站群服务器随便选择一个IP即可)
- 用户名填写FTP帐号名
- 密码填写FTP密码
- 端口默认21
- 文件上传根目录填写你要存储的"绝对地址"
- 次序选择先发布数据
- 文件上传成功后删除本地文件默认是
设置好了之后我们点一下上传测试文件:
看下下面的框里显示的信息,有没有成功上传,并且打开网站目录内也看下有没有测试文件Test.zip被上传。
测试OK的话保存一下设置,我们测试下看看采集效果
把这个网址填入到网址采集规则里,https://www.rank50.com/issue/1659.html
因为我们测试的直接是一个内容页网址,所以网址采集规则下面我们要点一下:起始网址就是内容页网址
保存,然后清空任务采集数据
运行任务
看运行日志没问题,我们到网站上看看有没有发布上
文章正确进行了发布,图片都正常显示了