Lxn-Chan!

(~ ̄▽ ̄)→))* ̄▽ ̄*)o

使用wget抓取整个站点和对应的命令详解。

省流

使用如下命令即可对目标站点进行整站抓取:

1
wget -r -p -np -k -e robots=off https://repo.jellyfin.org/releases/plugin/

需要注意的是在抓取过程中需要关注内存使用否则可能引发OOM。

进阶

  • -r:递归;
  • -p:–page-requisites(页面必需元素);
  • -np:–no-parent(不抓取父级目录);
    开启该开关后如上方举例,就只会抓取plugin下面的文件,不会探索上级目录(即便页面中有父级目录链接)。
  • -k:将下载的HTML页面中的链接转换为相对链接即本地链接;
  • -e robots=off:强制绕过robots.txt定义的不允许抓取的地址;
  • --user-agent="Mozilla/5.0 (lxnchan) Firefox/3.0.3":定义UA防止被规则匹配限流;
  • -nc:断点续传;
  • -nd:不在本地按照网站结构创建子目录,将所有抓取到的文件装在一个文件夹内;
  • --accept=docx,xlsx,pptx,dotm:仅抓取指定格式的文件;
  • --reject=html,css,js,png,jpg:排除指定格式的文件;
  • --referrer go.microsoft.com:指定Refer;
  • --header="Accept: text/html":设置Header。

 简单说两句



联系站长 | 服务状态 | 友情链接

备案号:辽ICP备19013963号

萌ICP备 20219421 号

中国互联网违法和不良信息举报中心

架构版本号:8.1.5 | 本站已全面支持IPv6

正在载入运行数据(1/2)请稍后...
正在载入运行数据(2/2)请稍后...

Copyright 2024 LingXuanNing, All rights reserved.