使用wget抓取整个站点和对应的命令详解。
省流
使用如下命令即可对目标站点进行整站抓取:
1 | wget -r -p -np -k -e robots=off https://repo.jellyfin.org/releases/plugin/ |
需要注意的是在抓取过程中需要关注内存使用否则可能引发OOM。
进阶
-r:递归;-p:–page-requisites(页面必需元素);-np:–no-parent(不抓取父级目录);
开启该开关后如上方举例,就只会抓取plugin下面的文件,不会探索上级目录(即便页面中有父级目录链接)。-k:将下载的HTML页面中的链接转换为相对链接即本地链接;-e robots=off:强制绕过robots.txt定义的不允许抓取的地址;--user-agent="Mozilla/5.0 (lxnchan) Firefox/3.0.3":定义UA防止被规则匹配限流;-nc:断点续传;-nd:不在本地按照网站结构创建子目录,将所有抓取到的文件装在一个文件夹内;--accept=docx,xlsx,pptx,dotm:仅抓取指定格式的文件;--reject=html,css,js,png,jpg:排除指定格式的文件;--referrer go.microsoft.com:指定Refer;--header="Accept: text/html":设置Header。

