使用 wget 抓取整个站点

创建于2023-01-28

2026年7月20日更新

预计阅读1分钟

全文约297字

使用wget抓取整个站点和对应的命令详解。

省流

使用如下命令即可对目标站点进行整站抓取：

1	wget -r -p -np -k -e robots=off https://repo.jellyfin.org/releases/plugin/

需要注意的是在抓取过程中需要关注内存使用否则可能引发OOM。

-r：递归；
-p：–page-requisites（页面必需元素）；
-np：–no-parent（不抓取父级目录）；
开启该开关后如上方举例，就只会抓取plugin下面的文件，不会探索上级目录（即便页面中有父级目录链接）。
-k：将下载的HTML页面中的链接转换为相对链接即本地链接；
-e robots=off：强制绕过robots.txt定义的不允许抓取的地址；
--user-agent="Mozilla/5.0 (lxnchan) Firefox/3.0.3"：定义UA防止被规则匹配限流；
-nc：断点续传；
-nd：不在本地按照网站结构创建子目录，将所有抓取到的文件装在一个文件夹内；
--accept=docx,xlsx,pptx,dotm：仅抓取指定格式的文件；
--reject=html,css,js,png,jpg：排除指定格式的文件；
--referrer go.microsoft.com：指定Refer；
--header="Accept: text/html"：设置Header。