Skip to content

功能演示

>

1. 安装包地址:

https://github.com/ftyszyx/WebCloner/releases

2. 启动

第一次启动会下载一次chrome资源

3. 程序首页

两个功能,一个是账号管理,一个是任务管理

4. 举例说明

4.1.1 新浪博客(感觉快倒闭了)

以快被人遗忘的新浪博客为例,10年前,博客很火的时候,我也有在那里留下了一些日记

目前新浪的博客只能自己可见,需要登录

4.1.1.1 新建账号

初始是未登录状态

4.1.1.2 登录

会打开浏览器,

4.1.1.3 自己登录

登录成功后,可以在浏览器中打开自己的博客查看 一下是否正常

https://blog.sina.com.cn/u/1291367225

4.1.1.4 保存cookie

然后,可以保存cookies了

显示已登录

现在可以新建任务 了

4.1.1.5 新建任务

4.1.1.6 填写网站信息

4.1.1.6.1 获取入口地址

首选入口就是播客的目录页,里面基本就是自己的全部文章汇总:

https://blog.sina.com.cn/s/articlelist_1291367225_0_1.html

4.1.1.6.2 获取抓取的网址

随便打开一篇文章,看下地址格式

https://blog.sina.com.cn/s/blog_4cf8b3390100xomz.html

4.1.1.6.3 任务填写

任务可以按下面输入

注意要选择账号,不然获取不到

入口地址:第一个要爬的地址

爬取url规则:用来筛选过程中有效网址的地址规则

截图url规则:判断哪些网址会保存下来

4.1.1.7 开始爬取

4.1.1.8 完成了

4.1.1.9 打开目录

4.1.1.10 网页效果