1. 安装包地址:
https://github.com/ftyszyx/WebCloner/releases
2. 启动
第一次启动会下载一次chrome资源

3. 程序首页

两个功能,一个是账号管理,一个是任务管理
4. 举例说明
4.1.1 新浪博客(感觉快倒闭了)
以快被人遗忘的新浪博客为例,10年前,博客很火的时候,我也有在那里留下了一些日记
目前新浪的博客只能自己可见,需要登录
4.1.1.1 新建账号

初始是未登录状态

4.1.1.2 登录

会打开浏览器,
4.1.1.3 自己登录


登录成功后,可以在浏览器中打开自己的博客查看 一下是否正常
https://blog.sina.com.cn/u/1291367225

4.1.1.4 保存cookie
然后,可以保存cookies了

显示已登录

现在可以新建任务 了
4.1.1.5 新建任务


4.1.1.6 填写网站信息
4.1.1.6.1 获取入口地址
首选入口就是播客的目录页,里面基本就是自己的全部文章汇总:
https://blog.sina.com.cn/s/articlelist_1291367225_0_1.html

4.1.1.6.2 获取抓取的网址
随便打开一篇文章,看下地址格式
https://blog.sina.com.cn/s/blog_4cf8b3390100xomz.html

4.1.1.6.3 任务填写
任务可以按下面输入

注意要选择账号,不然获取不到

入口地址:第一个要爬的地址
爬取url规则:用来筛选过程中有效网址的地址规则
截图url规则:判断哪些网址会保存下来
4.1.1.7 开始爬取

4.1.1.8 完成了

4.1.1.9 打开目录

4.1.1.10 网页效果
