我去!我喜欢下载!
本文介绍下载各种网站“不允许下载”的资料的方法。
课堂派
参考了CSDN 这篇文章,这位佬提醒了我可以遇事不决看Source Code。
从微信到本地html
step1
在浏览器中打开课堂派。
step2
使用ctrl+shift+I
的快捷键打开网页源码。
step3
切换到Sourse
界面,找到名为document.ketangpai.com的文件夹,其中有你已经浏览过故而加载过的图片。
step4
到这里,根据想要下载的pdf数量的多少,可以分为两种方法:
method A
直接对单张图片右键保存,默认保存下来格式是PNG。可以使用smallpdf等软件转换其为PDF。
method B
想要通篇保存的话,可以:
- 使用自动化工具
Tinytask
; - 回到
Elements
,以document
为关键词检索,找到一条链接,这个链接打开来就是整个PDF;
一般是一个以`<frame src=”[https://document.ketangpai.com/] 打头的链接。
- 然后可以:
- 先把整个PDF加载一遍(就是从头到尾把页面看一遍);
- 使用插件:因为图片可以被直接嗅探,所以可以用chrome的一些插件来批量下载图片;
- 例:使用chrome的插件singlefile
- 在google的插件商店安装总是出错,反正是开源的,建议在github手动安装:
- github
- You can download the zip file of the project and install it manually by unzipping it somewhere on your disk and following these instructions:
- Firefox: https://extensionworkshop.com/documentation/develop/temporary-installation-in-firefox/
- Chrome: https://developer.chrome.com/docs/extensions/mv3/getstarted/development-basics/#load-unpacked
- Microsoft Edge: https://docs.microsoft.com/en-us/microsoft-edge/extensions-chromium/getting-started/extension-sideloading
- Safari: https://github.com/gildas-lormeau/SingleFile-Safari-Extension
- 成功下载本地html文件,可以本地浏览或进一步转其为PDF。(url→pdf? )
- 注意下载html前也要把整个页面刷新加载一遍。
至于上升到自动爬虫程度的方案……之后有需求再做吧。 还有PDF以外的文件格式也是,比较麻烦。暂时没想出PPTX的下载方案。
从本地html到本地pdf
下面介绍一些转html为pdf的方法:
wkhtmltopdf(无维护,报错多,不建议使用)
参考文章:https://blog.csdn.net/qq_14873105/article/details/51394026
一个把html页面转换成pdf的一个软件(需要安装在服务器上)。它可以直接通过cmd批量处理,使用php中的 shell_exec()函数就可以调用它。
下面介绍用php+js+html来让它生成pdf文件的方法(缺陷:需要在服务器端生成一个缓存文件,如果你使用thinkphp框架的话就可以将其缓存文件放在runtime 文件夹中暂存)。
- 下载地址:http://wkhtmltopdf.org/downloads.html 选择合适的版本下载并安装。
- 环境变量:在系统环境变量变量名为”Path”的后添加你安装的目录(e.g. E:\日常软件\wkhtmltopdf\bin)。安装好以后重启电脑。
- 测试使用效果:
- cmd输入:
wkhtmltopdf http://www.baidu.com/ D:website1.pdf
- 语法解读:
运行软件名称 网址 生成路径及文件名
- 检查D盘是否出现了百度搜索界面的pdf,pdf名字为website1
- cmd输入:
- php调用:略
https://github.com/wuxue107/bookjs-eazy 一个老哥搞的wkhtmltopdf进阶版……看起来很复杂,我就先不研究了。
chrome 插件 chrome插件多试几次还是好安装的。
- HTML to PDF Convertor :老哥你的网页快照都是歪的……
- 网页到pdf转换器: 滚动式网页快照……照得不全。
- save to pdf:照得还可以,基于wordpress API做的pdfcrowd,缺点在于每一页pdf下面都有开发者的广告,会挡住pdf的内容并且谜之分页。还有页面大小限制,页面一多就照不全。
- save webpage as pdf: 也是用pdfcrowd做的插件,差。
真神降临。
adobe acrobat的创建pdf可以放html进去。效果绝佳。只需进行小小的页面裁切。
总结整体流程:
- 在浏览器打开课堂派;
- 查看源码,找到PDF的链接;
- 打开链接,完全加载,使用singlefile等方法保存该html;
- 使用adobe acrobat(暂无替代方案)转html为PDF并编辑。
- 大功告成!
超星
参考这篇博文。
- 下载超星阅读器,通过它打开书籍阅读界面;
- 下载CxCandyEnt(用于下载未加密的 PDG)和Pdg2Pic(用于将 PDG 转 PDF)两个软件,分别下载/转换即可。