我去!我喜欢下载!

本文介绍下载各种网站“不允许下载”的资料的方法。

课堂派

参考了CSDN 这篇文章,这位佬提醒了我可以遇事不决看Source Code。

从微信到本地html

step1

在浏览器中打开课堂派。

step2

使用ctrl+shift+I的快捷键打开网页源码。

step3

切换到Sourse 界面,找到名为document.ketangpai.com的文件夹,其中有你已经浏览过故而加载过的图片。

step4

到这里,根据想要下载的pdf数量的多少,可以分为两种方法:

method A

直接对单张图片右键保存,默认保存下来格式是PNG。可以使用smallpdf等软件转换其为PDF。

method B

想要通篇保存的话,可以:

  • 使用自动化工具Tinytask
  • 回到Elements,以document为关键词检索,找到一条链接,这个链接打开来就是整个PDF;

一般是一个以`<frame src=”[https://document.ketangpai.com/] 打头的链接。


至于上升到自动爬虫程度的方案……之后有需求再做吧。 还有PDF以外的文件格式也是,比较麻烦。暂时没想出PPTX的下载方案。


从本地html到本地pdf

下面介绍一些转html为pdf的方法:

  1. wkhtmltopdf(无维护,报错多,不建议使用)

    参考文章:https://blog.csdn.net/qq_14873105/article/details/51394026

    一个把html页面转换成pdf的一个软件(需要安装在服务器上)。它可以直接通过cmd批量处理,使用php中的 shell_exec()函数就可以调用它。

    下面介绍用php+js+html来让它生成pdf文件的方法(缺陷:需要在服务器端生成一个缓存文件,如果你使用thinkphp框架的话就可以将其缓存文件放在runtime 文件夹中暂存)。

    • 下载地址:http://wkhtmltopdf.org/downloads.html 选择合适的版本下载并安装。
    • 环境变量:在系统环境变量变量名为”Path”的后添加你安装的目录(e.g. E:\日常软件\wkhtmltopdf\bin)。安装好以后重启电脑。
    • 测试使用效果:
      • cmd输入:wkhtmltopdf http://www.baidu.com/ D:website1.pdf
      • 语法解读:运行软件名称 网址 生成路径及文件名
      • 检查D盘是否出现了百度搜索界面的pdf,pdf名字为website1
    • php调用:略
  2. https://github.com/wuxue107/bookjs-eazy 一个老哥搞的wkhtmltopdf进阶版……看起来很复杂,我就先不研究了。

  3. chrome 插件 chrome插件多试几次还是好安装的。

    • HTML to PDF Convertor :老哥你的网页快照都是歪的……
    • 网页到pdf转换器: 滚动式网页快照……照得不全。
    • save to pdf:照得还可以,基于wordpress API做的pdfcrowd,缺点在于每一页pdf下面都有开发者的广告,会挡住pdf的内容并且谜之分页。还有页面大小限制,页面一多就照不全。
    • save webpage as pdf: 也是用pdfcrowd做的插件,差。

  1. 真神降临。

    adobe acrobat的创建pdf可以放html进去。效果绝佳。只需进行小小的页面裁切。


总结整体流程:

  • 在浏览器打开课堂派;
  • 查看源码,找到PDF的链接;
  • 打开链接,完全加载,使用singlefile等方法保存该html;
  • 使用adobe acrobat(暂无替代方案)转html为PDF并编辑。
  • 大功告成!

超星

参考这篇博文

  1. 下载超星阅读器,通过它打开书籍阅读界面;
  2. 下载CxCandyEnt(用于下载未加密的 PDG)和Pdg2Pic(用于将 PDG 转 PDF)两个软件,分别下载/转换即可。