百度图书馆是一个常用的网站。虽然百度名声不好,,
然而,图书馆里有很多资源,很多资源都被搜索过,
也放在百度文库里面,所以我们经常和它打交道。
以前我们只要有财富值就能下载文库的资源,
后续升级了以后,还必须要下载券才能下载了,
现在搞得连复多段文字都不准,实在是不爽。
于是出现了很多的第三方下载工具,
其中最出名的软件就是冰点文库下载器了,
能下载互联网几乎所有的文档网站,
但是有一个弊端就是软件下载的文档是PDF不可编辑版本,
因为软件是通过截图合成的,所以内容都不能编辑和复制,还得自己OCR识别。
今天给大家带来的软件不需要那么麻烦的操作,输入地址就能直接下载源格式文档!
注意,是源格式,文档是可以随意编辑和修改的,非常方便。
软件是使用Python开发的,不过作者并没有美化,所以界面很丑,但我们只需要功能就行,就先不管了。
野猫VIP文库 – yemao.vip/wenku 网页版本可以跨平台使用不受限定,任意自由使用哈!
使用起来很简单,输入地址,点击解析即可。
软件会判断文档格式,目前支持doc文档和PPT下载,然后你能看一大串地址,说明软件在开始下载了。
下载速度根据你文档页数而定,下载完成后,会保存在你选择的位置。
文档格式基本上和网页一致,并且是可以直接编辑的。如果这个文档的字体不一样,而你的电脑又没有这个字体,那么文档的字体显示就很奇怪,需要你自己去修改了。
怀着好奇心,我们去看看他是怎么下载的文档,为什么是可以编辑的呢?
在命令窗口复制一条软件下载的一个地址,打开查看,可以看到一堆代码,这一堆代码的格式为JSON,目前暂时看不出有什么东西。
将内容去掉开头的函数名,复制到解析工具里面,进行解析。这下就比较清晰了,显示该篇字体为宋体,还有每行的样式,文字大小等等。
同时每行文字内容也被解析出来了。
那么,这个JSON数据,可以通过一个转换器将他转换成文档格式,这也解释得通为什么百度文库可以在网页显示文档内容,网页上也可以复制了,原来是将文档内容解析成了JSON数据。
那么Python配合相关的转换器,就能将内容转换成文档文件了。
至于这个地址是怎么来的,抓取网页的数据应该能解得到,这儿就不再和大家深入讨论了。