我们都知道,某个图书馆中的许多文档不能随意下载,甚至复制功能也很有限。虽然之前我曾与您分享过一篇文章,教您解除网站对我们的复制限制(有关详细信息,请参阅文章[无需下载任何工具,一键解决浏览器网页无法复制的问题,对于无法下载的文档,请使用此技术!]),但是,根据方法越多越好的原则,这次我将专门为某个库共享一个方法。让我们以这次高考满分作文为例。
让我们先按键盘上的F12键打开browser developer工具,然后单击顶部的console选项卡切换到控制台,并在控制台框=document.getElementsByClassName(“ie fix”)中输入以下代码行;对于(var i=0;我
然后这时候咱们再敲回车就会发现文章全文已经全部打印到控制台当中啦
这时候你想复制哪里可以直接选中然后鼠标右键复制就完事啦!至于复制到哪里,就看你自己的选择啦哈哈。
这里多说两句哈,其实刚刚让大家粘贴的代码只是一行普普通通的js代码,不是什么恶意代码哈,就是用来先定位到文本然后再把它打印到控制台供大家进行复制。不过要说起来,从效果上来看,这也算是个小爬虫啦哈哈,只不过不是用python而是直接使用浏览器在控制台执行js代码的方式获取数据。我觉得用这种方式获取数据的话,对于那种数据需求量不大但是反爬难度巨大的网站来说还是挺方便的,毕竟在控制台运行js代码直接就操作的是真实的渲染好的网页,传统的反爬措施很难起效。
就比如说上面这个梦幻西游藏宝阁页面,你如果想获取到红色圆圈中的内容是比较麻烦的,因为这些数据不仅不在网页源代码里面,而且还是加密的。
但是你如果是直接在控制台运行js代码,非常简单的几行代码就可以快速提取到你所需要的数据。所以如果你需要的数据不是很多的话,直接在浏览器里面写代码也是可以的哈哈。
最后当然还要回到咱们的某度文库上来,除了通过这种自己进行复制粘贴的方式之外,其实大家也可以去下载一些专用的下载工具,比如冰点等,不过之前好像听说冰点的作者不在进行维护了,所以以后的话就不太能保证该软件的稳定性了,这也是本期多补充一种获取文档方法的目的哈哈。不过除了冰点之外,此类下载工具也还有很多,这里我已经把这些工具的下载链接都整理好了并放到了文章评论区,如果有需要的小伙伴也可以自行前往下载哈哈。