python爬虫之批量下载文献

本教程参考视频:

  1. 学术网站获取bib格式文件(例如scoups,web of science,google scholar等)

  2. 查看sci-hub网站,调用格式,获取网站url(打开网页开发者模式,F12)

  3. 编写函数,获取导入bib文件,并格式化字段输出

  4. 编写获取文章下载链接函数(定义方法,以题目查找,以题目查找或者以文章DOI查找)

  5. 编写下载PDF函数,以及主函数

步骤详解:

一、获取bib文件,这里以scoups网站为例:

https://www.scopus.com/

(1)以关键字搜索获取文献列表

(2)设置搜索范围,勾选全部,点击导出BibTex

(3)设置导出字段,点击bib格式,点击导出

二、查看sci-hub网站,调用格式,获取网站url(打开网页开发者模式,F12)

   https://sci-hub.se/

(1)以题目搜索

(2)在网络,监听事件,点击响应,返回正确之后,在点击标题获取请求方法

三、编写函数,获取导入bib文件,并格式化字段输出

(1)bib文件格式预览

注意:这里bib文件格式里的关键字可能不一样,如果在不同网站导出的话,这里的以scoups为例下载的,其他网站需要对”into_bib”的正则化部分做相应的修改

(2)参考代码

四、编写获取文章下载链接函数

参考代码

注意:获取下载链接的代码,会根据网站变的,网站更新需要做相应的变动

五、编写下载PDF函数,以及主函数

注意:如果用doi方式下载文献,bib文件中不允许出现没有doi的参考文献,file_tix 为bib文件的路径,save_tix 为paper的保存路劲,保存方式为作者加年份

参考代码

(1)下载PDF

(2)主函数

六、整体参考代码

参考代码

资源下载: