[ IEEETrans 等期刊文献目录书签自动提取快速上手 —— 可直接跳转至第3节阅读 ]
1 动机
一篇学术论文的章节标题构成了整篇文章的骨架,所以读文章时从书签目录开始,不仅能够快速了解文章的写作思路和架构,也能够方便地定位并跳转到自己感兴趣的内容。
目录书签对于学术阅读十分重要,但许多国内外学术期刊(IEEETrans等)下载好PDF文件后经常会发现并没有书签,采用一些自动提取书签软件的直接提取效果也往往很差。
常见的几种pdf自动书签方法:
1 Acrobat结构化书签 需要pdf自带结构(如word标题直接导出的pdf)
2 jpdfbookmarks/PdgCntEditor 需要有目录页,且需要能够从pdf复制出目录文本(适用于非图片扫描版电子书)
3 FreePic2Pdf 需要有目录页(适用于图片扫描版电子书)
这个教程就可以解决以上痛点,帮你实现论文阅读过程的书签自由。
2 自动提取书签的基本操作
原料:
1 PDF阅读器:Adobe Acrobat ..软件(非Acrobat Reader,其没有插件功能)
2 功能扩展插件:AutoBookMark插件
基本操作学习:
1
2 adobe acrobat dc插件AutoBookMark自动生成目录 – 奶糖好吃吗 – 博客园 (https://www.cnblogs.com/delicious-candy/p/plug-in-AutoBookMark.html)
按照以上教程的基础操作,可以提取出部分标题,但往往也会识别错误或无法识别,识别效果并不好。识别效果不好的原因不在于插件功能不佳,而在于没有采用一些高级设置,根据特定文献格式匹配一些特殊的设置。因此,下一节介绍了一种在此基础操作之上的快速准确提取目录书签方法。
3 期刊文献提取方法
第一步:安装软件及插件(参见上一节教程)
第二步:直接加载现成的模板提取即可,具体案例与操作如下:
1 国际期刊文献——IEEE Trans 等(IEEE文献一般格式都很相似,模板较为通用)
1)下载国际期刊文献书签模板文件。
网盘链接:https://wwba.lanzouq.com/i5M9r13c4p7i (需解压)
2)打开插件选项,加载对应的期刊模板文件(AutoMark_IEEE),完成提取。
2 国内期刊文献——以《电力系统自动化》为例
1)下载国内期刊文献书签模板文件
网盘链接:https://wwba.lanzouq.com/iRAhK13c4thc(需解压)
2)打开插件选项,加载对应的期刊模板,完成提取(操作同上)。
其它期刊模板可以参照下一节内容自己制作(欢迎评论区贡献)。
4 模板制作原理
这一节通过具体案例对模板文件所采用的提取设置方法进行解析,以便你掌握书签提取的一些常用设置技巧,并在以后顺利应用于其它期刊文献的目录提取与模板制作。
以下分别对四个典型案例进行具体解析:
1 IEEE Transaction 文献
1)一级标题提取
2)二级标题提取
什么是正则表达式?
正则表达式是一种用于匹配和操作文本的强大工具,它是由一系列字符和特殊字符组成的模式,用于描述要匹配的文本模式。正则表达式可以在文本中查找、替换、提取和验证特定的模式。——菜鸟教程(runoob.com)
正则语法参考:https://www.runoob.com/regexp/regexp-syntax.html
此处所采用的正则表达式解析:
(I|II|III|IV|V|VI|VII|VIII|IX|X){1}\.\s.+
– (I|II|III|IV|V|VI|VII|VIII|IX|X) 匹配从I到X的任何罗马数字
– \. 匹配符号“点”
– \s 匹配任何空格字符
– .+ 匹配任意字符串(直到句尾)
这里可以替换为更细致的正则表达式(模板文件所采用的正则表达式):
((I|II|III|IV|V|VI|VII|VIII|IX|X){1}\.\s.+)|(REFERENCES)|(APPENDIX)|(REFERENCES)|(NOMENCLATURE)
3)三级标题提取
此处所采用的正则表达式解析:
(A|B|C|D|E|F){1}\.\s.+
– (A|B|C|D|E|F) 表示匹配 A、B、C、D、E、F 中任意一个字母。
– {1} 表示前面的字母只能出现一次。
– \. 表示匹配一个句点。
– \s 表示匹配一个空格。
– .+ 表示匹配任意字符,至少出现一次。
2 较早期 IEEE Transaction 文献
二级标题提取:
3 IFAC会议文献(类似Elsevier期刊格式的文献,特点是用阿拉伯数字进行标题编号)
二级标题提取:
4 电力系统自动化
1)二级标题提取
2)三级标题提取
3)模板的保存与导出
5 备注
1. 考虑到插件兼容性,更推荐安装 32位adobe 和 32位插件 (64位系统一般也可兼容运行)。