期刊文献PDF自动生成目录书签–国内外学术期刊文献(IEEETrans等)小标题自动提取生成

[ IEEETrans 等期刊文献目录书签自动提取快速上手 ——  可直接跳转至第3节阅读 ]

1 动机

一篇学术论文的章节标题构成了整篇文章的骨架,所以读文章时从书签目录开始,不仅能够快速了解文章的写作思路和架构,也能够方便地定位并跳转到自己感兴趣的内容。

目录书签对于学术阅读十分重要,但许多国内外学术期刊(IEEETrans等)下载好PDF文件后经常会发现并没有书签,采用一些自动提取书签软件的直接提取效果也往往很差。 

常见的几种pdf自动书签方法:

1 Acrobat结构化书签  需要pdf自带结构(如word标题直接导出的pdf)

2 jpdfbookmarks/PdgCntEditor 需要有目录页,且需要能够从pdf复制出目录文本(适用于非图片扫描版电子书)

3 FreePic2Pdf 需要有目录页(适用于图片扫描版电子书)

这个教程就可以解决以上痛点,帮你实现论文阅读过程的书签自由。

2 自动提取书签的基本操作 

原料:

1 PDF阅读器:Adobe Acrobat ..软件(非Acrobat Reader,其没有插件功能)

2 功能扩展插件:AutoBookMark插件

基本操作学习:

1

2 adobe acrobat dc插件AutoBookMark自动生成目录 – 奶糖好吃吗 – 博客园 (https://www.cnblogs.com/delicious-candy/p/plug-in-AutoBookMark.html)

按照以上教程的基础操作,可以提取出部分标题,但往往也会识别错误或无法识别,识别效果并不好。识别效果不好的原因不在于插件功能不佳,而在于没有采用一些高级设置,根据特定文献格式匹配一些特殊的设置。因此,下一节介绍了一种在此基础操作之上的快速准确提取目录书签方法。

3 期刊文献提取方法

第一步:安装软件及插件(参见上一节教程)

第二步:直接加载现成的模板提取即可,具体案例与操作如下:


1 国际期刊文献——IEEE Trans 等(IEEE文献一般格式都很相似,模板较为通用)

1)下载国际期刊文献书签模板文件。

网盘链接:https://wwba.lanzouq.com/i5M9r13c4p7i  (需解压)

2)打开插件选项,加载对应的期刊模板文件(AutoMark_IEEE),完成提取。

2 国内期刊文献——以《电力系统自动化》为例

1)下载国内期刊文献书签模板文件 

网盘链接:https://wwba.lanzouq.com/iRAhK13c4thc(需解压)

2)打开插件选项,加载对应的期刊模板,完成提取(操作同上)。

其它期刊模板可以参照下一节内容自己制作(欢迎评论区贡献)。

4 模板制作原理

这一节通过具体案例对模板文件所采用的提取设置方法进行解析,以便你掌握书签提取的一些常用设置技巧,并在以后顺利应用于其它期刊文献的目录提取与模板制作。

以下分别对四个典型案例进行具体解析:

1 IEEE Transaction 文献

1)一级标题提取

2)二级标题提取

什么是正则表达式?

 正则表达式是一种用于匹配和操作文本的强大工具,它是由一系列字符和特殊字符组成的模式,用于描述要匹配的文本模式。正则表达式可以在文本中查找、替换、提取和验证特定的模式。——菜鸟教程(runoob.com)

正则语法参考:https://www.runoob.com/regexp/regexp-syntax.html

此处所采用的正则表达式解析:

(I|II|III|IV|V|VI|VII|VIII|IX|X){1}\.\s.+

–  (I|II|III|IV|V|VI|VII|VIII|IX|X)  匹配从I到X的任何罗马数字

–  \.  匹配符号“点”

–  \s  匹配任何空格字符

–  .+  匹配任意字符串(直到句尾)

这里可以替换为更细致的正则表达式(模板文件所采用的正则表达式):

((I|II|III|IV|V|VI|VII|VIII|IX|X){1}\.\s.+)|(REFERENCES)|(APPENDIX)|(REFERENCES)|(NOMENCLATURE)

3)三级标题提取

此处所采用的正则表达式解析:

(A|B|C|D|E|F){1}\.\s.+

–  (A|B|C|D|E|F) 表示匹配 A、B、C、D、E、F 中任意一个字母。 

–  {1} 表示前面的字母只能出现一次。 

–  \. 表示匹配一个句点。 

–  \s 表示匹配一个空格。 

–  .+ 表示匹配任意字符,至少出现一次。

2 较早期 IEEE Transaction 文献

二级标题提取:

3 IFAC会议文献(类似Elsevier期刊格式的文献,特点是用阿拉伯数字进行标题编号)

二级标题提取:

4  电力系统自动化

1)二级标题提取

2)三级标题提取

3)模板的保存与导出

5 备注

1. 考虑到插件兼容性,更推荐安装 32位adobe 和 32位插件 (64位系统一般也可兼容运行)。

资源下载: