1 使用 PdgCntEditor + sublime 正则替换 提取
1)在PdgCntEditor软件打开文献(文本模式下)。此时会看到软件提取出的目录文本,但此时每条目录后面会有文档位置的字符中。
2)将上一步的目录复制到sublime中,ctrl+H >> 查找 (\d).+\n 【表示以数字开关直到句尾的所有字符】 替换 \n 即可。
2 使用 zotero + quicker 文本识别插件 提取
1)zotero在待提取文献条目处右击 >> Manage Attachments >> Get Table of Contents ; 然后点出附件pdf, 即可在右边栏中看到content,但此时直接复制会复制到带markdown_wiki链接形式的文本,所以需要配合quicker。
2)使用quicker截图OCR直接识别zotero提取出的目录,然后稍作修改即可。
3 使用 PDF阅读器 + quicker 文本识别插件 + Chatgpt 提取
直接使用quicker截图OCR对pdf目录进行识别(识别得到的异常符号与缩进可能较多),然后输入GPT,让其去除异常符号并进行合适的缩进。