Python提取pdf文献分栏文本并保存为txt

解决的问题

pdf左右分栏的文本难以提取

处理思路

先将pdf转为html,再利用html的标签树层级关系,对信息内容进行提取,要优于将pdf文件按块划分后用ocr图相识别文字的方式进行提取。

相关视频

第三方库安装

依次在CMD窗口执行以下命令,换源安装第三方库

全代码

资源下载: