Python提取pdf文献分栏文本并保存为txt

解决的问题

pdf左右分栏的文本难以提取

处理思路

先将pdf转为html，再利用html的标签树层级关系，对信息内容进行提取，要优于将pdf文件按块划分后用ocr图相识别文字的方式进行提取。

相关视频

第三方库安装

依次在CMD窗口执行以下命令，换源安装第三方库

全代码

资源下载：

下载地址： http://yemao.in/life?utm_source=sishubiji&utm_term=Python提取pdf文献分栏文本并保存为txt