Python提取pdf文献分栏文本并保存为txt 解决的问题 pdf左右分栏的文本难以提取 处理思路 先将pdf转为html,再利用html的标签树层级关系,对信息内容进行提取,要优于将pdf文件按块划分后用ocr图相识别文字的方式进行提取。 相关视频 第三方库安装 依次在CMD窗口执行以下命令,换源安装第三方库 全代码 资源下载: 下载地址: http://yemao.in/life?utm_source=sishubiji&utm_term=Python提取pdf文献分栏文本并保存为txt