今天分享一个爬虫及自动合并pdf的过程,原需要通过人去某招标公示网站找到招标公告,然后截图,合成过往案例文档,大概有近千个。
主要解决思路分两个:
1、爬虫获取网页截图
2、按顺序合并到pdf,同时添加标题页
先说爬虫部分,由于需要截图,我才用的 pyppeteer 库,将网页内容渲染后保存为 A4 大小的pdf。网站有验证码,所有用了 chaojiying 自动打码。爬取过程可能下次再分享(之前是第一次用,有很多地方可以优化)。这一部分有交流的,私聊。
爬取到了就获取了800 多个公告 pdf。
pdf自动添加目录页并合并
导入相关包
读取文件,文件中存放了项目名、日期等信息
添加文件名字段,文件名格式位公告名称+日期
合并文件,添加目录页
定义函数
循环过程为:读取pdf1->生成目录页1->合并 ->读取pdf2->生成目录页2-合并->…
1、定义一个函数,传入标题名,生成含标题名的临时pdf(每个内容文件添加一个标题页,合并过程迭代即可,所以不需要存放很多标题页pdf集)
2、定义合成函数,传入文件目录,合并的文件列表,保存路径
合并
其实整体过程不复杂,这类需求也比较普遍,涉及到的困难的点包括:
爬取网页,保存为截图或pdf;
能熟悉pdf读写及合并。