python 某网站招标公告爬取及和文档自动处理

今天分享一个爬虫及自动合并pdf的过程,原需要通过人去某招标公示网站找到招标公告,然后截图,合成过往案例文档,大概有近千个。

主要解决思路分两个:

1、爬虫获取网页截图

2、按顺序合并到pdf,同时添加标题页

先说爬虫部分,由于需要截图,我才用的 pyppeteer 库,将网页内容渲染后保存为 A4 大小的pdf。网站有验证码,所有用了 chaojiying 自动打码。爬取过程可能下次再分享(之前是第一次用,有很多地方可以优化)。这一部分有交流的,私聊。

爬取到了就获取了800 多个公告 pdf。

pdf自动添加目录页并合并

导入相关包

读取文件,文件中存放了项目名、日期等信息

添加文件名字段,文件名格式位公告名称+日期

合并文件,添加目录页

定义函数

循环过程为:读取pdf1->生成目录页1->合并 ->读取pdf2->生成目录页2-合并->…

1、定义一个函数,传入标题名,生成含标题名的临时pdf(每个内容文件添加一个标题页,合并过程迭代即可,所以不需要存放很多标题页pdf集)

2、定义合成函数,传入文件目录,合并的文件列表,保存路径

合并

其实整体过程不复杂,这类需求也比较普遍,涉及到的困难的点包括:

爬取网页,保存为截图或pdf;

能熟悉pdf读写及合并。

资源下载: