python 某网站招标公告爬取及和文档自动处理

今天分享一个爬虫及自动合并pdf的过程，原需要通过人去某招标公示网站找到招标公告，然后截图，合成过往案例文档，大概有近千个。

主要解决思路分两个：

1、爬虫获取网页截图

2、按顺序合并到pdf，同时添加标题页

先说爬虫部分，由于需要截图，我才用的 pyppeteer 库，将网页内容渲染后保存为 A4 大小的pdf。网站有验证码，所有用了 chaojiying 自动打码。爬取过程可能下次再分享（之前是第一次用，有很多地方可以优化）。这一部分有交流的，私聊。

爬取到了就获取了800 多个公告 pdf。

pdf自动添加目录页并合并

导入相关包

读取文件，文件中存放了项目名、日期等信息

添加文件名字段，文件名格式位公告名称+日期

合并文件，添加目录页

定义函数

循环过程为：读取pdf1->生成目录页1->合并 ->读取pdf2->生成目录页2-合并->…

1、定义一个函数，传入标题名，生成含标题名的临时pdf（每个内容文件添加一个标题页，合并过程迭代即可，所以不需要存放很多标题页pdf集）

2、定义合成函数，传入文件目录，合并的文件列表，保存路径

合并

其实整体过程不复杂，这类需求也比较普遍，涉及到的困难的点包括：

爬取网页，保存为截图或pdf；

能熟悉pdf读写及合并。

资源下载：