今日头条大家都在问问答文章采集聚合python脚本说明文档

最近开发出来一款python的脚本，头条问答（大家都在问）文章聚合python脚本（徽❤:TXB2196），今天来对这个脚本来做一下说明：

1、采集源：今日头条大家都在问

2、脚本类型：python脚本

3、采集逻辑：

首先，也是根据搜索词进行采集的，搜词之后，提取头条问答列表的网址，默认请求20个列表页；

其次，提取到列表页的文章数据之后，对文章进行聚合，组合数据至少2篇，文章的长度至少1200字，在组合时候，如果不足2篇文章不足1200字，会把后面的文章组合进来。

最后，标题采用前两篇文章的标题进行组合，内容的小标题采用 h3标签+正文内容

4、保存格式，一篇文章一个记事本

5、其他：这个脚本是单纯的python脚本，因为提取逻辑的问题，没法做成火车头的插件，如果想要发布到自己的网站，需要先把数据导入到火车头，然后单独进行发布。

6、增加有文章id 去重功能，可以保证文章不重复聚合。

头条问答的数据不好采集，之前的时候，有悟空问答的入口，通过悟空问答可以采集到很多数据，后面头条直接取消了悟空问答，改成了悟空搜索，然后所有数据都整合到了大家都在问中，其实这两个页面目前来说还是有差异的，之前悟空问答的页面，和大家都在问的页面有些差异，但是通过观察发现，后面大家都在问的数据占比越来越高，应该是把之前的悟空问答的数据都转移到大家都在问这个里面来了。

7、插件说明

插件说明：

1、python库安装requests

安装指令 pip install requests -i http://pypi.douban.com/simple –trusted-host pypi.douban.com

安装方法：win+r—cmd—回车—复制上面指令—粘贴指令—回车—安装完成

2、data文件夹，存放采集数据的地方

3、cookie.txt，存放多个cookie，脚本随机抽取，一行一个

4、qid.txt，存放已经采集过的文章id，主要作用是：采集去重

5、keyword.txt，存放关键词，一行一个

6、拿到插件之后，先提取头条问答列表的cookie，多个浏览器的cookie存到cookie.txt

7、准备正式开始采集前，清空一次qid.txt即可，后面采集的数据会不断的写入到里面；

8、keyword.txt，粘贴自己的关键词进去，关键词记得备份，采集到数据的关键词会自动删除掉，保留没有采集到数据的关键词在里面；

9、重要建议：有多个行业采集，建议复制多个演示脚本文件夹，整套来用；

10、重要修改！！插件328行开始如下：

data_outpath = ‘E:/大家都在问脚本/百科_手机/data/’
key_path = ‘E:/大家都在问脚本/百科_手机/手机.txt’
qid_path = ‘E:/大家都在问脚本/百科_手机/qid.txt’
cookie_path = ‘E:/大家都在问脚本/百科_手机/cookie.txt’
#内容限制词，文章正文必须包含的关键词
bh_key = ‘手机’

data_outpath：代表采集数据输出目录
key_path：代表关键词文件调用
qid_path：代表文章qid文件调用
cookie_path：代表cookie文件调用
bh_key：代表文章正文必须包含的关键词

上面的全部改成自己的路径，按照上面的样式进行修改

8、今日头条大家都在问问答聚合插件6.0更新

1.增加随机cookie功能，提前准备好cookie，随机抽取，测试这样更稳定一些；

2.增加必须包含词，对内容做筛选

3.修复已知问题

资源下载：

下载地址： http://yemao.in/life?utm_source=sishubiji&utm_term=今日头条大家都在问问答文章采集聚合python脚本说明文档