今日头条大家都在问问答文章采集聚合python脚本说明文档

最近开发出来一款python的脚本,头条问答(大家都在问)文章聚合python脚本(徽❤:TXB2196),今天来对这个脚本来做一下说明:

1、采集源:今日头条大家都在问

2、脚本类型:python脚本

3、采集逻辑:

首先,也是根据搜索词进行采集的,搜词之后,提取头条问答列表的网址,默认请求20个列表页;

其次,提取到列表页的文章数据之后,对文章进行聚合,组合数据至少2篇,文章的长度至少1200字,在组合时候,如果不足2篇文章不足1200字,会把后面的文章组合进来。

最后,标题采用前两篇文章的标题进行组合,内容的小标题采用 h3标签+正文内容

4、保存格式,一篇文章一个记事本

5、其他:这个脚本是单纯的python脚本,因为提取逻辑的问题,没法做成火车头的插件,如果想要发布到自己的网站,需要先把数据导入到火车头,然后单独进行发布。

6、增加有文章id 去重功能,可以保证文章不重复聚合。

头条问答的数据不好采集,之前的时候,有悟空问答的入口,通过悟空问答可以采集到很多数据,后面头条直接取消了悟空问答,改成了悟空搜索,然后所有数据都整合到了大家都在问中,其实这两个页面目前来说还是有差异的,之前悟空问答的页面,和大家都在问的页面有些差异,但是通过观察发现,后面大家都在问的数据占比越来越高,应该是把之前的悟空问答的数据都转移到大家都在问这个里面来了。

7、插件说明

插件说明:

1、python库安装requests  

安装指令 pip install requests -i http://pypi.douban.com/simple –trusted-host pypi.douban.com 

安装方法:win+r—cmd—回车—复制上面指令—粘贴指令—回车—安装完成

2、data文件夹,存放采集数据的地方

3、cookie.txt,存放多个cookie,脚本随机抽取,一行一个

4、qid.txt,存放已经采集过的文章id,主要作用是:采集去重

5、keyword.txt,存放关键词,一行一个

6、拿到插件之后,先提取头条问答列表的cookie,多个浏览器的cookie存到cookie.txt

7、准备正式开始采集前,清空一次qid.txt即可,后面采集的数据会不断的写入到里面;

8、keyword.txt,粘贴自己的关键词进去,关键词记得备份,采集到数据的关键词会自动删除掉,保留没有采集到数据的关键词在里面;

9、重要建议:有多个行业采集,建议复制多个演示脚本文件夹,整套来用;

10、重要修改!!插件328行开始如下:

data_outpath = ‘E:/大家都在问脚本/百科_手机/data/’
key_path = ‘E:/大家都在问脚本/百科_手机/手机.txt’
qid_path = ‘E:/大家都在问脚本/百科_手机/qid.txt’
cookie_path = ‘E:/大家都在问脚本/百科_手机/cookie.txt’
 #内容限制词,文章正文必须包含的关键词
bh_key = ‘手机’

data_outpath:代表采集数据输出目录
key_path:代表关键词文件调用
qid_path:代表文章qid文件调用
cookie_path:代表cookie文件调用
bh_key:代表文章正文必须包含的关键词

上面的全部改成自己的路径,按照上面的样式进行修改

8、今日头条大家都在问问答聚合插件6.0更新

1.增加随机cookie功能,提前准备好cookie,随机抽取,测试这样更稳定一些;

2.增加必须包含词,对内容做筛选

3.修复已知问题

资源下载: