基于网络爬虫技术的新闻数据分析设计与实现 python
1.爬取今日头条上19年1月到3月的“热门”栏目的新闻
2.将爬取的结果可视化,前端设计要求爬取结果(发布时间、发布者、所属类别、标题、链接、点赞数、转发数、评论数)展示在网页上。(注:“所属类别”即为中的“时政”)
3.数据分析一:对爬取结果进行文本分析,分别提取3个月中每个周的热门新闻关键词做成词云图。(注:每个周有每个周的词云图,共3*4=12个词云图;关键词从新闻标题中出现频率最高的部分提取)
4.数据分析二:通过所爬取的点赞数、评论数和转发数确定网友感兴趣的话题范围,话题范围即为新闻的“所属类别”。每周确定一个,共12个。