Python数据分析入门(三)-白红宇

前言

Hello,大家好，今天又到了我们用数据说话的时候了，今天小编给大家带来的是从豆瓣5500部电视剧看中国40余年电视剧发展史，从而了解这背后的故事，好了，废话不多说，我们快快进入此次的正题吧。

数据采集

此次采集的数据来源是豆瓣电视剧版块，当然有的同学可能会问，为什么采集的是豆瓣网？那么小编就来告诉你，豆瓣在书评和影视评论这些方面在国内还是很有权威性，不同于其它平台评分水分较大，豆瓣的评分标准是比较严格的。所以如果大家以后在做书评和影评之类的分析的时候，可以选择去豆瓣网采集数据，不过豆瓣网的反爬机制也是很强，所以我们还是要采取好的爬虫策略，从而让我们的数据采集更加方便。此次采集的页面为

我们需要采集大陆、香港、台湾三个版块共5500部电视剧，首先第一步我们需要从当前页面获取每个电视剧的ID

即通过抓取下来的ID后来获取电视剧的详细信息。

通过ID访问电视剧详情页面从而获得剧名，年份，主演，评分以及评分人数等数据。其中我们将获取的主演列表中的演员前2位定位主演，后三位定位次主演，也就是说每部电视剧采集5位演员，以做为我们后面为演员参演电视剧评分的依据。

我们回到获取电视剧ID的页面，剧集列表的全部展示是通过最下面加载更多的按钮进行展开，不点击加载更多无法获取隐藏的剧集目录，如下图所示：

所以在这里我们需要用Selenium自动化模拟鼠标操作，点击页面从而获取更多的电视剧，还有最重要的一点是，细心的读者可能从前面可以发现，豆瓣电视剧的内容包含综艺、动画片、纪录片。如前面图片所看到的“舌尖上的中国”，所以我们在抓取下来数据后还需要对这些“脏数据”进行清洗。从而获得一部完整的电视剧表。数据采集思路讲解就到这里，接下来就进入到数据分析阶段。

数据分析

经过漫长的数据筛选后，我们终于得到了我们想要的电视剧列表了，首先我们来看一看豆瓣的整体打分与时间的关系。

不出所料，电视剧的评分随着年份的增长在逐步下滑，从2011年之后的中位数更是直接到了7分以下。造成这种情况的原因可能性包括了：1.豆瓣受众比较年轻，老的剧集大家只会关注经典的剧集，过去的非优质（lan）剧评分人数较少 2.现在的非优质剧集占比越来越高。

其次再来看看电视剧产量和时间的关系

很明显的可以看出电视剧的产量(2018年请忽略)是随着年份而快速的增长，其中上世纪80、90年代电视剧以香港产量居多，但是自2000年以后，港剧慢慢走向衰弱，大陆电视剧行业迅速崛起，这也说明我国的改革开放使得经济的快速增长从而改善了国民的生活质量，人们的娱乐方式也变得多样化，由之前的看报转而到看电视、上网一类的活动。

最后，我们再来看看电视剧的总体打分与时间的关系图

讨论完了电视剧整体的质量，我们来看看演员们的演技质量如何，此次我们选取的是代表作10部以上的演员，并且将主演权重设为1.0，次主演权重设为0.6。来筛选出高产且演技评分前30的演员

可以看出这与我们平常所了解的还是比较一致的，其中吴秀波，陈道明，蔡少芬、陈宝国，胡歌，张嘉译，张国立，张铁林等一些演员都是我们公认的演技派，其中大部分都是国家一级演员和优秀的话剧演员。

再来看看“反面教材”参演电视剧平均分排名后10名的演员

好吧！老戏骨李立群老师的评分较低小编还是感到比较意外的，潘长江老师在小品届可以说是荣誉满满，但在影视界好像没得到大部分观众的认可，榜单中的其它演员也都与我们平常了解的情况都差不多，所以在此小编也希望这些后面的年轻演员能够多拍些好剧，良心剧，从而咸鱼翻身。毕竟作为一个演员，最主要的还是演技。无论做什么事，我们还是应当少些浮躁，多些宁静。

最后，我们再来看看豆瓣上一些高评分的电视剧，此次选取的是评分TOP50的电视剧，看看是否与你心中的排名有所出入。

需要源码的读者可以后台留言，小编看到就会第一时间回复你。

对爬虫，数据分析，算法感兴趣的朋友们，可以加微信公众号 TWcoding，我们一起玩转Python。

If it works for you.Please,star.

自助者,天助之