Python爬取爱奇艺腾讯视频 250,000 条数据分析为什么李诞不值得了
ztj100 2025-07-28 01:27 4 浏览 0 评论
在《Python 爬取爱奇艺 52432 条数据分析谁才是《奇葩说》的焦点人物?》这篇文章中,我们从爱奇艺爬取了 5 万多条评论数据,并对一些关键数据进行了分析,由此总结出了一些明面上看不到的数据,并将其直观地展现了出来,数据分析的妙处即在于此。
最终,我们从《奇葩说》的词云图中得出了李诞是为焦点人物的结论。但有小伙伴留言说道:“李诞是焦点人物,但那都是在骂他的”,看到这个笔者突然意识到,说着“人间不值得”的李诞《吐槽大会》开始声名鹊起,一方面是入了娱乐圈已成明星,却也饱受非议,作为《吐槽大会》第三季和《奇葩说》第五季的关键人物,我们是不是可以进行情感分析,从数万条的用户评论里找出广大观众眼中的李诞,以及主打辩论的奇葩说和以“吐槽文化”为切入点的《吐槽大会》的异同之处?
如何进行情感分析?
文本情感分析,又称为意见挖掘、倾向性分析等。简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。
奇葩说的评论信息表达了人们的各种情感色彩和情感倾向性,通过对他们进行分析来了解大众舆论的看法。
在这里,我们使用“SnowNLP”进行分词和情感分析。
奇葩说的情感分析数据
注:本文中使用的奇葩说数据是上篇文章爬取的数据,数据文件地址:
https://github.com/Pinned/ICanIBBData/blob/master/deal_data.db
先来看一下《奇葩说》的整体情感分析得分数据:
奇葩说情感分析
从上图可以看出来,正向情感的评论数要多于负向评论的数据,可见观众朋友还是喜欢奇葩说的。
好多人都说李诞是在被人骂,所以笔者在此对评论中包含李诞的数据进行了过滤(作者注:这样来看不一定准确,但也能从一个角度来看大体的数据情况),做了一下情感分析,先看图:
有关李诞评论的情感分析
从这张图可以看出来,得分 0.5 以下的评论要比 0.5 分的多得多。其实单看李诞的这张图,对于负向情感评论是多是少没有直观的感受。于是,笔者又把剩下出现频率比较高的薛教授与詹青云的情感评分画了两张图,对比感受了一下:
薛教授评论情感分析
詹青云评论情感分析
通过这三张图的对比,感受到不一样的情感了吗?薛教授和詹青云的正向情感要远高于负向情感,而李诞的正向和负向两类情感则处于趋同状态。
详细代码为:
def emotionParser(title, *names):
conn = conn = sqlite3.connect("deal_data.db")
conn.text_factory = str
cursor = conn.cursor()
likeStr = ""
for i in range(0, len(names)):
likeStr = likeStr + " or content like \"%" + names[i] + "%\" "
if likeStr == "":
sql = "select content from realData where content != \"\" "
else:
sql = "select content from realData where content != \"\" " + likeStr
print sql
cursor.execute(sql)
values = cursor.fetchall()
sentimentslist = []
for item in values:
content = item[0]
senValue = SnowNLP(content.decode("utf-8")).sentiments
sentimentslist.append(senValue)
print content
plt.hist(sentimentslist, bins=np.arange(0, 1, 0.01), facecolor="#4F8CD6")
plt.xlabel("Sentiments Probability")
plt.ylabel("Quantity")
plt.title("Analysis of Sentiments for " + title)
plt.show()
cursor.close()
conn.close()
观众朋友对李诞的负面情感有些高,那对他的评论具体究竟呈现着什么样的态势?接下来我们按如下步骤进行具体分析:
- 将评论数据中包含李诞、李蛋、蛋蛋的数据单独查出来;
- 使用 Jieba 对评论数据分词;
- 使用 WordCloud 生成词云分析数据生成词云图见下图,有关代码请参考《Python 爬取爱奇艺 52432 条数据分析谁才是《奇葩说》的焦点人物?》 。
《奇葩说》评论李诞的数据词云
从上面的关键词中可以看出,观众对于李诞的情感词云偏于负面,譬如“讨厌”、“教养”、“礼貌”、“打断”等。
吐槽大会的情感分析
- 爬取腾讯评论数据
用 Chrome 打开腾讯视频,打开 《吐槽大会》视频播放,然后打开 Chrome 查看源代码模式,在网络请求里面搜索并过滤 comment。通过过滤拿到的请求地址中,你能拿到一个 videocommentid 的请求,里面有该期评论的 id。
本次笔者爬取了《吐槽大会》的三季数据,每一期的评论数据的 id 都是手动去获取的。
- 数据分析
从所获取的 18w+ 的评论数据中,包含李诞的数据条数有多少呢?直接使用 SQL 在数据库中查找:
select count(*) from dealInfoDatabase where content like "%李诞%" or content like "%李蛋%" or content like "%蛋蛋%" or content like "%诞总%";
李诞评论数据条数
没有想到的是,在这 18w 的数据中,居然只有 8000 多条数据。毕竟同样是每一期人员都非常多的综艺节目,在《奇葩说》5w 多条数据中就有 1w 多条与李诞相关,但结果到李诞成名的《吐槽大会》上却远远不足,值得我们思考。
回归正题,我们再来看一下,在每一期的评论数量:
在第一季第十期,也就是收官之作里关注度特别大,应该是有一次不错的表现。
- 情感分析
首先来看一下,全部评论数据的整体情感分析,可以看到,整体的正向情感要多于负向情感。
李诞所有数据的情感分析
再来看看所有评论中,评论词云是怎么分布的。如下图,可以看出,很多人都非常喜欢他。
吐槽大会-李诞词云
再来看一下每一季的数据, 第一季的数据可以看出,正向情感要多于负向情感,更多的观众是喜欢他的。
李诞第一季数据
笔者也把第二季的数据跑出来,可以看出,正向情感与负向情感趋于持平,是不是表示,讨厌他的观众数量在增多呢?
李诞第二季数据
最后,再来看一下,第三期的评论数据,从图中可以看出,负向情感要多于正向情感的数据。
李诞第三季数据
从上面的情感数据可以看出,《吐槽大会》从第一季到现在的第三季,不喜欢李诞的观众数量变得越来越多。
结语
不过还是可以明显对比出,在《吐槽大会》中,李诞要表现得更让观众喜欢,而在《奇葩说》中,更多的观众是在骂他。虽然是一种不同的表现形式,至少说,他依旧是一个焦点人物,不论是好是坏,总归是留在了用户心中 —— 人间不值得。
相关推荐
- Python 操作excel的坑__真实的行和列
-
大佬给的建议__如何快速处理excelopenpyxl库操作excel的时候,单个表的数据量大一些处理速度还能接受,如果涉及多个表甚至多个excel文件的时候速度会很慢,还是建议用pandas来处理,...
- Python os.path模块使用指南:轻松处理文件路径
-
前言在Python编程中,文件和目录的操作是非常重要的一部分。为了方便用户进行文件和目录的操作,Python标准库提供了os模块。其中,os.path子模块提供了一些处理文件路径的函数和方法。本文主要...
- Python常用内置模块介绍——文件与系统操作详解
-
Python提供了多个强大的内置模块用于文件和系统操作,下面我将详细介绍最常用的几个模块及其核心功能。1.os模块-操作系统交互...
- Python Flask 建站框架实操教程(flask框架网页)
-
下面我将带您从零开始构建一个完整的Flask网站,包含用户认证、数据库操作和前端模板等核心功能。##第一部分:基础项目搭建###1.创建项目环境```bash...
- 为你的python程序上锁:软件序列号生成器
-
序列号很多同学可能开发了非常多的程序了,并且进行了...
- PO设计模式全攻略,在 UI 自动化中的实践总结(以企业微信为例)
-
一、什么是PO设计模式?PO(PageObject)设计模式将某个页面的所有元素对象定位和对元素对象的操作封装成一个Page类,即一个py文件,并以页面为单位来写测试用例,实现页面对象和测试用例的...
- 这种小工具居然也能在某鱼卖钱?我用Python一天能写...
-
前两天在某鱼闲逛,本来想找个二手机械键盘,结果刷着刷着突然看到有人在卖——Word批量转PDF小工具...
- python打包成exe,程序有图标,但是任务栏和窗口都没有显示图标
-
代码中指定图标信息#设置应用ID,确保任务栏图标正确显示ifsys.platform=="win32":importctypesapp_id=...
- 使用Python构建电影推荐系统(用python做推荐系统)
-
在日常数据挖掘工作中,除了会涉及到使用Python处理分类或预测任务,有时候还会涉及推荐系统相关任务。...
- python爬取并分析淘宝商品信息(python爬取淘宝商品数据)
-
python爬取并分析淘宝商品信息背景介绍一、模拟登陆二、爬取商品信息1.定义相关参数2.分析并定义正则3.数据爬取三、简单数据分析1.导入库2.中文显示3.读取数据4.分析价格分布5.分析销售...
- OpenCV入门学习基础教程(从小白变大神)
-
Opencv是用于快速处理图像处理、计算机视觉问题的工具,支持多种语言进行开发如c++、python、java等,下面这篇文章主要给大家介绍了关于openCV入门学习基础教程的相关资料,需要的朋友可以...
- python图像处理-一行代码实现灰度图抠图
-
抠图是ps的最基本技能,利用python可以实现用一行代码实现灰度图抠图。基础算法是...
- 从头开始学python:如何用Matplotlib绘图表
-
Matplotlib是一个用于绘制图表的库。如果你有用过python处理数据,那Matplotlib可以更直观的帮你把数据展示出来。直接上代码看例子:importmatplotlib.pyplot...
- Python爬取爱奇艺腾讯视频 250,000 条数据分析为什么李诞不值得了
-
在《Python爬取爱奇艺52432条数据分析谁才是《奇葩说》的焦点人物?》这篇文章中,我们从爱奇艺爬取了5万多条评论数据,并对一些关键数据进行了分析,由此总结出了一些明面上看不到的数据,并...
- Python Matplotlib 库使用基本指南
-
简介Matplotlib是一个广泛使用的Python数据可视化库,它可以创建各种类型的图表、图形和可视化效果。无论是简单的折线图还是复杂的热力图,Matplotlib提供了丰富的功能来满足我们...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- Python 操作excel的坑__真实的行和列
- Python os.path模块使用指南:轻松处理文件路径
- Python常用内置模块介绍——文件与系统操作详解
- Python Flask 建站框架实操教程(flask框架网页)
- 为你的python程序上锁:软件序列号生成器
- PO设计模式全攻略,在 UI 自动化中的实践总结(以企业微信为例)
- 这种小工具居然也能在某鱼卖钱?我用Python一天能写...
- python打包成exe,程序有图标,但是任务栏和窗口都没有显示图标
- 使用Python构建电影推荐系统(用python做推荐系统)
- python爬取并分析淘宝商品信息(python爬取淘宝商品数据)
- 标签列表
-
- idea eval reset (50)
- vue dispatch (70)
- update canceled (42)
- order by asc (53)
- spring gateway (67)
- 简单代码编程 贪吃蛇 (40)
- transforms.resize (33)
- redisson trylock (35)
- 卸载node (35)
- np.reshape (33)
- torch.arange (34)
- npm 源 (35)
- vue3 deep (35)
- win10 ssh (35)
- vue foreach (34)
- idea设置编码为utf8 (35)
- vue 数组添加元素 (34)
- std find (34)
- tablefield注解用途 (35)
- python str转json (34)
- java websocket客户端 (34)
- tensor.view (34)
- java jackson (34)
- vmware17pro最新密钥 (34)
- mysql单表最大数据量 (35)