百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

猫眼电影Top100爬取数据(期末项目)

itomcoil 2025-07-03 15:51 2 浏览

同学A负责爬取数据存在Exel。详细如下:

1.导入会用到的库,先用win+r输入cmd,用pip工具下载库文件。导入库文件在pycharm的setting->project->Python Interpreter里面选择添加库。

2.定义scraping函数,用来爬取网页上的数据。headers为请求头,用来访问猫眼电影网站。board_urls里面的网站,用了format格式化的方法用来实现动态爬取网页,爬取第一页的所有电影,爬取第二页的所有电影,直到爬取完一百个电影的数据。

3.定义一个空列表用来存网页上所爬取到的数据,用etree.HTML来解析网页的数据存放在board_url_html里面。

4.数据处理,定义空列表来存放各个电影每个属性所对应的数据。其中star_org和relastime_org是用来存放还没有处理的数据,因为爬取到的数据中含有“主演:”

、“上映时间:”我用字符串的切片方法或者replace方法处理好数据后再存放进movie_star和releastime这两个列表中,此时数据只剩下了演员的名字和上映的时间。

用xpath找到爬取数据的位置,用extend一次性的追加写入到之前定义的空列表中,实现了数据的写入。在用一个data列表整合所有爬取到的数据,并将数据参数返回。

5.定义build_excel_file函数用来保存爬取到的数据,将刚才返回的data其中包含了所有电影的信息。用xlwt.Workbook建立一个book对象,book此时就是一个Excel文件。将它的标题设置为想要的名字入“封面链接”、“电影链接”..。将data里面的数据一行一行的写入到EXCEL文件里面,细节是内层循环是j来控制列,外层循环是i来控制行。用len(title)这种方式来写,可以方便后期扩充EXCEL表的列表名。假如我要爬取该电影的评论数,我可以直接在title的’评分’后面直接加入’评论数’,此时用len(title)会自动加一行,方便扩容。

6.主函数的流程,通过调用上述函数来实现功能。用print里面的文字可以判断程序执行到那一步了,方便进行调试。

爬取数据效果:

同学B负责数据分析和展示,详细如下:

1.导入会用到的库,先用win+r输入cmd,用pip工具下载库文件。导入库文件在pycharm的setting->project->Python Interpreter里面选择添加库。

2.条形图:用pandas库的pd.read_excel按照名字读取EXCEL里面的值到data里。data.sort_values,在data里的数据按照值来排序head(i),其中i来控制排序的个数。bar生成对象,将电影名称的值转换成列表的形式输出到条形图的上面。bar.render设置保存路径。print用来检查该代码段是否执行成功。

3.玫瑰图(饼图):data里的数据按照评分排序后存放在sctor_chart里,color_series设置颜色的系列,其中有十个值对应了排名的前十个电影。实例化Pie类pie1.add添加两个列表的值到玫瑰图里。代码中含有各配置的含义,radius代表半径,center代表圆心,title是该玫瑰图的标题。pie1.render设置保存路径。print用来检查该代码段是否执行成功。

4.词云:首先要用pip工具下载wordcloud库和numpy库,然后再pycharm里面导入库实现应用。同样的,将data.sort_values,在data里的数据按照值来排序head(i),其中i来控制排序的个数。将排序好的值存放在实例化对象w1中,设置宽度、高度、背景颜色、字体的路径。用.join链接排名前十的电影名称,中间用换行符间隔,将链接好的值存放在txt里面。w1.generate(txt),对象w1生成txt里面值的词云,w1.to_file设置保存路径。print用来检查该代码段是否执行成功。

效果如下:

相关推荐

字节三面:MySQL数据同步ES的4种方法!你能想到几种?

如何进行数据同步MySQL是一种流行的关系型数据库,而Elasticsearch是一个强大的搜索引擎和分析平台。将MySQL数据同步到Elasticsearch中可以帮助我们更方便地搜索和分析数据。在...

Java 连接 MySQL 数据库(java连接mysql课设)

一、环境准备1.1依赖管理(Maven)在项目的pom.xml中添加MySQL驱动依赖:<dependency><groupId>mysql</gro...

Spring Boot 连接 MySQL 数据库(spring boot配置数据库连接)

一、环境准备1.1依赖管理(Maven)<!--方案1:JdbcTemplate--><dependency><groupId>org.sprin...

java连接mysql数据库达成数据查询详细教程

前言:本篇文章适用于所有前后端开发者众所周知,只要是编程,那肯定是需要存储数据的,无论是c语言还是java,都离不开数据的读写,数据之间传输不止,这也就形成了现代互联网的一种相互存在关系!而读写存储的...

既然有MySQL了,为什么还要有MongoDB?

大家好,我是哪吒,最近项目在使用MongoDB作为图片和文档的存储数据库,为啥不直接存MySQL里,还要搭个MongoDB集群,麻不麻烦?让我们一起,一探究竟,了解一下MongoDB的特点和基本用法,...

用 JSP 连接 MySQL 登入注册项目实践(JSP + HTML + CSS + MySQL)

目录一、写在前面二、效果图三、实现思路四、实现代码1、login总界面2、registercheck总代码3、logoutcheck总代码4、amendcheck总代码相关文章一、写在前面哈喽~大家好...

MySQL关联查询时,为什么建议小表驱动大表?这样做有什么好处

在SQL数据库中,小表驱动大表是一种常见的优化策略。这种策略在涉及多表关联查询的情况下尤其有效。这是因为数据库查询引擎会尽可能少的读取和处理数据,这样能极大地提高查询性能。"小表驱动大表&...

mysql8驱动兼容规则(mysql8.0驱动)

JDBC版本:Connector/J8.0支持JDBC4.2规范.如果Connector/J8.0依赖于更高版本的jdbclib,对于调用只有更高版本特定的方法会抛出SQLFea...

mysql数据表如何导入MSSQL中(mysql怎样导入数据)

本案例演示所用系统是windowsserver2012.其它版本windows操作系统类似。1,首先需要下载mysqlodbc安装包。http://dev.mysql.com/downloa...

MySQL 驱动中虚引用 GC 耗时优化与源码分析

本文要点:一种优雅解决MySQL驱动中虚引用导致GC耗时较长问题的解决方法虚引用的作用与使用场景MySQL驱动源码中的虚引用分析背景在之前文章中写过MySQLJDBC驱动中的虚引用导致...

ExcelVBA 连接 MySQL 数据库(vba 连接sqlserver)

上期分享了ExcelVBA连接sqlite3数据库,今天给大家分享ExcelVBA连接另一个非常流行的MySQL数据库。一、环境win10Microsoftoffice2010(...

QT 5.12.11 编译MySQL 8 驱动教程- 1.01版

安装编译环境:qt5.12.11mysql8.0.28修改mysql.pro工程文件,编译生成动态库mysql.pro文件位置:D:\Alantop_Dir\alantop_sde\Qt\Qt5....

「Qt入门第22篇」 数据库(二)编译MySQL数据库驱动

导语在上一节的末尾我们已经看到,现在可用的数据库驱动只有两类3种,那么怎样使用其他的数据库呢?在Qt中,我们需要自己编译其他数据库驱动的源码,然后当做插件来使用。下面就以现在比较流行的MySQL数据库...

(干货)一级注册计量师第五版——第四章第三节(三)

计量标准的建立、考核及使用(三)PS:内容都是经过个人学习而做的笔记。如有错误的地方,恳请帮忙指正!计量标准考核中有关技术问题1检定或校准结果的重复性重复性是指在一组重复性测量条件下的测量精密度。检定...

声学测量基础知识分享(声学测量pdf)

一、声学测量的分类和难点1.声学测量的分类声学测量按目的可分为:声学特性研究(声学特性研究、媒质特性研究、声波发射与接收的研究、测量方法与手段的研究、声学设备的研究),声学性能评价和改善(声学特性评价...