下面是小编为大家整理的python金融大数据挖掘与分析实验报告册(A99),供大家参考。
广 广 州 商 学 院
实验报告册 册
信息技术与工程 学院 软工 专业
年级
班
2019
- 2020
学年第
学期
课程名称:
数据分析与处理实验
姓
名:
学
号:
使用说明 各学院根据各门实验课需要双面打印实验报告,实验报告由学生按规定要求,认真独立填写。实验指导教师应重视指导学生撰写实验报告,对学生的实验报告应认真评阅批改,并按成绩评定的有关规定评出成绩。
目 目
录 实验一 ………………………………………………………………... 1 实验二 ………………………………………………………………... 5 实验三 …………………………………………………………………12
1 广 广 州 商 学 院 实验报告(第 1 次)
实验名称
常用数据结构及数据分析相关库
实验时间 2021.3.22
同组同学
小组分工
一、实验目的
1.掌握数据排序方法 2.掌握数据分组聚合方法 3.理解并比较 apply、agg、transform 方法的适用情况 4.能够学以致用,用所学方法解决实际问题
二、实验仪器设备或材料
Jupyter note book
三、实验原理
1.介绍数据排序方法过程 2.学习不同的聚合函数,并进行比较 3.在案例中运用聚合函数解决实际问题
四、 实验内容与步骤
请根据上课所学方法完成所给案例的以下问题:
2
问题一:将朝阳医院数据中的购药时间进行字符串拆分,把日期和星期拆出来,并将日期转换为对应的日期格式。(拆分后的结果输出前五行展示)(展示日期的数据类型是否为日期格式)
问题二:在第一问基础上,计算购药时间距离 2021.3.9(今天)的天数并输出展示。
问题三:将销售数量,应收金额和实收金额全部转换为数值型变量(整型或浮点型)。
注意:应收金额和实收金额里特殊字符的处理
3
五、实验结果与分析
Q1
Q2
4 Q Q3 3
六、结论与体会
取得了数据,并不能马上就开始进行数据分析。我们得到的数据通常并不是完全符合我们分析要求的,而且可能存在缺失值、异常值,这些数据都会使我们的分析结果产生偏差。所以在分析之前,需要进行子集选择、缺失数据补充、异常值处理、数据类型转换等多个步骤。这些都属于数据清理的范畴。
七、教师评语
优秀,该生能够完成列表重命名、数据类型转换和异常值处理,希望在数据清洗方面继续进步提高。
5
广 广 州 商 学 院 实验报告(第 2 次)
实验名称
数据预处理
实验时间 2021.3.29
同组同学
小组分工
一、实验目的
1. 能够判断什么情况下数据属于重复值、并能够对不同情况下重复数据进行相应处理 能够使用替换法和插值法对缺失值进行处理
2. 明确什么是异常值
3. 掌握箱线图法和标准差法进行数据异常值检测 4. 能够利用盖帽法处理检测出的异常值 5. 能够学以致用,在实际案例中进行异常值的检测和处理
二、实验仪器设备或材料
Jupyter notebook
6 三、实验原理
1.理解何为异常值,以及异常值对数据分析的影响 2.学习异常值的判断和检查方法(标准差法、箱线图法)
3.学习异常值处理方法:盖帽法 4.利用所学方法检测并处理“太阳黑子数”数据中的异常值
四、实验内容与步骤
请根据上课所学方法完成所给案例的以下问题:
问题 1:在 Titanic 数据中,统计数据中每个字段的缺失情况,对 Age 采取中位数填补策略, Cabin 采取众数填补策略。
问题 2:根据课上所学知识,查看 Age 是否有异常值情况,若有,请用盖帽法进行替换。
问题 3:对 Age 采取离散化操作,分别用等宽分箱和等频分箱,将其离散成 5 段。
7
五、实验结果与分析
Q1
8
Q2
9
10 Q3
11 六、结论与体会
数据中的缺失值会影响挖掘的正常进行,造成挖掘结果不正确。对较大比例的缺失值可以进行忽略处理,少量的缺失值可以采用最大、最小、均值、中位数、自定义表达式等方式进行填充。采用盖帽法处理异常值,并通过等宽分箱和等频分箱的方法把数据展现出来。
七、教师评语
优秀,该生能够完成数据缺失值、异常值的处理,并通过等宽分箱和等频分箱的方法把数据展现出来,希望在数据预处理方面继续进步提高。
12
广 广 州 商 学 院 实验报告(第 3 次)
实验名称
数据可视化
实验时间
2021.4.26
同组同学
小组分工
一、实验目的
1.了解 Matplotlib 库 2.掌握简单的饼图、条形图(垂直、水平)、直方图、散点图的绘制方法,并能够根据实际情况灵活调整参数 3.掌握图形基本设置,能够设置一些基本图形的图例、图像、网格线、水平参考线和参考区域等 4.有以不变应万变的思维和能力,以固有的方法,通过改动方法里的参数来解决不同情况的绘图问题
二、实验仪器设备或材料
Jupyter notebook
三、实验原理
1.介绍 Matplotlib 库,引导学生认识到要学习该库里的若干关键绘图函数,使数据分析结果以可视化的方式快速、直观地展示出来
13 2.介绍绘制饼图、条形图(垂直、水平)、直方图、散点图的相关函数方法,并展示不同参数对绘图的作用 3.介绍图形的基本设置,展示图例、图像、网格线、水平参考线和参考区域等的设置方法,使图形结果展示更具有说服力或更美观
四、实验内容与步骤
请根据上课所学方法完成所给案例的以下问题:
问题 1:
在 Titanic 数据中,字段 Pclass 代表仓位等级,请用柱状图绘制出仓位等级的分布图。
问题 2:
在 Titanic 数据中, 请绘制出年龄的箱线图,并且展示异常值,均值和中位数等情况。
问题 3:
在 air_data 数据中,FLIGHT_COUNT 和 SEG_KM_SUM 分别代表飞行次数和总飞行里程。请用散点图绘制出飞行次数与总飞行公里数的关系。并且添加参考线,展示出飞行次数的均值和总飞行里程的均值。
14 五、实验结果与分析
Q1
Q2
15 Q3
六、结论与体会
Matplotlib 是 Python 的绘图库,其中的 pyplot 包封装了很多画图的函数。每个 Matplotlib.pyplot 中的函数会对当前的图像进行一些修改,例如:产生新的图像,在图像中产生新的绘图区域,在绘图区域中画线,给绘图加上标记,等等…… Matplotlib.pyplot 会自动记住当前的图像和绘图区域,因此这些函数会直接作用在当前的图像上。
七、 教师评语
优秀,该生能够完成绘制各种类型的分布图、线性图和散点图等,并清晰展示了问题中想要的数据,从图中让人们一眼就能看出想要表达的数据,希望在数据可视化方面继续进步提高。
【python金融大数据挖掘与分析实验报告册(A99)】相关文章: