实践学习心得(三)
本周继续学习了有关Python的相关知识,并着重进行了具体案例实践,下面是5个项目组本周的学习心得。
项目1:我国新冠病毒感染人数预测
项目1 1组 组成人员:刘莎、周雪如、韩子文 执笔人:韩子文
在上周的学习基础上,本周的学习难度再次加深。本周学习内容主要是各种模型评估与选择、练习探索各种数据、机器学习绪论、回归分析与聚类分析。需要进行各种库或者模块与函数相结合。
机器学习绪论中基本术语与假设空间中属性、对象、样本、实例、泛化能力、独立同分布对理解有一定要求。模型评估与选择通过真实值与预测值的误差学习普遍规律。学习了留出法、交叉验证法、自助法。通过错误率与精度,查准率与查全率,F1系数进行性能度量。回归分析是线性回归和目标函数的结合进而建立线性模型,再根据数据集划分,然后进行算法实现。聚类分析是通过定量变量和定性变量的相似系数来进行相似性度量,K-Means,K-Medoids与内外部指标。这周学习的内容较多也较难理解,需要在课后反复观看视频细细理解品味。结果是一步一步慢慢得到的,而不是一蹴而就。下一周我们会更加积极学习。
项目1 2组 组成人员:焦方亮、王佳宁 执笔人:王佳宁
2.2日主要学习了搭建Python环境,学习了iris数据处理的修改列名称、缺失值处理、重置索引等内容,以PythonConsole方式执行代码,探索了chipotle数据的数据读取与介绍、分组聚合、数据类型转化、求客单价内容,并探索了Apple公司的股权数据,找到了最后一个交易日,学习了日期探索可视化内容。
2.4日学习了像假设、测试等基本术语,学习了Python的假设空间以及归纳偏好,明白了归纳与演绎的区别以及经验误差与过拟合的定义,了解了一些评估方法,知道了用测试集的样本误差代替泛化误差。还了解了性能度量与F1系数的相关知识,明白了偏差与方差的概念,学习了线性回归的基本形式与逻辑回归。此外,还用Python实现了性能度量、线性回归模型以及研究生入学录取预测。
2.6日对聚类分析进行了一定的了解,学习了相似性度量以及聚类结果的性能度量等相关知识,调用了Sklean实现聚类分析,知道了一些常用聚类算法,着重学习了K-Means聚类分析算法,并用其对莺尾花进行分类。还学习了市财政收入分析及预测的相关知识,分析了其相关背景及数据基本情况,了解了相关性分析并 对person相关系数进行了解读。此外,还了解了Lasso回归方法,实现了其关键特征的选取,进行了相应解读;学习了GM11特征值与猜测及数据整理,了解了数据标准化,结果可视化等内容。
这一周学习了很多内容,进行了多次实践学习,个人感觉课程难度相对较大,以后要继续努力,勤加练习,提高效率。
项目2:豆瓣电影大数据分析及可视化
哈哈哈组 组成人员:张卓雅、马若然 执笔人:张卓雅
这一周在学习python的基础上,进行了python的实训。再次讲解了怎么搭建python环境,以及如何去增删数据,如何去查看数据,索引数据。
讲解了python机器学习实践(假设空间与归纳偏好),对于假设空间,视频讲解了归纳与演绎,老师用版本空间让我们更加的了解它。
对于模型评估与选择,讲解了经验误差与过拟合,评估方法有留出法,交叉验证法,自助法。
回归任务的评价标准是:均方误差

解释了错误率与精度的定义,以及错误率的公式:

以及查准率与查全率



接着讲解了逻辑回归的定义以及相关的形式与联系函数。
第八章进入到聚类分析的内容,讲解了它的定义,以及它的局类方法:

第二节讲解了相似性度量,相似度衡量的标准是距离。其中也讲解了变量分为定量变量以及定性变量
继续学习聚类结果性能度量,讲解了内部指标与外部指标


对于这一周的视频学习,这周需要学习的内容更加的繁杂,需要用更多的时间去消化以及理解。
项目2 2组 组成人员:胡博毓、王炳龙 执笔人:胡博毓、王炳龙
本周通过视频学习了有关机器学习的知识,老师首先解释了机器学习的概念,讲授了有关机器学习的基本术语,让我们对机器学习有了一个大致的了解。机器学习,就是研究如何通过计算的手段,利用历史数据来改善系统自身的性能,从数据中产生模型的算法,被称为“学习算法”。之后老师的讲解主要围绕机器学习的评估方法、性能度量、回归分析和聚类分析展开,讲解过程中加入了很多具体实例,方便大家熟悉和理解。一开始学习概念的时候感觉相对轻松,但随着后来知识的逐渐加深,也开始感到有些难以理解。具体表现在回归分析、相似性度量和K-Means算法中,初次接触时真的感到发懵。毕竟这是一个全新的层面,有许多全新的名词、概念和公式,还有相关的数学方面的知识,都需要后期不断复习和实践才能慢慢掌握。
项目3:网易云歌曲评论爬取及分析
项目3 1组 组成人员:殷潇潇、马凤领 执笔人:殷潇潇
本周先进行了一次Python实践训练,通过三个具体的例子来加深印象,进一步熟悉Python的具体使用,通过三个实例解决了之前不太懂的地方,比如和缺失值相关的操作以及如何进行具体的计算,这也让我们明白Python要多实践,通过实践熟悉更多操作。
本周最主要的部分是机器学习,首先了解的具体的专业术语、假设空间与归纳偏好,对机器学习有了大概的认知。然后从经验误差与过拟合、评估方法、性能度量、偏差与方差四个方面了解了模型评估与选择;紧接着了解了回归分析与聚类分析。最后通过财政收入与预测了解了相关性分析、特征的选取、构建灰色预测和支持向量回归预测模型、模型的评价等内容。
在模型评估与选择这一节中学习了真实值与预测值、训练集与测试集等相关概念,了解到模型并不是越拟合越好,可以通过留出法、交叉验证和自助法对模型进行评估,通过错误率、精度、查重率、查准率、F1系数等对性能进行度量,构造拟合度适合的模型。
回归分析主要学习了线性回归和逻辑回归,同时了解了数据及的相关知识。聚类分析主要学习了基本概念、K-Means、K-Medoids和层次聚类,并通过具体的实例了解聚类分析算法的相关步骤。
接下来的时间要仔细复盘学过的知识,掌握重点的知识,重复实践相关实例,对Python有更加深入的了解。
项目3 2组 组成人员:马晨曦、于新荷 执笔人:马晨曦
这周我们主要完成了Python数据分析实训和python机器学习实践的学习。
Python数据分析实训
1.复习了搭建python环境的内容,巩固了对python开发环境的理解。
2.通过Iris 鸢尾花数据、Chipotle快餐数据、Apple公司股价数据三个实例,以任务驱动的方式,了解更多函数的用法。
python机器学习实践
1.通过数据之间的比较以及鸢尾花的例子,初步了解机器学习;了解了一些基本术语,包括:属性、数据集、属性空间、测试、训练集、分类、回归、有无监督学习等。利用归纳的方法知道了假设空间,最终归纳偏好。
2.通过2004年12月26日印尼海啸与1999年“弗洛伊德” 飓风两个例子,知道了真正率和假正率,进一步学习了查准率与查全率的计算方法。在第二模块,主要是学习模型评估与选择以及线性模型,最后通过波士顿房价的例子,用python的方式进行实现
3.在第三模块,学习了关于聚类分析的知识,这一部分比较难,主要难点在算法的应用以及理解。

在本周的学习过程中,难度逐渐增大,经常会出现跟不上上课老师讲的情况。同时,在实践过程中,遇到了一系列难题,比如:无法实现jupyter notebook中添加代码自动补全的功能,删除anaconda后重新安装没有jupyter notebook,Anaconda安装菜单只有Anaconda Prompt的一个解决方式等情况。通过网络调查询问,逐渐解决了这些问题。同时,各种不同函数的存在又给学习增加了难度。考虑到这是年前python的最后一次学习,在接下来过年休息的过程中,一方面要复习年前已经掌握的知识,逐渐认识了解相关函数,学会使用,另一方面,要将学习的内容联系到课题已有的代码中,通过实践过程增加理解。
项目4:基于mooc平台的课程热度的分类预测
项目4 1组 组成人员:张甜甜、王玉金 执笔人:张甜甜、王玉金
这一周主要学习了机器学习还有几个实践案例。
机器学习包括:机器学习绪论、模型评估与选择、回归分析、聚类分析。
通过学习,我认为,Python在机器学习中非常重要。基本的机器学习算法在Python提供的各种包中都可以调用,学习机器学习的理论基础,并且自己用编程实现,有利于对算法的理解,还要学会使用机器学习包,学习的总体目的便是考虑运用什么样的模型对数学进行学习,使得到的模型能够更好的对数据进行预测,提高学习效力方法,有很多模型。主要有以下几点:第一、得到一个有限的训练数据集合;第二、确定包含所有可能的模型的假设空间,继续行模型的集合;第三、确定模型选择的准则,学习的策略;第四、实现求解最优模型的算法及学习的算法;第五、通过学习方法,选择最由模型;第六、利用学习的模型对数据进行分析总结。在进行案例分析时,发现有很多没有掌握的知识点,这些知识是要把之前学过的么总结起来,然后再用,比如对一个案例进行好几步的操作,需要做很多的事情,要一点一点的去学,去编写这个程序,要充分的了解这个案例,一定要亲自动手写代码,在写代码时是刻意的使用这些新特性,然后积累经验,不要觉得学某些库有没有用。如果不去了解这些没用的东西,就无法深入学习Python高级知识。经过几个星期的学习,对Python这门语言有了较多的理解,自己也会初步的写一些代码,但自己仍有很多需要学习的内容,还有许多困难等着去解决,希望自己接下来学习到的东西会更多,能力逐渐提高。
Python是一门面向对象的解释性语言(脚本语言),这一类语言的特点就是不用编译,程序在运行的过程中,由对应的解释器向CPU进行翻译,个人理解就是一边编译一边执行。而JAVA这一类语言是需要预先编译的。没有编译最大的痛苦就是无法进行断点调试,唯一的办法就是在有疑问的地方打印各个变量的值来进行调试。这一类语言也没用类型,也就是说一个变量即可能是int型,但是也可能是String型,而且可以随时变化。
Python对于代码格式要求也相当严格,通过对于缩进的距离来判断代码是否处于同一个代码块。这样做的好处在于代码编写看上去很统一。
媛来是李呀组 组成人员:李典、曲媛媛 执笔人:曲媛媛
本周学习,更加强调了实践的重要性。
1.机器学习绪论,是一项致力于如何通过计算的手段,利用经验历史数据来改善系统自身的性能,并产生的“学习算法”。我们需要了解基本术语,创建假设空间,归纳偏好。
2.模型评估与选择需要经验误差与过拟合,学习基本评估方法并对性能进行度量。
3.回归分析,主要是线性回归模型,形式简单,易于建模,蕴含机器学习的基本思想,是其他非线性模型的基地,权重体现出各属性重要性。
4.聚类分析即为“分类”和“聚类”重点在于“聚类”,学习基本聚类的算法。
学习python的脚步更加快,我们的动手能力也在不断提升,在每周三次的学习中,我们都能安下心来,进行复杂的python学习,既是对我们知识储备的提升,又是对我们动手动脑能力的提高。
项目5:基于lstm的雾霾分析
超级无敌霹雳雾霾编程组 组成人员:辛璐奇、葛佳音 执笔人:辛璐奇
python数据分析——pandas之DataFrame补充
1.分组聚合
(1)groupby方法拆分数据
I.属性:

II.应用:
df.groupby(by = '待拆分字段/索引',axis = 0,level = None)

III.常用描述性统计方法

举例:

IV.by参数的特别说明:
1.输入数据为函数,根据索引进行拆分。
2.数据为字典或series,根据字典或series的值拆分。
3.数据为Numpy数组,根据数据的元素拆分。
4.数据为字符串或字符串列表,根据字符串字段拆分
V.注意:分组后的数据不能直接查看,输出的是存储数据的内存地址
(2)agg、aggregate方式聚合数据
I.说明:可以求出数据的总和和均值等,可适用于python内置函数、自定义函数以及DataFrame
II.公式:
DataFrame.agg(func, axis=0, *args, **kwargs) (aggregate类似)
III.属性

IV.用法

V.注意:在自定义函数中使用NumPy库中的函数时,若计算时是单个序列则会无法得出想要的结果,如果是多列数据同时计算则不会出现这种问题。
(3)apply方法聚合数据
I.说明:类似agg方法,能够将函数应用于每一列。
II.用法:与agg方法相同
III.属性参数:

IV.注意:apply方法中,函数只能够作用于整个DataFrame或者Series,无法对不同字段,应用不同函数获取不同结果。
(4)transform方法聚合数据
I.说明:能够对整个DataFrame的所有元素进行操作
II.用法:DataFrame[[' ']].transform()

注意:lambda为自定义函数,后面跟的自己定义的自变量和因变量
项目5 2组 组成人员:陈天成、刘士森 执笔人:陈天成、刘士森
这周学了利用Python处理一些更实际更生活化的东西,例如财政收入预测分析和聚类分析,感觉很实用,只不过操作起来还是不熟练,感觉不是很得心应手,可能自己学的不够精,只学了一些初级的东西。在实践过程中还是有一些语言以及某些函数的地方不大会写不大会操作,经常漏一点东西列如符号之类的。希望可以在过年这几天没课的间隙里巩固一下以确保以后不会犯些低级错误。
以上是10个小组的本周学习心得,各个小组都在实践中遇到了各种各样的困难,也都通过不同的方法积极解决遇到的各种困难,在实践中加深了对Python相关知识的印象。各个小组将会利用春节假期时间,熟悉具体案例,掌握所学知识,逐步推进实践项目。

加载中…