加载中…
个人资料
小蚊子数据分析
小蚊子数据分析 新浪个人认证
  • 博客等级:
  • 博客积分:0
  • 博客访问:5,038,491
  • 关注人气:10,871
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

跟小白学Python数据分析——数据导入2

(2020-03-15 22:18:27)
标签:

python

数据

分析

分类: Python

Mr.林:今天继续学习数据导入操作,昨天我们已经学会了导入CSV数据文件,今天我们学习导入TXT与EXCEL数据文件。

小白:好啊!

Mr.林:首先是导入TXT数据文件,使用的是Pandas模块中的read_table函数,数据还是与昨天一样,只是存为了TXT文件。有了昨天CSV数据文件的导入经验,导入TXT数据文件就轻车熟路了,打开spyder,输入以下代码


1import pandas
2data pandas.read_table(
3'D:/D/data.txt',
4 engine='python',
5 sep=',',
6 encoding='utf8'
7)

小白:这个比导入CSV文件多了个参数SEP,是设置列分隔符的意思吧?

Mr.林:聪明,同样我给代码加上对应的注释,使用#来添加注释,这样解析器就不会执行注释所在的行的内容。

 1导入pandas模块
2import pandas
3使用pandas模块中的read_table导入data.txt文件
4data pandas.read_table(
5第一个参数为数据文件所在的路径,因为是字符串需要用单引号引起
6'D:/D/data.txt',
7第二个参数是为了解决路径中包含中文字符无法导入的问题
8 engine='python',
9第三个参数是设置列之间的分隔符号
10 sep=',',
11第四个参数是设置数据文件对应的编码格式
12 encoding='utf8'
13)

Mr.林:在变量浏览窗口中就可以看到刚导入的data变量了,双击打开data变量,就可以得到下面这张表

跟小白学Python数据分析——数据导入1

Mr.林:接下来是导入EXCEL数据文件使用的是Pandas模块中的read_excel函数,输入以下代码


1导入pandas模块
2import pandas
3使用pandas模块中的read_excel导入data.xlsx文件
4data pandas.read_excel(
5第一个参数为数据文件所在的路径,因为是字符串需要用单引号引起
6'D:/D/data.xlsx',
7第二个参数是设置需要导入的工作表名称
8sheet_name='Sheet1'
9)

小白:这个最简单了,只要设置下需要导入的工作表名称是吧。

Mr.林:是的在变量浏览窗口中就可以看到刚导入的data变量了,双击打开data变量,就可以得到下面这张表

跟小白学Python数据分析——数据导入1

Mr.林:小白,你发现没有,id、age这两列都有不同颜色标识

小白:对呀,这是为什么呢?其他列为什么没有?

Mr.林:因为这两列数据类型为整数型,你看打开的这个数据框最下面有一个 Background color选项被勾选上,这个功能相当于Excel条件格式中的色阶功能,它仅对整数型、浮点型有效,对其他数据类型无效。

我们可以使用下列命令查看下每列的数据类型


1data.dtypes

可以看到只有id、age是int64型,其他都是object类型


1id           int64
2reg_date    object
3id_num      object
4gender      object
5birthday    object
6age          int64
7dtype: object


Mr.林:今天就到这,下次我们继续学习其他操作,小白你回去要多多练习,多敲代码。

附:本系列文章

跟小白学Python数据分析——数据导入1

原文出处:菜鸟学Python数据分析
跟小白学Python数据分析——数据导入1

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有