pandas(五):正则表达式_千殇百止_新浪博客

新浪博客

加载中…

http://blog.sina.com.cn/u/3993383468

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

pandas(五):正则表达式

(2018-08-30 13:19:36)

标签：

it

分类：利用python进行数据分析

正则模块中的函数功能大致有3类： matching，substitution，splitting；

re.split(pattern,text) #按照pattern将text切割，以列表返回

http://s3/mw690/004mfPsMzy7netP58ume2&690
http://s10/mw690/004mfPsMzy7netSeeKtc9&690
http://s1/mw690/004mfPsMzy7netVjS1y90&690

matching

1） findall()

http://s1/mw690/004mfPsMzy7neuaGgPm40&690

2) match()

写法一：

re.match(pattern, text) #如果pattern在text的开头匹配，返回；否则返回None

写法二：

regex = re.compile(pattern,flags=re.IGNORECASE) #re.IGNORECASE为忽略大小写

matches=regex.match(text) #在text开头匹配pattern

matches.groups()#返回开头模式匹配的各个组

http://s8/mw690/004mfPsMzy7nevSOtQr17&690
http://s15/mw690/004mfPsMzy7new8Pcaa8e&690
http://s6/mw690/004mfPsMzy7newHSJE165&690
http://s14/mw690/004mfPsMzy7newPv7mRdd&690

3）search() #写法与match()一样，同样有两种；在整个text中匹配pattern,返回第一个匹配子字符串的位置；

http://s1/mw690/004mfPsMzy7nex5ysZG80&690

substitution

写法一：

re.sub(pattern,'substitution',text)

写法二：

regex= re.compile(pattern,flags=re.IGNORECASE)

regex.sub('substitution',text)

http://s11/mw690/004mfPsMzy7nexlLzEm0a&690
http://s13/mw690/004mfPsMzy7nexB6L5afc&690

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：pandas(五):向量化的字符串函数

后一篇：Data_Wrangling(三)：reshaping和pivoting

新浪BLOG意见反馈留言板　欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

Copyright © 1996 - 2022 SINA Corporation, All Rights Reserved

新浪公司版权所有