删除python字符串中的标点、数字等
(2011-10-06 23:01:19)
标签:
杂谈 |
分类: Python |
本文方法摘自博客“小新的地盘”部分
python的中文问题一直是让人不爽的一件事情,而python的一个强大之处恰恰是string的处理,而且string就难免不包含chinese。所以处理string中的chinese就变得很重要了。
实验室的complex network项目,目前是数据处理阶段,考虑到python的高效和强大的string功能,我决定使用python对大量的数据进行处理。
下面是一个简单的demo,先贴代码,然后进行说明:
python 代码
- #
-*- coding: gb18030 -*- - import
string - import
re -
- identify
= string.maketrans('','') -
- delEStr
= string.punctuation+ string.digits' ' + #ASCII标点符号,空格和数字 - delCStr
= #@!{}【】''《》()&%¥ -
- s
= '中华人民共和国(北京)' -
- s
= #去掉ASCIIs.translate(identify, delEStr) 标点符号和空格 - if
re.findall('[\x80-\xff].', s): #s为中文 -
s = s.translate(identify, delCStr) -
s - else:
#s为英文 -
s
当然,首先是要import string和re(这里需要正则表达式功能)。
delEStr是一个包含英文标点符号和数字的字符串,就如
12行的功能就是把s中的英文标点符号都删除。
后一篇:Python常用文件操作参考

加载中…