加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

删除python字符串中的标点、数字等

(2011-10-06 23:01:19)
标签:

杂谈

分类: Python
本文方法摘自博客“小新的地盘”部分

python的中文问题一直是让人不爽的一件事情,而python的一个强大之处恰恰是string的处理,而且string就难免不包含chinese。所以处理string中的chinese就变得很重要了。

实验室的complex network项目,目前是数据处理阶段,考虑到python的高效和强大的string功能,我决定使用python对大量的数据进行处理。

下面是一个简单的demo,先贴代码,然后进行说明:

python 代码
  1. -*- coding: gb18030 -*-   
  2. import string  
  3. import re  
  4.   
  5. identify string.maketrans('', '')   
  6.   
  7. delEStr string.punctuation string.digits  #ASCII 标点符号,空格和数字   
  8. delCStr '《》()&%¥#@!{}【】'   
  9.   
  10. '中华人民共和国(北京)'   
  11.   
  12. s.translate(identify, delEStr) #去掉ASCII 标点符号和空格   
  13. if re.findall('[\x80-\xff].', s):    #s为中文   
  14.    s.translate(identify, delCStr)   
  15.    print s   
  16. else#s为英文   
  17.     print  

当然,首先是要import string和re(这里需要正则表达式功能)。

delEStr是一个包含英文标点符号和数字的字符串,就如 '(){}<>1234 ' 这样。delCStr是一个包含中文标点符号的字符串。s是一个测试字符串。

12行的功能就是把s中的英文标点符号都删除。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有