加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

批量提取html的标题为文件名——利器Replace Pioneer

(2011-04-20 23:21:54)
标签:

杂谈

Replace Pioneer真是超好用了,还有好多好多特别的功能,不过要注意setting为你所要修改的文件文字编码,是ansi还是utf。

(1)打开Tools->Batch Runner菜单
(2)点击Pick Files选中所有待处理文件
(3)选中Set output Filename,把右边的${FILENAME}改为${FILENAME}{html_title}{1,10}.html(注意,这表示取网页标题的1到10个字符,如果要取全部内容,把{1,10}去掉就可以了。
(4)观察文件名是否满足要求,然后点击File Rename即可。

以下是转帖:不记得哪里抄的了,谢谢作者辛勤劳动。

把一些txt文档的编码批量由unicode转为ansi
            答:
            第一步:选文件
            1.打开Tools->Batch Runner菜单
            2.点击Pick Files,用鼠标对需要处理的多个文件进行多选。如果你需要的文件类型选不了,把文件类型改选成All files *.*


            第二步:变换编码
            1.点击Change Encode按钮
            2.点击input encoding,设置成More Unicode->UTF-16
            3.点击output encoding,设置成CN->gbk
            4.点击start,完成

            注:如果你想把输出保存到新文件里,可以修改set output
            filename,把它从${FILENAME}该成新的规则,比如${FILENAME}.new,改完后要点击右边的Apply。还要注意备份,以防操作失误。

            Code:
            问:replace pioneer 如何提取我要的内容
            原文件:</FONT><B><FONT style="FONT-SIZE: 16pt" face=楷体_GB2312
            color=#800080>AAAA</FONT></B></DIV>
            需要提取AAAA
            答:
            1. ctrl-o 打开待处理html文件
            2. ctrl-h 打开replace窗口
            * 在Search for pattern下输入(要包含左右的单引号):
            '<FONT style="FONT-SIZE: 16pt" face=楷体_GB2312
            color=#800080>'(.*?)'</FONT>'
            * 在Replace with pattern下输入\1\n
            * 把 Print Unmatched Unit前面的勾去掉
            3. 点击Replace,AAAA就提出来了

            注:以上步骤能提取出格式<FONT style="FONT-SIZE: 16pt" face=楷体_GB2312
            color=#800080>AAAA</FONT>里面的AAAA,如果格式稍有不同,就需要进行修改,或在某部分使用通配符。

            补充:
            检查一下你的文件是不是UTF8编码的,如果是,就需要在Settings->Encoding->选择utf-8作为编码方式,否则就会乱码。


            Code:
            问:
            如何实用Replace Pioneer修改txt文件中特定的内容
            每天要用同一个txt模板,修改一些特定的参数,,能不能用Replace Pioneer通过参数填表的形式,来自动生成(或者说自动修改)
            答:
            用Replace Pioneer 2.4这样做就可以了:
            1. 打开Convert-->Fast Replace-->Select菜单
            2. 点击Add按钮添加替换关系,比如:
            把所有的"参数一"替换成001
            把所有的"参数二"替换成002
            ...
            3. 点击Export把替换关系保存成文件。
            4. 在input file输入你的txt模板文件,
            在output file输入结果文件,点击Start即可

            下次再用时,只要在第2步点击import,把第3步保存的文件载入并修改就可以了。

            Code:
            问:
            把TXT文件里面日期格式为2008.12.31替换为2008/12/31使用Replace Pioneer如何替换
            数据量很大,TXT文件都有500M啊
            答:
            如果你的内存有1G以上,可以试试用Replace Pioneer的Fast Replace功能,否则500M的文件有点太大了。
            具体步骤:
            1. 打开Tools->Batch Runner菜单
            2. 点击Pick Files选中待处理的文件
            3. 把set output filename的${FILENAME}修改成需要的结果文件比如result.txt。
            4. 点击Fast Replace 按钮,打开Fast Replace窗口
            5. 点击Add,并在search窗口输入(\d\d\d\d)\.(\d{1,2})\.(\d{1,2})在Replace 窗口输入
            \1\/\2\/\3
            6. 点击Start,并耐心等待处理完成。

            注:第3步一定要设置结果文件名,否则原始文件会被覆盖掉。

            我调试过了可以替换,但还是建议用小文件先试一下,成功后再用大文件。

            Code:
            问:
            求四个正则表达式
            (68)
            (156)

            ----68----
            ----156----

            〔68〕
            〔156〕

            等级:68
            等级:156
            答:
            一般来说,Replace Pioneer中用单引号阔起来的部分不做转义,所以你的文本可以分别用以下来表示:
            '('\d+')'
            '----'\d+'----'
            '〔'\d+'〕'
            '等级:'\d+

            Code:
            问:
            用Replace Pioneer如何用文件第一行作文件名?
            用Easy Recovery 的 RAW模式恢复了很多doc文件,文件名都变成了FIL*.DOC
            想用每个doc文件的第一行作为文件名,用Replace Pioneer该怎么做?
            答:
            如果你不要保留doc的文档格式,可以用Replace Pioneer把doc文件批量转换成txt文件,然后按txt文件的首行重命名。

            doc批量转txt的步骤:
            1.打开Tools->Batch Runner菜单
            2.点击Pick Files选择多个需要的doc文件
            3.点击Doc/Pdf convert按钮,type选doc to txt,点击Start即可。

            txt文件批量改为首行名字的步骤:
            1. 打开Tools->Batch Runner菜单
            2. 点击pick files,选中需要的多个文件
            3. 把下面Set output filename 后面的${FILENAME}改成
            ${FIRSTLINE}.txt 或其他后缀,或
            ${FIRSTLINE}.${EXT} 保留原来的后缀,或
            ###_${FIRSTLINE} 前面加3位编号,等等

            4. 观察列表里的新名字是否符合要求,然后点击下面的File Rename即可。

            Code:
            问:
           如何用Replace Pioneer批量将数字和字符串分开?
            比如:在excel表格中,某一列内容全部类似为“张三12*1280”、“李四7*1900”、“王五10*1700”(该列的内容依次为“员工姓名、工作月份、月工资收入”)等内容的文字,现能否用Replace
            Pioneer批量将该列中的数字和文本分拆开来?分拆后的结果为:员工姓名为一列,工作月份为第二列,“*”号为第三列(分拆后无此列亦可),月工资收入为最后一列。

            答:
            1. 首先把该列内容拷贝粘贴到记事本里,保存为a.txt
            2. 打开Replace Pioneer,按ctrl-o打开文件
            3. 按ctrl-h打开替换窗口
            * 在Search for pattern输入(不带双引号):
            "(\w+)(\d+)\*(\d+)"
            * 在Replace with pattern输入(不带双引号):
            "\1\t\2\t\3"
            4. 点击Replace,把结果粘贴到Excel表中即可,因为各列已经用table(\t)分开,所以会自动在excel中分列。

            Code:
            问:
            replace pioneer有没有起始页码设置
            给图片编号 但苦于不知道怎么设置起始页码   如起始页码不是系统默认的1而是根据个人的需要而设置
            答:
            假设要用Replace Pioneer给一批图片重命名成200.jpg, 201.jpg, 202.jpg, ...

            步骤如下:
            1. 打开Tools->Batch Runner菜单
            2. 点击Pick Files或Search Files选取多个文件
            3. 选中Set output filename,把后面的${FILENAME}改为###{200}.${EXT}
            4. 观察新文件名是否符合要求,然后点击File Rename按钮,完成。

            注:其他例子:
            * 起始是200,步长为2:
            200,202,204,206,...   ###{200,2}.${EXT}
            * 起始是200,序号递减:
            200,199,198,197,...   ###{200,-1}.${EXT}

            Code:
            问:
            如何用replace pioneer给TXT文件内容的每一行加上递增数字
            答:
            1. ctrl-o 打开文本文件
            2. ctrl-h打开replace窗口
            把Replace Unit选成Line
            在Replace with pattern输入
            $line_no $match\n
            3. 点击Replace,完成。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有