加载中…
个人资料
高志军_PKU
高志军_PKU 新浪个人认证
  • 博客等级:
  • 博客积分:0
  • 博客访问:327,429
  • 关注人气:313
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
博文
分类: 技术写作

oXygen 发布DITA为PDF后中文无粗体效果

问题描述

 

(2017-04-14 00:04)
标签:

词汇

语料库

分类: 技术写作
在我维护的一个技术传播微信群里,有人提问如何对词汇难度分级,将回答转录至此,供更多人参考。

对词汇分级的工具有几个,例如Range和AntWordProfile,不过背后的原理都类似,WP的分级也是参照的Range的。


Paul Nation教授对词汇分级分两个阶段

早期共分三级
Level 1 (1000个词族,来自1953年General Service List of English Words)
Level 2 (1000个词族,来自1953年General Service List of English Words)
Level 3 (570个词族,来自Coxhead的 Academic Word List)

Level 0(未登录词)

一篇文章送进去,即可给出在不同级别的分布情况。

标签:

用户体验

技术传播

分类: 技术写作
当下,用户体验是越来越热门,那用户体验到底是一个什么样的职业呢?具体来说用户体验不是一个具体的职业,而是一类职业的统称。用户体验从业人员需确保设计出的产品不仅可用,还需要让用户对整个使用体验感到满意。用户体验职业大概有三大方向,分别是:设计类(Design),研究类(Research) 和战略类(Strategy),每一类又有若干具体职业。

设计类
  • 交互设计(Interaction Design, IXD),专注于用户与界面的高效交互。
  • 视觉设计(Visual Design),通过字体、色彩、图像和空间的应用,使得各类元素及交互更有意义
  • 信息架构(Information Architecture),如何组织信息,以便呈现给用户
  • 信息设计(Information Deisign),对信息元素的组合搭配进行设计,便于用户高效和有效理解
  • 技术传播(Technical Communication),确保技术信息能被用户理解
  • 服务设计(Service Design),确保消费者与公司之间交互的质量

研究类
  • 用户研究(User Research),研究用户以及用户如何使用产品
(2016-05-05 11:33)
标签:

nlp

杂谈

分类: 自然语言处理
准备写一个系列的文章,旨在向零基础或有一些编程基础的学生介绍自然语言处理的基本原理,并能用Python自己动手实践。今天第一篇:N元语法之n-gram

N元语法
维基百科的定义:在计算语言学中,n-gram指的是文本中连续的n个item(item可以是phoneme, syllable, letter, word或base pairs)

n-gram 中如果n=1则为unigram,n=2则为bigram,n=3则为trigram。n>4后,则直接用数字指称,如4-gram,5gram。

示例
以 I will go to United States. 这句话为例。bigram为:
I will
will go
go to
to United
United States

最基本的思考与实现:

Python语言:
sent=
(2015-04-01 13:00)
标签:

pdf

分类: 小技巧

有时常常需要检索整个文件夹中的PDF文件,要实现此效果,如果你使用的是Adobe Reader的话就比较简单了,共三步:

1. Ctrl+Shift+E,调出检索框

2. 在“All PDF Documents in”中浏览需要检索的文件夹,并输入要检索的词如下图所示:


3. 点击“search”后便可将整个文件夹中PDF中还有该检索词的文件列出,点击后还可在正文中高亮显示,如图所示:


标签:

断句规则

分类: 本地化工程
一般情况下,软回车是不需要额外断行的,但是有一些特殊情况需要断开,尤其是原文写作不规范的时候。

SDL Trados的默认断句规则认为软回车不需要断行显示,如将下方Word文档用SDL Trados 打开进行翻译效果是这样的:

Word中的软回车示例



Trados 打开进行翻译的效果



如果确实要实现软回车断行显示,需要修改断句规则,步
标签:

cat

trados

本地化工程

分类: 小技巧

经常有需要将Excel格式的双语句对转为tmx导入翻译记忆库。方法有很多种,比如使用Excel的公式,或者导出为制表符分割的文本后,用Python处理。这里介绍一种比较简单的方法。

 

前提:首先需要将Excel导出为'制表符分割的文本'。尽量只保留原文和译文两列。还要确保为UTF-8编码,否则可能会乱码。

软件:Okapi Olifant。下载地址:http://www.translationdirectory.com/files/olifant_r00022.zip

 

主要步骤:

  1. 新建空库。

    依次选择File->New,然后在弹出的对话框中指定源语言和目标语言。这里分别为EN-US 和 ZH-CN。

     

     

  2. 导入txt文件

    依次选择File->Import,然后导入需要处理的txt文件。

     

  3. 进行导入设置

    首先选择第一行 ZH-CN,并设置'Destination Field type'为Text,然后指定语言为ZH-CN。同理对EN-US进行设置。

(2014-08-12 16:55)
标签:

本地化工程

分类: 小技巧

有时会有需要将tmx中的翻译单元转为Excel的两列进行审核,这时可使用Xbench来进行转换,步骤如下。工具版本:Xbench 2.9

1 选择tmx文件类型

依次点击Project->New,在弹出的'Project Properties'对话框中点击'Add'按钮。

在弹出的'Add Files to Project'中选择'TMX Memory'单选按钮。

 

2添加文件

确定好文件类型后,在随后的文件列表中添加tmx文件。然后在'Properties'根据需要确定,最后点击确定完成添加。

文件添加后,Xbench会读入tmx文件。

3. 导出文件

依次点击Tools->Export Itmes,然后在弹出的'Export Items'对话框中设置导出格式为'Tabbed Text File',并在File name 处指定导出的文件路径。 点击'OK'后,软件开始导出文件。

 

4. 编辑txt

将导

分类: 本地化工程
使用Trados2011翻译英文html后,如果是单个文件,可在另存译文时选择Encoding为utf8,但是项目文件导出时却没有选项可以实现编码的转换。

方案:可使用Notepad++实现

  1. 选择Plugins->Plugin Manager->Show Plugin Manager
(2013-03-17 14:11)
标签:

杂谈

分类: 本地化工程
PDF文档印刷时如果机器上没有文档中的字体,机器会自动替换为默认字体,因此打印出来的效果可能并不是自己想要的。在印刷之前一般需要将文字转为曲线。PDF文字转曲线的方法有很多种,这里分享一个号称完美的PDF转曲线的方法。
方法名称: Acrobat 拼合转曲 
工具:Acrobat 10 professional简体中文版
步骤:
一、添加水印
工具->页面->水印,并按照如下截图设置

二、设置拼合器
依次选择工具->印刷制作->拼合器预览
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有