加载中…
  
博文
分类: 技术写作

oXygen 发布DITA为PDF后中文无粗体效果

问题描述

 

(2017-04-14 00:04)
标签:

词汇

语料库

分类: 技术写作
在我维护的一个技术传播微信群里,有人提问如何对词汇难度分级,将回答转录至此,供更多人参考。

对词汇分级的工具有几个,例如Range和AntWordProfile,不过背后的原理都类似,WP的分级也是参照的Range的。


Paul Nation教授对词汇分级分两个阶段

早期共分三级
Level 1 (1000个词族,来自1953年General Service List of English Words)
Level 2 (1000个词族,来自1953年General Service List of English Words)
Level 3 (570个词族,来自Coxhead的 Academic Word List)

Level 0(未登录词)

一篇文章送进去,即可给出在不同级别的分布情况。

一般
标签:

用户体验

技术传播

分类: 技术写作
当下,用户体验是越来越热门,那用户体验到底是一个什么样的职业呢?具体来说用户体验不是一个具体的职业,而是一类职业的统称。用户体验从业人员需确保设计出的产品不仅可用,还需要让用户对整个使用体验感到满意。用户体验职业大概有三大方向,分别是:设计类(Design),研究类(Research) 和战略类(Strategy),每一类又有若干具体职业。

设计类
  • 交互设计(Interaction Design, IXD),专注于用户与界面的高效交互。
  • 视觉设计(Visual Design),通过字体、色彩、图像和空间的应用,使得各类元素及交互更有意义
  • 信息架构(Information Architecture),如何组织信息,以便呈现给用户
  • 信息设计(Information Deisign),对信息元素的组合搭配进行设计,便于用户高效和有效理解
  • 技术传播(Technical Communication),确保技术信息能被用户理解
  • 服务设计(Service Design),确保消费者与公司之间交互的质量

研究类
  • 用户研究(User Research),研究用户以及用户如何使用产品
(2016-05-05 11:33)
标签:

nlp

杂谈

分类: 自然语言处理
准备写一个系列的文章,旨在向零基础或有一些编程基础的学生介绍自然语言处理的基本原理,并能用Python自己动手实践。今天第一篇:N元语法之n-gram

N元语法
维基百科的定义:在计算语言学中,n-gram指的是文本中连续的n个item(item可以是phoneme, syllable, letter, word或base pairs)

n-gram 中如果n=1则为unigram,n=2则为bigram,n=3则为trigram。n>4后,则直接用数字指称,如4-gram,5gram。

示例
以 I will go to United States. 这句话为例。bigram为:
I will
will go
go to
to United
United States

最基本的思考与实现:

Python语言:
sent=
(2015-04-01 13:00)
标签:

pdf

分类: 小技巧

有时常常需要检索整个文件夹中的PDF文件,要实现此效果,如果你使用的是Adobe Reader的话就比较简单了,共三步:

1. Ctrl+Shift+E,调出检索框

2. 在“All PDF Documents in”中浏览需要检索的文件夹,并输入要检索的词如下图所示:


3. 点击“search”后便可将整个文件夹中PDF中还有该检索词的文件列出,点击后还可在正文中高亮显示,如图所示:


标签:

断句规则

分类: 本地化工程
一般情况下,软回车是不需要额外断行的,但是有一些特殊情况需要断开,尤其是原文写作不规范的时候。

SDL Trados的默认断句规则认为软回车不需要断行显示,如将下方Word文档用SDL Trados 打开进行翻译效果是这样的:

Word中的软回车示例


如果确实要实现软回车断行显示,需要修改断句规则,步骤如下:
1. 工具->选项->语言对->所有语言对->翻译记忆库和自动翻译->
标签:

cat

trados

本地化工程

分类: 小技巧

经常有需要将Excel格式的双语句对转为tmx导入翻译记忆库。方法有很多种,比如使用Excel的公式,或者导出为制表符分割的文本后,用Python处理。这里介绍一种比较简单的方法。

 

前提:首先需要将Excel导出为'制表符分割的文本'。尽量只保留原文和译文两列。还要确保为UTF-8编码,否则可能会乱码。

软件:Okapi Olifant。下载地址:http://www.translationdirectory.com/files/olifant_r00022.zip

 

主要步骤:

  1. 新建空库。

    依次选择File->New,然后在弹出的对话框中指定源语言和目标语言。这里分别为EN-US 和 ZH-CN。

    http://s12/middle/001K9wXNzy6Lc7KqXHB2b&690

     

     

  2. 导入txt文件

    依次选择File->Import,然后导入需要处理的txt文件。

     

  3. 进行导入设置

    首先选择第一行 ZH-CN,并设置'Destination Field type'为Text,然后指定语言为ZH-CN。同理对EN-US进行设置。

(2013-03-17 14:11)
标签:

杂谈

分类: 本地化工程
PDF文档印刷时如果机器上没有文档中的字体,机器会自动替换为默认字体,因此打印出来的效果可能并不是自己想要的。在印刷之前一般需要将文字转为曲线。PDF文字转曲线的方法有很多种,这里分享一个号称完美的PDF转曲线的方法。
方法名称: Acrobat 拼合转曲 
工具:Acrobat 10 professional简体中文版
步骤:
一、添加水印
工具->页面->水印,并按照如下截图设置http://s7/mw690/5f4150734d818cc278fc6&690

二、设置拼合器
依次选择工具->印刷制作->拼合器预览
标签:

杂谈

分类: 心情
2017年2日更新
鉴于不少网友依然会看到这篇文章,再更新一下用卡体验。
改进之处:
1. 可以支付宝还款,方便了不少。
2. 通过银联在线,也可以在线支付了。
不过这两点所谓改进,只是大部分银行的标配。
不足之处:
1. MasterCard美元卡,没有芯片,在一些欧洲国家没法使用,例如“荷兰”。
2. 15000的积分免年费,条件略高。转为航空里程卡,时效不够高,还要50块的手续费。

整体来看,比原来的用户体验有进步,不过可以改进的地方依然很多。


2014年2月更新!
标签:

杂谈

分类: 计算机辅助翻译工具
症状一
下载了 Trados2011 安装了第一步报错,错误信息如下:

  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有