加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

拼音输入法要扫黄打非 - 建议张朝阳看看

(2007-05-11 00:23:31)
标签:

搜狗拼音输入法

张朝阳

扫黄打非

治病救人

分类: 信息产业
(这里所提到的问题,可能在所有的输入法中都存在,但我目前用的是搜狗拼音,因此就拿它来说事。张朝阳先生曾多次为“搜狗拼音”造势,建议看看这篇文章,并给出看法。)

这扫黄打非怎么跟拼音输入法联系起来呢?因为这确实是一件大事。涉及到网络文字的净化,也能体现一个企业的社会责任,为什么这么说,我们看看下面的一些案例就知道了。

一、症状分析

我们来先说说“非”,对于输入法来说,“非”就是备选词语中的错别字,输入法软件作为一个工具,它相当于一个机器文书,好的“拼音输入法”应该了解一个词语应该如何写。但事实是,此文书的知识水平还不够高,错别字非常普遍。这里又有两种情况。

情况一、备选词中仅给出带错别字的词语,如
http://docs.google.com/File?id=dd9rkg8z_135c5z6d8mw建议张朝阳看看" TITLE="拼音输入法要扫黄打非 建议张朝阳看看" />
http://docs.google.com/File?id=dd9rkg8z_142cbp5zzhf建议张朝阳看看" TITLE="拼音输入法要扫黄打非 建议张朝阳看看" />
应为“冒天下之大不韪”和“如雷贯耳”,这种情况不太普遍,但情况二就太多了。

情况二、带错别字的词语与正确的词语同时出现:
http://docs.google.com/File?id=dd9rkg8z_136wbxn2kg4建议张朝阳看看" TITLE="拼音输入法要扫黄打非 建议张朝阳看看" />
http://docs.google.com/File?id=dd9rkg8z_139c8z5hgcs建议张朝阳看看" TITLE="拼音输入法要扫黄打非 建议张朝阳看看" />
http://docs.google.com/File?id=dd9rkg8z_140pv6sgqdc建议张朝阳看看" TITLE="拼音输入法要扫黄打非 建议张朝阳看看" />
这种情况十分普遍,这是要考验用户呢?还是输入法软件的水平还不够高?作为一个好的输入软件,这些错别字当然应该从词库中消除掉。


再来说说“黄”,所谓“黄”,就是在备选词语按照词语的频度进行排列时,许多格调不高、实际在输入时很少用到、但可能被阅读频度较高的词排名较靠前。例如:
http://docs.google.com/File?id=dd9rkg8z_141c935vrdp建议张朝阳看看" TITLE="拼音输入法要扫黄打非 建议张朝阳看看" />
等诸如此类,这里不多举例,一则因为大家平时可能已经遇到,二则是实在不便写出来。如果希望验证,可以尝试用“yind”输入“引导”时,“yangw” 输入“仰望”,“roub”输入“肉包”,或直接输入“xgc”期望得到“小高层”时。你会发现一些让你惊奇的推荐词语。这些词语不是不应该出现,但在很 靠前的位置就不好了,大家都了解拼音输入法是容易惹祸的,在用户的文章中如果不小心出现“笔误”,可能会十分尴尬。

二、病因查找

拼音输入法软件出现这种症状,一定有其原因。其实原因很简单,在新一代高级的拼音输入法中,采用了“搜索引擎技术”,这使得拼音输入法从技术层面上更上一层楼,但是,这种技术的不当使用,也是出现“黄”“非”两种症状的根本原因

互联网连接了各种类型的用户,尤其快餐文化的盛行和博客的兴起,错别字出现的几率大大增加,这和输入法不够强大密切相关。然而,采用“搜索引擎技术”的输入法,如果不加甄别,仅按照词语使用的频度来构建词库,就必然鱼目混珠。自然“似是而非”。

同样,由于网络“色情”泛滥,“搜索引擎技术”的使用,自然也出现了“黄”的症状。“搜索引擎技术”是一剂补药,使得“拼音输入法”强大了很多,但这剂药火较大,而且服用的方法有误,以致如此。这是成长中的问题,但需要调适调适。

三、医治处方

要医治这个病症,首先要考虑病根,那就是“搜索引擎技术”使用对了吗?输入软件是做什么的?当然是用来“输入”的,不是用来“输出”的。这个软件在用户写 文章时才会用到,而不是阅读文章的时候。而“搜索引擎技术”是面向用户查找和阅读的。这两者之间有联系,但是,如果不认清这一点,直接套用,就可能出现偏 差。举了例子,比如说,有超过一半的成人都曾“研究”过“色情文学”,有些人还很有造诣,但是从事这个领域“创作”的比例恐怕就很少了;另一方面,有接近 100%的成人都写过多封情书,但平均每封情书的读者恐怕不会超过0.5人。这说明什么呢,大家读得多的东西,并不一定在写作的时候使用,频度可能是不一 样的。这也是“面色偏”这个症状出现的原因之一。

既然如此,输入法软件就要考虑好好调整其使用的技术。“搜索引擎技术”在推出软件的初期可立大功,然而,最好的方法还是充分与用户互动,了解使用此工具的用户的真正用词频度。这需要一个长期的过程。针对当前病况,可开出如下处方:
  1. 提高知识水平,消除“非”。具体做法就是,把常用错别字编入软件之中,做一个过滤器,一定程度上起到解毒功效;同时可兼用手工去除的模式;
  2. 增强道德意识,消除“黄”。具体做法就是,限制搜索引擎技术的使用范围,主要对一些大的正规的网站进行统计,也可辅之以过滤器;
  3. 从群众中来,到群众中去,这就要长期执行了。不仅要使用“搜索引擎技术”,用户词库自动更新词库的共享十分重要,其实只要有一部分用户愿意回传其用户动态词库,就可以得到很好的真正用户输入的词语频度统计。那么,日后推出的版本中推荐备选词语自然就会更加准确。


我的相关日志:

2007-04-10 Sogou成最大受益者,Google勇气亦可嘉







 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有