话说手机测评_奥卡姆剃刀

http://blog.sina.com.cn/u/1820201245

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

话说手机测评

(2014-08-06 09:41:20)

标签：

杂谈

当前的手机测评大行其道，对用户的导向性不容小觑，我以前设计过带有数传功能的行业掌上电脑，参与过军工通信产品的研发、测试、鉴定，从相对专业的角度观察手机测评，看法可能与公众有些不同。

军工产品的鉴定有着一整套科学完整的体系，这是经过多年实践建立起来的。简单地说，对产品的鉴定主要有功能和性能两个方面。其中功能方面强调完备性，应实现的功能一项都不能漏检，而且要在特定的环境下检验，例如负40度的低温。

性能方面强调检验方法的标准性，例如测试通信设备的频率稳定度，准备用于测试频率稳定度的频率计，要有官方指定的权威部门用更高级的设备进行检验，认为该频率计的测试精度达到了国军标要求，出了鉴定贴了标，才能用于鉴定通信设备的频率稳定度。

这跟古董玉石的鉴定非常不同，古董玉石的鉴定严重依赖鉴定人的经验，权威专家鉴定认可的物件立马身价暴涨。而军工产品的鉴定有着统一的工业化标准，并且有意杜绝人为因素，强调的是鉴定指标体系的科学性和完整性，并不培养所谓的鉴定专家和大师。其追求的目标是：在科学完整的鉴定指标体系下，送鉴方无法隐藏产品的缺陷，鉴定方无法搞人情鉴定和构陷鉴定，程序的每一步都公开在送检方、鉴定方、客户代表三方面前，鉴定结果只取决于送检产品和鉴定指标体系，没有人为因素的干扰。

一个产品的全面检验，其测试数据往往会多达上千条，当然要对这些数据进行整合。例如有两部电台，一部被检出铭牌不正、色差不合格等十余项问题，而另一部只查出频率稳定度不达标一个问题，对于电台来说，频率稳定度是个核心指标，比外观重要得多，其加权值自然也大得多，后一部电台的系统总分应该更低。所以说，对于系统的总体评价，是一个以功能为导向的测试结果加权和，而不是算术和。

用测试结果的加权和真的就能代表系统的效能吗？其实也未必，首先这种想法基于的是“系统效能等于要素功能之和”的简单假设，而在实际系统中，要素之间的不同耦合方式会涌现出不同的效能，《系统论》认为：系统的效能不仅仅取决于构成要素，更取决于要素的构成方式。

美苏冷战期间的米格25，升空2万米速度3马赫，空空导弹都追不上它，直到1979年前苏联飞机员驾机叛逃后，该飞机的秘密才被揭开。简单地说，就是前苏联利用落后技术和材料，通过先进的系统工程设计，造就了优异的性能指标。同样的，一部手机的分项指标都很高，但流畅度等使用感受未必最优，如果系统工程做的好，即使分项指标平平，但使用感受却可能做到更优。

对一个产品的系统效能的测评是很难的，不仅构建真实的使用环境很困难，对人机结合后的效能测评更难。一个好射手用把破枪，很可能比一个烂射手用一把好枪打得更准，在系统效能的测试中必须要考虑到用户的使用问题，你不能自吹你所制造82斤的大刀威力无比，因用户评价不好就抱怨用户没有关羽的力气。

鉴定方只能对样本在鉴定指标体系下的结果负责，并不能给出这个产品好使不好使的结论，因为即使鉴定方真心觉得好使，也不能排除用户由于专业素养低而觉得不好使的可能，甚至这种可能性并不小。

作为通信专业的博士，我对通信设备的认知当然要比一个士官深刻多了，但部队领导往往会询问士官的意见，而不听我的专业介绍，这其实很有道理，将来的设备使用者是士官，他们的意见更有分量，通信博士称道而士官觉得难用的通信设备，一定是个坏设备。

鉴定方不仅不能给出产品是否好使的结论，甚至都不能对送检产品的设计和工艺指指点点。球迷朋友可以在看台上恣意指点，但想必也很清楚，若自己上场或当主教练，结果一定会更差，因为你指点的只是某个局部瞬间的事，而整个球队的建设管理与比赛则是方方面面都必须权衡的系统工程。

设备中某个细节采用了某种材料和设计，是在某个设计理念下各种权衡的结果，评价它本身的对错好坏其实并不简单，往往要上升到对设计理念的判定后才可能有答案。例如，如果用普通手机的设计理念去考察上万元的贵族手机，那简直就是一坨翔，其实那是在以奢华理念下精心设计，定位不同理念相异就会鸡同鸭讲。

手机作为一个大众消费品，其不同的设计理念迎合了理念不同的用户，对于个人而言，喜欢的就是好的，不喜欢的就是不好的，本来挺简单的一件事，但国人总喜欢比较，于是就有了手机测评这回事。

手机测评机构良莠不齐，有的机构技术实力很强，也能令人感受到其工作的诚恳和认真，但与前面所述的军工产品鉴定相比较可以发现，现在手机测评的最大问题就是系统指标体系问题，即缺乏对手机功能性能的指标项目、检测方法、数据权值的统一标准，因此所检测项目的随意性较大，对指标权重的理解也比较个性化。

这种缺乏工业化标准的测评存在着重要隐患，因为它排除不了鉴定方先入为主的成见，对一个产品测出1千个数据，测评方分别拿100个最好的或最坏的数据来说事，其导向性会大相径庭，但这100个刻意选择出来的数据本身是真实的，你还不能指责他的测评结果是虚假的。

一个否定性的测评结果问世后，有人认为很客观，也有人认为这是刻意黑，认为客观的网友其实并不了解测评的细节，只是结果符合了他的期望而已，认为刻意黑的网友会指责测评忽略了亮点而加重评价了缺陷，而这源于对指标权重的认定不同，网友并不能据此证明测评方是恶意的。当然，肯定性测评结果也会遭遇到质疑，测评方无法证明自己不是收钱的托。

起码在现阶段，手机测评还处于传统的古董玉石鉴定阶段，尚无统一的工业化标准对测评的客观公平性进行约束，其结果的可信度取决于你对测评方的信任度。当然，如果测评结果迎合了你的预期，你愿意认同甚至宣传，那当然是你的自由，而我本人则更愿意相信自己的使用感受。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：反对“钓鱼”

后一篇：畅想5G时代

新浪BLOG意见反馈留言板　欢迎批评指正