加载中…
个人资料
Wayne
Wayne
  • 博客等级:
  • 博客积分:0
  • 博客访问:203,976
  • 关注人气:799
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

浅谈游戏数据挖掘

(2010-03-21 09:48:39)
标签:

数据挖掘

模型

玩家

数据采集

数据分析

游戏

分类: DataMining

  这个标题好像有点大,最初开始是想写一篇关于游戏外部数据采集的文章,写着写着刹不住车了,暂且就让他戴顶高帽子吧。早先受发于天之虹的《浅谈游戏数据的积累、挖掘与分析》,而后受享于他的《游戏研发阶段预留数据沉淀的利器》和老木的《游戏运营中的用户分析》,这3篇文章都是从游戏策划和运营的角度谈论行游戏数据的挖掘与分析,这里我将从一个数据分析者的角度简单的谈谈游戏数据挖掘。

 
浅谈游戏数据挖掘
   
    需求调研阶段
    古人有云:“凡事预则立,不预则废”,一个项目或主题的确定之前需要进行需求调研,譬如公司最近发现某款游戏的在线人数波动比较厉害,且持续了一段时间,事后调查发现游戏外线人数波动大致原因归结为:1)外挂太多了;2)现阶段各职业间太不平衡;3)账号安全问题,且投诉过程太复杂;4)现阶段无可玩内容;5)公会好友战新区;6)其他新游戏的吸引等,问题找到了,由于来不及采取对应措施而造成玩家的流失,对此,公司为了防止此类事情得再发生,建立相应的预警机制,建立相关用户流失模型,防止其他游戏发生类似情况,同时对游戏玩家按模型进行分类,对其采取差异化的营销策略。
   在这样一个需求背景下确立了建议用户流失模型这样一个需求目标,如果同时有多个需求目标则需要对目标的重要性进行评估,从而确定挖掘项目开展的先后顺序。这里需要注意的是,项目目标的方向切忌不可设置得过大,比如XX游戏用户行为挖掘,这样的情况会导致在后面数据挖掘阶段可能会因技术或是设备或是其他原因而导致整个项目无法实现。

    数据挖掘阶段
   数据挖掘阶段是整个项目的重中之重,通常数据挖掘的流程包括项目(商业)理解、数据理解、数据准备、建立模型、模型评估和模型发布等。这里我以游戏用户流失为例对各个流程进行简单的说明。
  
   1)项目理解阶段
   此阶段主要确定项目目标,订立项目成功的标准,完成项目形式评估及制定项目执行计划等等。例如我们在成立减少玩家流失这个项目组时,就确定了项目的目标是减少玩家的流失,项目成功的标准是模型的准确率达到多少,纯度达到多少,玩家流失减少多少等等,而形式评估则主要对项目实施未来可能遇到的问题作一个简单的评估,譬如这里可能是数据挖掘技术在网游行业的市场应用经验不足,游戏行业发展迅速,业务及行业规则不断变化,模型在应用过程中会遇到各种问题等等。至于项目计划则是对整个项目需要的时间,资源等等作一个整体的规划把控。除此之外,此阶段还需要对相关专业术语进行解释说明等。例如:我们定义玩家的流失分为内部流失和外部流失,
  内部流失:指玩家转战新服或本公司的其他游戏产品
  外部流失:指玩家停止与本公司相关联的一切游戏活动
  流失原因:
    产品原因:
    此阶段游戏内容匮乏
    游戏平衡性
    ……
  非产品原因:
    外挂
    账号安全
    ……
 
   2)数据理解和数据准备阶段
   数据挖掘对数据的依赖性非常高,为了能够实现数据挖掘的目标,要求收集的数据足够全,质量尽量高。通常在这个阶段花费的时间占整个项目时间的一半还多,关于数据理解和准备的详细情况可参阅天之虹的《浅谈游戏数据的积累、挖掘与分析》和《游戏研发阶段预留数据沉淀的利器》这2篇文章。这里需要强调的一点就是数据采集过程中切忌注意研究方向,别眉毛胡子一把抓。
   原始数据采集完后,还需要对数据进行描述和处理,比如进一步探查已选变量与目标变量之间是否存在关系,各变量数据的基本探查,如空值数目、唯一值数目、最小最大值的统计以及数据质量检验等。这里需要说明的是,各种数据的抓取和定义范围会因不同公司,不同研究目的不同而不同,譬如以前游戏公司多半关注游戏最高在线人数(PCU),而现在则多半关注游戏的活跃用户数,而活跃用户数又因游戏的运营方式不同而有着不同的定义。
 
浅谈游戏数据挖掘
 
   3)建立模型阶段
   通常挖掘项目的建立模型都要经过三个阶段:建立模型,测试并调整模型,应用模型。(说实话,网游行业做到真正建立模型的公司很少很少,太多的时候大家都只是在摇旗呐喊,并没有真正的付出行动。)建立模型,就得选择相应的建模技术,譬如玩家流失,就可能应用到决策树、神经网络及回归分析等相关统计技术,在游戏运营的各个阶段,数据不同,运营宣传方式也不同,这就可能利用模型的组合,各个游戏阶段采用不同的模型进行预测分析,这样预测模型可能分为游戏内测阶段,公测阶段和正式运营阶段不同而不同。
   通常很多的统计方法和建模技术都有许多的假设条件,譬如“古典假设”。这里也一样,由于数据仓库提供的数据可能并不完备,但又不能抛弃这些数据,此时我们只能假设这些数据中的大部分信息都是正确的。
 
   4)模型评估阶段
   模型的应用通常需要较长周期的检验才能准确的评估其是否满足商业标准,在传统行业,这个评估通常在模型应用1年后作出。此外,对于设计的模型,不但要评估模型的准确性和通用性,还要努力找出相关商业理由解释说明模型的欠缺,把生成的结果与建模初订立的标准进行对比,同时根据目前的状况对数据仓库变量做适当的修正调整,以满足日常数据分析的需要。
  
浅谈游戏数据挖掘
 
   5)模型发布阶段
   在模型通过评估满足商业目标情况后,进入模型发布阶段。模型发布阶段的内容主要包括相关模型检测和维护计划(常规调整和适应性的调整<应用于节假日及寒暑假等特殊日期>),以确保模型的准确预测和预警。同时,还要利用模型指导日常运营发布相关数据分析报告。
浅谈游戏数据挖掘
  
   模型发布后
   模型发布后的阶段,或许用模型到底能做什么,能给我们带来什么更确切些,例如建立玩家流失模型,分析流失玩家的用户特征,对游戏玩家作进一步的细分,对未来可能出现的流失作一个预警,并针对此类玩家提供特定的解决方案,以达到减少用户流失的目的。除此之外,在此分析过程中还有可能对与游戏相关的运营活动提供临时性的指导建议,譬如某个时期玩家客服服务的改进,游戏活动(任务)的调整,某阶段玩家属性变化异常,抽调相关玩家游戏数据判断外挂等等。
 
后话:
  “统计分析给您以先机,分析报告给您后见之明,数据挖掘给您以洞察”这样一句话来形容运营分析与数据挖掘的关系再确切不过了。然而数据挖掘只是用来帮助业务分析策划人员从数据中发现各种可能的假设,这些假设是否正确,是否有价值还有待确定,为了得到更加确定的答案,企业不得不花费一些时间和经历来验证这些假设,从而导致企业提出调研目的,针对相关假设设计相应的调查问卷,根据调查结果,运用统计分析得出分析报告,从而推出一系列新的发展方案,发展新的客户,回头又继续数据挖掘,形成一个数据挖掘--市场调研--运营分析的良性循环。
   数据挖掘并不是万能的,只能给正常的游戏运营带来一些辅助性的帮助,为相关运营活动提供数据参考和支撑。同样外部相关机构的行业调查也能为我们的游戏运营提供参考,只是对我们运营的游戏没有太多的针对性。
 
PS:行业相关调查内容可参考CCNIC和17173(与易观国际合作)行业调查报告,都是免费的。
 
 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有