内容分析法与编码表的实施过程(二)
(2009-12-19 13:43:44)
标签:
社会研究方法论文校园 |
分类: Postgraduate |
(五)建构类目系统与量化系统
任何内容分析的核心都是对课题内容进行分类。要对研究课题的整个系统进行精确的架构使得对内容进行分类会随着研究主题的不同而不同。准确的分类对内容分析来说是相当重要的。 [33]
所谓类目,就是指内容的分类。它是内容分析的基本单位,是将内容单位归类的标准。
一般有两种方式来对内容进行分类。一是初始编码,初始编码是在对数据进行初步测试之后进行分类。这一分类系统是基于从数据本身呈现出来的普通事实和主题。比如,有学者在分析FM广播电台网站的内容时,测试了许多节目的频度以后,发现这些数据主要是集中在4个类别当中,广播站频率变量、广播站信息变量、新闻和信息以及其他方面。[34]
另一种方法是在基于理论和概念的基础上,在数据收集好之前提前编码建立分类,学者kerr & Moy就在分类的基础上发展了一套10类的标准系统进行分类。
而关于编码,根据艾尔比尔的观点,编码有两种基本方法。一种是根据研究需要,设计一种相对容易的编码法案或是利用一些既有的研究方案。第二种是根据资料编码,即在研究中,研究者不知道研究主题代表哪些变量,最典型的例子是问卷调查。研究者不可能预测到所有的答案,所以只能根据答案进行编码。[35]也有学者将这两种定义为“先验编码”和“急诊编码”,即一种建立在对于数据做了初步的分析以后,一种则是建立在已有的理论之上。[36]
例如:第一种:在基于理论和概念的基础上,在数据收集好之前就已建立分类。比如性别这种变量的分类固定为:男/女。
建构分类要注意的问题:
李秉德、檀仁梅以及李方,杨小微共同提到了:为保证内容分析法研究结果的客观性,确定编码的依据(也就是类目)时应注意几个问题。这几个问题分别是:
①类目的确定必须是在进行内容分析判断之前预先制定的,不能一边分析,一边适应性地修改补充。
②分类要详尽全面,应包括该研究课题所规定的内容的所有部分,不能出现有无处归放的分析单元。
③类目之间不能相互包含或重叠,含义明确。[37][38]
从实用角度来说,所有分类系统都必须相互独立,相互排斥并且要穷尽一切可能性还得可靠,具体来讲:
内容分类的互斥是指一个分析单位能且只能被划分入一个类别。如果研究者发现一个分析单位可以同时被放进两个类别中,那么这样一些类别的定义就需要被修正。例如,如果我们打算研究美国大选民主党的主要支持者,并采用如下的一些分类系统来描述分类:1)非裔美国人,2)犹太人,3)白人,4)土著美洲人,5)其他。很明显,犹太人会同时进入两个类别中,违背了互斥原则。 [39]
再如,当我们想通过下列一些分类来描述中国电视的节目类型:1)情景喜剧2)儿童节目3)电影4)纪录片5)动作片或探险节目6)脱口秀或竞猜节目7)肥皂剧。初看第一眼也许会觉得这样的分类是合理的,但是诸如张以庆的《幼儿园》这样的作品,应该属于电影还是纪录片呢,很难得到清晰的分类。
除了互斥,内容分析的分类还应该做到穷尽。应该存在这样一个分类,那就是可以使所有的分析单位都有处可放,如果研究者发现有的分析单位不适用于任何分类标准,那么既有的分类系统就是存在问题的。在大众媒介内容分析方面,要做到穷尽性并不困难。如果发现了一两个比较特殊的例子,它们可以被归到“其他”这样的类别中。但是如果太多的条目都被划入这样的类别中就有必要对初始的分类进行重新考察了。另外一个保证穷尽的方法是采用二分法或三分法。二分法是指将一个事物分为两个方面[40]三分法是指将事物分为三个部分或方面。[41]所有内容,一般来说,我们对一个问题可以采用两个极端对立的分类法或者极端和中立的描述方式,如好、坏;攻击性的与非攻击性的;喜欢、不喜欢、中立等等。确定一个分类系统是否穷尽的实用方法就是将一些样本试用到整个分类系统中。如果出现了一些无法归类的条目,那么在分析之前这一原始的计划就需要得到修正。
分类系统同样需要可靠。也就是说不同的编码者需要对这些分类的绝大部分没有异议。这样的一致性尝尝在内容分析中得到quantified,被称作intercoder reliable。精确的分类定义一般来说可以增加可信性,whereas sloppily定义的分类会使之降低。
建立一个量化体系
在内容分析法中,四种变量都可以使用。这四种变量分别是定性变量、定序变量、定距变量以及定比变量。这四个变量是按照测量尺度进行的分类。
定性变量是把变量的不同特征和属性加以区分,具有完备性和排他性。在这个层面上,研究者一般只是简单的统计每一个个体在其类别中所出现的频率。例如,有学者对音乐电视里的商业广告进行内容分析,发现只有6.5%的男性角色被认为为穿着比较性感的衣服,没有男性角色被认为穿着非常性感;而相应的数据在女性角色中则分别为24%和69%。[42]
定序变量是按照某种逻辑对变量进行排序,“不同的属性代表了变量的相对多寡程度”。 [43]例如受教育程度的高低等等。但是,在定序变量中,属性间的实际距离的测量没有意义,定序变量在内容分析法中并不常用。
定距变量是在定序变量分等级的基础上,还可以确定不同水平之间的间隔距离和数量差别。例如,研究者用定距变量研究商业广告中的女性形象。每一个角色都可以用定距变量进行分析,从“依赖-…-…-…-…-独立”、“主导-…-…-…-…-…顺从”。 [44]
定比变量是在定距变量的基础上更进一步,就是有绝对的零点。“它是建立在真实基础上的。”[45]例如人的收入。在大众媒介领域,定比变量常“适用于时间和空间的分析,例如在 ‘上海市大众传播媒体舆论监督特征’中设计了媒体批评时间,即事件发生前、事件发生中、事件发生后三个时间段”。[46]
例如,“年代”是一个类目,然后可以用定序测量的方法将其量化为“1998年,1999年,2000年……”。
下面以铭传大学传播管理研究所研究生王柏蓁的《从流行音乐看台湾的爱情价值观:1998—2007》为例进行分析如何建构类目系统和量化系统。
这个研究结合量化与定性的内容分析法,分析了1998-2007年十年间“金曲奖”的“最佳流行音乐演唱会专辑奖”的128首歌曲。
本研究根据研究问题将内容分析的类目分为三大部分,即歌曲基本资料、歌词整体特性及歌词价值观。
一、歌曲基本资料:包括歌曲的名称、主唱者姓名、歌曲年代、主唱者性别等资料。
二、歌曲的整体特性:包括歌曲主题、歌曲中所叙述的爱情阶段。
三、爱情有关的价值观:包括“对爱情的态度”、“爱情的表达方式”、“表达爱情之肢体动作”、“对于分手的描述”,与“爱情的性别角色”等五大类。(如下图)
类目系统 |
类目一 |
类目二 |
类目三 |
编号 (变量) |
语言 |
歌名 |
歌曲主题 |
爱情阶段 |
爱情 态度 |
表达 方式 |
肢体 动作 |
年代 |
性别 |
分手 描述 |
性别 角色 |
这样就建立了完整的类目系统,接下来,研究者按照各变量的特征建立量化系统。以上图的类目一为例。由于编号和歌名是以填空的方式编码,这里仅讲述对语言、年代和性别三个变量的量化。量化结果如下:
语言:国语,闽南语
年代:1998,1999,2000,2001,2002,2003,2004,2005,2006,2007
主唱者性别:男,女 ,男女对唱
(六)制作编码表
根据诺因多夫的观点,编码系统的一个重要组成部分是一个全面的手写的编码表。它里面要包含需要研究的变量,并为研究者提供一个连贯一致的研究框架。[47]
辛格尔特里认为,编码表是一种页码,其形式和内容随研究性质不同而各异,它允许研究者记录被计算的项目。编码表只是一页表格,包括编码类别、日期以及编码员姓名等内容(就是将类目等制成表格的形式),所有这些内容都有助于制表和分析。对大多数内容分析而言,每检查一个样本都需要一份表。[48]此外,诺因多夫还认为,编码表要包含所有与研究相关的信息,也可能会建立一些类目,或者更进一步去确定数据来源的名字。
编码表是对已建立的量化系统的赋值。在上一步中,我们已经建立了一个完整的量化系统。接下来,就是对量化系统中的每一个选项进行赋值。以第一类目所建立的量化系统为例:
003 张震岳1999年 国语
写一封没有地址的信
想寄到你的心里
告诉你渐渐变淡的爱
你是否曾经注意
过去的美丽日子已经不再
我还在傻傻地找寻
也许你想要说但说不出口
我知道你想说
分手吧
不要在骗我说你还爱著我
你我的梦
彼此的不同
就算是当作一时糊涂爱错
一、歌者:
二、□ 语言:1.国语 2.闽南语
三、□ 年代:
(1)1998
四、□主唱者性别:1.男 2.女 3.男女对唱
五、□歌曲主题:
1.爱情
2.性
3.青春
4.政治与社会议题
5.风尘、黑道
6.励志、打拼
7.流浪、思乡
8.抒发情感
9.其他
六、□爱情的阶段:
1.交往前的爱情
2.交往中的爱情
3.分手-抛弃对方
4.分手-被对方抛弃
5.分手-无法判断
6.过去的爱情
这个编码表还给了我们另一个启示。在一到四题中,答案非常统一,而五六题就会容易出现分歧,这就涉及到了编码过程中的隐性内容和显性内容。
显性内容是指可见的表面内容,其编码多接近于标准化的问卷使用,属于定量资料的编码范畴。如上述例子中的一到四题。隐性内容是指分析对象所隐含的意义,是文本中没有明确说出来的内容,区别于它们的显性内容,是定性资料进行编码的对象。这也就更体现了培训编码员的重要性。因为对数据的分析研究要遵循一个一致的编码标准。
(七)培训编码员
1.培训编码员
编码员是对研究样本进行编码的人员。编码员可以是学生、教职员、非大学里的成年人或者其他人,他们必须成熟、有能力和负责任。训练编码员的目的是让每一位编码员理解研究者意图,以统一的方式进行编码,理解每个测量指标的含义和每个分类的界定等,掌握编码的流程和技巧。
首先,研究者要给与每位编码员一份详细的说明和指导编码的培训材料,即编码说明。编码要对每一个测量指标及其类别进行说明。如之前对变量的界定和测量的确定一样,“编码准则都必须在研究进行之前确定”。[49]
接着,做几个案例给他们进行参考。把自己所做的案例和编码员所做的进行比较。从编码过程中抽出一部分案例,检查其中的编码程序是否正确。只有分类结果一致的编码结果占据了压倒性的比例,才能够继续对总样本进行大规模编码。比如,研究的歌曲样本中出现“爱,分手”等字词,歌曲主题就应该是关于爱情的。如果某编码员坚持把这首歌的主题定义为励志,那他就是不合格的。这位编码员需要接受再次培训接受培训,并重新进行编码。情况仍没有改善,则需要更换一名编码员。
编码所依据的原则很重要,它关系到研究进行的一致性和连贯性,但是这并不代表是强制编码员去接受一个统一的标准,因为有些所谓的“编码准则”本身可能就是有问题的。辛格尔特里认为,对编码员的培训不是为了评估编码员的一致性,而是测试他们能否在所给定义的基础上进行合理的判断。一致性不是重点,定义的合理性才是重点。如果在经过适当地思考和训练后,有理性的人不能对某一定义的使用达成共识,那么这个定义可能有问题。此时就需要对定义有问题的变量重新分类。[50]
2.内部信度
对编码员进行培训以后,要检测编码员之间的内部信度。诺因多夫认为,在当今的文学研究领域,越来越多的人认识到建立编码员内部之间的信度的重要性,这是保证研究效度和研究意义的一个必要的标准。[51]
1)霍尔斯蒂公式 : (编码员间信度=
2)史考特Pi指数 : 史考特Pi指数【Pi= ,其中的百分比是指每一类百分比的平方和),
3)克里鹏多夫的α系数(α= 1 - ,其中的编码员之间期望的不一致的百分比= 1 - ∑
选择某个项目分类项目的次数(选择每个分类的编号 - 1)】。当结果低于各个公式所对应的可信范围时,内容分析需要重新设计表码表和进行编码。[52]
当研究人自己做编码员时,也要核对编码程序。假设该研究人已经得出了一种印象,认为父母离异的人,容易对社会产生愤怒情绪。这时候容易出现一种危险的情形,当发现某一采访者此时,会下意识地试图从此人的叙述中,寻求任何微小的证据以证明你的假设。此时,应找他人进行编码,并核对双方的分类方法是否一致。
下面以《从流行音乐看台湾的价值观》检测信度为例:
研究者从十届金曲奖的研究样本之中,随机抽出一届得奖专辑共10首歌,作检测信度的样本。检测后发现编码员的信度在 0.91 至 1.00 之间,平均相互信度约为 0.96 (参见表一)。由于编码员间的相互信度相当高,因此在检定编码员信度之后即开始进行正式的编码。
本研究的前测编码员由本研究者与另一位本校传播管理研究所硕士班的同学担任,并从十届金曲奖的研究样本之中,随机抽出一届得奖专辑共10首歌,作为前测实施的样本。进行编码员的相互信度(intercoder reliability)之检验后,发现各类目的相互信度在 0.91 至 1.00 之间,平均相互信度约为 0.96 (参见表一)。由于编码员间的相互信度相当高,因此在检定编码员信度之后即开始进行正式的编码。
表一:分析类目之编码员相互信度检验结果
|
歌曲 主题 |
爱情 阶段 |
爱情 态度 |
表达 方式 |
肢体 动作 |
分手 描述 |
性别 角色 |
总类目 |
应有同意数 |
10 |
10 |
21 |
10 |
10 |
12 |
10 |
83 |
不同意数 |
0 |
0 |
3 |
1 |
0 |
1 |
0 |
5 |
完全同意数 |
10 |
10 |
18 |
9 |
10 |
11 |
10 |
78 |
相互同意度 |
1.000 |
1.000 |
0.8571 |
0.900 |
1.000 |
0.9166 |
1.000 |
0.917 |
信 |
1.000 |
1.000 |
0.9230 |
0.9473 |
1.000 |
0.9564 |
1.000 |
0.957 |
(八)对资料进行编码
在所抽取的样本有足够代表性的前提下,内容分析法所得出结论的客观性程度的高低完全取决于编码的客观情况。可见,编码在内容分析法研究中居于至关重要的核心地位,因它会直接影响着研究成果的客观性。[53]
在具备了编码表已经建立,抽样已经完成,编码员培训已经成功这三个重要因素后,编码员就可以依据编码表对每个样本进行编码,这是将资料转化为可机读格式的操作性阶段。
(九)录入计算机和进行统计分析
1.收回的编码表,或是其他的一些量化内容,录入计算机软件系统分析,进而得到研究结果。
当资料为封闭式问题时,研究者可以使用光学扫描单来收集资料。如果资料是问卷收集来的,可以直接对问卷进行编码。然后利用电脑统计软件,将转换成电脑能够识别的数字。辛格尔特里介绍,定性资料使用的软件有资料库,电子数据表程序等,如Nud*ist,侧重对概念进行编码。而定量资料的常用工具包括SPSS和MicroCase等。[54]M分析方法主要有频数分析和百分比分析。由于很多定性资料都可转化成定量进行统计分析,这里我们以定量资料的统计工具SPSS为例,介绍对资料进行整理和录入的具体操作过程。
2. SPSS的使用
SPSS的主页面即数据编辑窗口(Data Editor)一般有两个窗口,数据视图(Data View)和变量视图(Variable View)。本文仍然以对台湾流行音乐的主题分析对收集的资料进行编码,先从变量视图入手。例如对“歌曲主题”进行编码。把收集到的数据或者提前设定的选项依次放入变量视图。名称下面输入“theme”;类型为“数值”;小数是指赋值时你所选择的数字小数点后面有几位;然后在值下面进行赋值,这是最核心的部分。点击右侧的方格,会出现一个对话框,在“值”一栏输入所赋予的数值,在“标签”一栏输入被赋值的选项(如,主题有9个,爱情,性,青春,政治与社会议题,风尘黑道,励志打拼,流浪思乡,抒发情感和其它,将他们分别编码为1,2,3,4,5,6,7,8,9。在对话框中,“值”一栏输入“1”,下面的“标签”一栏输入“爱情”,然后点击“添加”,点击“确定”,其它八个也按照相同的方法进行编码);在缺失值一项通常输入9999;最后的度量标准是指变量的类型,即我们上面提到的建立量化体系时的那四个变量。“主题”在此显然是定性变量,即名义变量。
然后再回到数据视图中,根据之前的编码对不同的受访对象进行数据的输入。
该研究者统计的结果如下:
表二:歌曲主题的分布次数与频率
歌曲主题 |
次数 |
(%) |
爱情 |
79 |
(61.7) |
性 |
3 |
(2.3) |
青春 |
5 |
(3.9) |
政治与社会议题 |
8 |
(6.3) |
风尘、黑道 |
1 |
(0.8) |
励志、打拼 |
3 |
(2.4) |
流浪、思乡 |
4 |
(3.1) |
抒发情感 |
20 |
(15.6) |
其它 |
5 |
(3.9) |
合计 |
128 |
(100) |
(十)报告研究结果
报告研究结果时,要注意使结论具体化,以体现研究结果的重要性和方便我们的理解。例如对儿童电视节目内容分析的结果显示30%的广告是点心和糖果广告。那么研究者将如何下结论呢?30%是一个较高数据或者是一个较低数据?我们应当用至少30%,还是仅有30%。显然研究者需要用一些基准来做比较;同其他广告产品或者在成人节目中播出的同类广告产品相比,30%也许是一个很高的比例。[55]