数据库分享:年报文本语气数据库
(2023-06-03 09:48:15)
标签:
stata数据库分享年报文本语气数据库 |
分类: Stata数据处理 |
目录
1. 数据库简介
年报文本语气数据库
数据库设计了积极词汇数、消极词汇数、年报语调等多个字段。由于目前主流研究均基于年报文本中的正、负面词汇数量以及比例来判断年报的整体语调 (曾庆生等,2018;王华杰和王克敏,2018),因此,情感词典的建立及其准确性对年报文本语气的判断过程显得至关重要。
ARTD 采用包括 LM 词典和台湾大学情感词典在内的前沿词典,运用多种方法计算年报文本语气,为该领域的深度研究提供了数据支撑。ARTD 对年报文本语气判断方法如下:
一是参照曾庆生等 (2018) 的研究,以 Loughran 和 McDonald (2011) 提供的金融情感英文词汇列表为基础,依据有道词典和金山词霸对 LM 词典中的英文词汇进行了翻译。与曾庆生等 (2018) 保留一个英文词汇对应多个中文单词的情况不同,本数据库只保留与该英文词汇表达的中文情感最相关的中文词汇,最终的词汇列表包括 2080 个消极词,1076 个积极词。由此计算:
- LM_TONE1 = (积极词汇数 - 消极词汇数) / 年报词汇数
- LM_TONE2 = (积极词汇数 - 消极词汇数) / (积极词汇数 + 消极词汇数)
LM_TONE 值越大,表示当年年报文本信息语气越积极。
二是参照王华杰和王克敏 (2018) 的研究,使用台湾大学制作的《中文情感极性词典》,将诸如“积极”、“进步”、“高效”等积极属性词语集作为积极情绪词语列表;将诸如“低迷”、“暗淡”、“不利”等消极属性词语集作为消极情绪词语列表。基于此,计算文本信息语气:
- NTUSD_TONE = (积极词汇数量 - 消极词汇数量) / (积极词汇数量 + 消极词汇数量)
NTUSD_TONE 值越大,表示当年年报文本信息语气越积极。