加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

数据库分享:年报文本语气数据库

(2023-06-03 09:48:15)
标签:

stata

数据库分享

年报文本语气数据库

分类: Stata数据处理
全文阅读:https://www.lianxh.cn/news/d3f9bf033c33f.html

目录

 


1. 数据库简介

年报文本语气数据库 (Annual Report’s Tone Database,ARTD) 是基于上市公司 2007 年以来的年报文本信息,并根据已有中文语调研究成果,采用多种方法计算上市公司年报文本的语气建立而成的数据库。

数据库设计了积极词汇数、消极词汇数、年报语调等多个字段。由于目前主流研究均基于年报文本中的正、负面词汇数量以及比例来判断年报的整体语调 (曾庆生等,2018;王华杰和王克敏,2018),因此,情感词典的建立及其准确性对年报文本语气的判断过程显得至关重要。

ARTD 采用包括 LM 词典和台湾大学情感词典在内的前沿词典,运用多种方法计算年报文本语气,为该领域的深度研究提供了数据支撑。ARTD 对年报文本语气判断方法如下:

一是参照曾庆生等 (2018) 的研究,以 Loughran 和 McDonald (2011) 提供的金融情感英文词汇列表为基础,依据有道词典和金山词霸对 LM 词典中的英文词汇进行了翻译。与曾庆生等 (2018) 保留一个英文词汇对应多个中文单词的情况不同,本数据库只保留与该英文词汇表达的中文情感最相关的中文词汇,最终的词汇列表包括 2080 个消极词,1076 个积极词。由此计算:

  • LM_TONE1 = (积极词汇数 - 消极词汇数) / 年报词汇数
  • LM_TONE2 = (积极词汇数 - 消极词汇数) / (积极词汇数 + 消极词汇数)

LM_TONE 值越大,表示当年年报文本信息语气越积极。

二是参照王华杰和王克敏 (2018) 的研究,使用台湾大学制作的《中文情感极性词典》,将诸如“积极”、“进步”、“高效”等积极属性词语集作为积极情绪词语列表;将诸如“低迷”、“暗淡”、“不利”等消极属性词语集作为消极情绪词语列表。基于此,计算文本信息语气:

  • NTUSD_TONE = (积极词汇数量 - 消极词汇数量) / (积极词汇数量 + 消极词汇数量)

NTUSD_TONE 值越大,表示当年年报文本信息语气越积极。


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有