2.2 文本信息特征的文献综述
文本信息的表达方式灵活、内涵丰富,研究者需要根据不同的研究主题提取文本信息的特定特征,主要包括语调(Huang et al.,2014)、可读性(Miller, 2010;Biddle et al.,2009;Lehavy et al.,2011;Li, 2008;Loughran and McDonald, 2013;Lundholm et al.,2014)、相似度(Hoberg and Phillips, 2010;Kelly et al.,2021)等与文本内容无关的特征,也包括风险(Campbell et al.,2014)、创新(李岩琼等,2020;何雨晴等,2021)、竞争(Li et al.,2013)等与文本内容有关的特征。
2.2.1 文本语调
在会计文字的叙述过程中,语调主要是指文字积极性或消极性的程度,这是文本情感特征的一种(Bushee and Friedman, 2015)。然而,从广义上讲,文本情感还可能包括除积极和消极以外的其他影响,如强与弱、主动与被动等。语调反映了管理层对公司经营状况的观点与预期,具有广泛的经济后果。同时,正是由于语调具有广泛的经济后果,公司管理当局可能出于某种动机进行语调操控,策略性的披露政策会影响披露的语调。
文本语调的测量是研究的基础。为了实现对文本语调的测量,现有研究主要使用词典(Loughran and McDonald, 2011)和机器学习(Purda and Skillicorn, 2015;Bao and Datta, 2014)的方法。最近的研究表明,机器学习的方法可能比词典法更加有效(Xing et al.,2018)。然而机器学习的方法需要花费相当的精力建立相对正确的训练集,这大大限制了它的应用范围。
国外财经文本语调的研究对象主要包括管理层情绪(Li, 2010;Loughran and McDonald, 2011;Jiang et al.,2019;Allee and DeAngelis, 2015;Davis et al.,2015;Frankel et al.,2016;Larcker and Zakolyukina, 2012;Price et al.,2012)、媒体报道情绪(Frank and Sanati, 2018;Baloria and Heese, 2018;Garcia, 2013;Tetlock, 2007;Tetlock et al.,2008)、投资者情绪(Baker and Wurgler, 2006;Tsukioka et al.,2018;Antweiler and Frank, 2004;Kim and Kim, 2014;Renault, 2017;Behrendt and Schmidt, 2018;Sun et al.,2016;Gao et al.,2020)等。在这些研究中,既有使用传统的词典法度量文本语调的,也有采用朴素贝叶斯、支持向量机等机器学习方法测量文本语调的(Huang et al.,2014;Das and Chen, 2007;Jegadeesh and Wu, 2013;Antweiler and Frank, 2004)。
在文本情绪测量方面,国内文献运用词典法的较多,运用机器学习方法的相对较少。在研究对象方面,除了年报文本、财经新闻、社交媒体、网络论坛等与国外一致的文本之外,还有针对业绩说明会等中国制度情境下独有的文本。其中年报文本语调受到的关注最为广泛。在年报语调的经济后果方面,现有研究发现管理层语调存在广泛的经济影响,如信用风险预警模型的效力(刘逸爽等,2018)、股价崩盘风险(周波等,2019)、股价同步性(余海宗等,2021;许晨曦等,2021)、债权融资(赵宇亮,2020)、审计费用(徐晓彤等,2021;梁日新等,2021)、审计意见(李世刚等,2020)、分析师预测(朱朝晖等,2018)等。在年报语调的影响因素方面,政治关联(贺康等,2020)、行业竞争(陈良银,2020)、配合盈余管理(朱朝晖等,2018;王华杰等,2018)都会影响年报文本语调的披露。
针对年报中管理层讨论与分析部分的语调,也基本是利用词典法和机器学习方法测量文本语调后再展开研究。已有文献发现管理层讨论与分析的语调具有广泛的经济后果,如财务危机预测(苗霞等,2019;陈艺云,2019)、管理层的印象管理倾向(黄方亮等,2019;原东良等,2021)、公司贷款(卢介然等,2019)、债券信用利差(姚潇等,2020)、股权质押(王秀丽等,2020)、融资约束(邱静等,2021)、资产定价效率(高雅等,2020)、审计决策(王嘉鑫等,2020)、现金持有决策(底璐璐等,2020)、股利政策(张子健,2019)、企业创新(林煜恩等,2020)、慈善捐赠(范黎波等,2020)、企业社会责任(周建等,2021)、市场投资者解读(刘建梅等,2021)等。
除了年报文本语调之外,业绩说明会和招股说明书中的文本语调(甘丽凝等,2019;刘瑶瑶等,2021;唐少清等,2020;贾德奎等,2019;卞世博等,2020)、分析师报告语调(伊志宏等,2019;王永海等,2019;吴武清等,2020;朱琳等,2021)、媒体报道语调(聂左玲等,2017;支晓强等,2021;汪昌云等,2015;游家兴等,2012;王靖一等,2018;张皓星等,2018;金秀等,2018)、投资者情绪(金秀等,2018;罗琦等,2021;杨晓兰等,2016;段江娇等,2017)、社会责任报告语调(张继勋等,2019;黄萍萍等,2020)、审计公告语调(王海林等,2019;潘俊等,2020)等类型的文本语调都受到了研究者的广泛关注。
2.2.2 文本可读性
研究会计文本信息叙述的可读性已有很长的历史(Jones and Shoemaker, 1994)。这些早期关于文本信息可读性的研究大部分都是基于小样本。例如,Tennyson等(1990)研究了财务困境与管理层叙述披露之间的关系,具体通过对比23家宣布破产的美国公司与23家非破产公司的匹配样本。Lewis等(1986)仅使用9家澳大利亚公司的财务报告研究可读性的测量。
Li(2008)使用Fog指数和年度报告中包含的字数来衡量年度报告的可读性,成为第一篇研究年度报告可读性与企业绩效之间关系的大样本研究,并被后续研究者广泛引用。随后的文献广泛采用Fog指数作为衡量年度报告可读性的指标,并对年报文本可读性的经济后果展开了广泛探讨。更高的年报文本可读性往往具有更高的资本投资效率(Biddle et al.,2009)、吸引更多的个人投资者(Lawrence, 2013)、降低信息不对称程度、提高股票交易量、提升公司价值(Bushee et al.,2018;De Franco et al.,2015;Frankel et al.,2016;Guay et al.,2016;Hwang and Kim, 2017;王运陈等,2020)等。更低的可读性会降低小型投资者的交易数量(Miller, 2010)、吸引更多的分析师跟进(Lehavy et al.,2011;Brochet et al.,2016)、发布更多的管理层预测(Guay et al.,2016)、降低债券评级(Bonsall and Miller, 2017)、增加外部融资成本(Bonsall and Miller, 2017)等。Lundholm等(2014)从交叉上市的角度分析了非美国公司在美国上市后倾向于提供更高可读性的财务报告,成为研究影响年报可读性的重要文献。需要注意的是,尽管Li(2008)所提出的测量可读性的Fog指数在文献中广泛使用,但后续的研究发现,Fog指数在测量商业文本可读性时具有局限性,其难以将公司复杂性和年报可读性分开(Loughran and McDonald, 2014)。
中文和英文语境下的可读性存在较大差异,中文语境下的可读性研究需要结合中文的特点和语言环境进行调整和改进。国内学者在中文语境下对可读性的测量做了一系列独特的扩展。现有文献中使用的中文可读性指标主要包括以下方式:汉字的笔画数(丘心颖等,2016;逯东等,2020)、字数或词汇数占比(丘心颖等,2016;孟庆斌等,2017;叶勇等,2018;孙文章,2019,2021;徐巍等,2021;阮睿等,2021;李成刚等,2021;周佰成等,2020;王艳艳等,2020;张志强等,2021;任飞等,2020)、专业术语密度(翟淑萍等,2020;王运陈等,2020;贺康等,2020;朱丹等,2021;江媛等,2018,2019;王治等,2020;周佰成等,2020)、句子数及句子长度或占比(丘心颖等,2016;逯东等,2020;孙文章,2021;李成刚等,2021)、文本长度或篇幅(孙文章,2019;逯东等,2019,2020;丁亚楠等,2021;江媛等,2018,2019)等。在企业社会责任报告可读性的研究中,除了平均句长、页数之外,还有文献利用社会责任报告是否有彩色封面、图片的数量、是否有目录、是否有图表来衡量可读性(吉利等,2016;黄珺等,2021)。
2.2.3 文本相似度
文本相似度是指不同文本内容之间的相似程度。在财经文本中,相似信息以外的信息往往代表的是增量信息,具有广泛的经济后果。目前使用较多的是计算余弦相似度来衡量文本相似度(Hoberg and Phillips, 2010,2016;Brown and Tucker, 2011;Lang and Stice-Lawrence, 2015;Kelly et al.,2021;王雄元等,2018;蒋艳辉等,2014;吴璇等,2019;钱爱民等,2020;卞世博等,2021;李成刚等,2021)。还有学者使用了其他的方法来衡量文本相似度,如Jaccard系数(何雨晴等,2021)、最小编辑距离(游家兴等,2021;赵子夜等,2019)等。文本相似度不仅可以衡量不同公司之间的文本相似度(吴璇等,2019;刘昌阳等,2020;张志强等,2021;Hoberg and Phillips, 2010;Hoberg and Phillips, 2016),还可以分析同一公司不同时期的文本相似度(钱爱民等,2020;葛锐等,2020;张淑惠等,2021;Lang and Stice-Lawrence, 2015;Brown and Tucker, 2011)。
2.2.4 文本内容特征
上文所提及的文本情绪、可读性和相似性特征,都是文本的客观特征,与文本表达的内容无关。与数字信息相比,文本信息作为非结构化数据,表达方式更为灵活,内涵更为丰富,可以传递有关公司价值状况的更多信息(Li et al.,2013)。因此,从文本表达的内容出发,提炼相关的文本内容特征,并研究其生成机制和经济后果十分必要。常见的文本内容特征主要包括创新、风险、前瞻性等信息。这些内容特征信息往往都是传统的会计数字无法传递的信息。
2.2.4.1 创新和风险信息
创新往往要求企业主动承担相应风险,是企业生存与发展的内在动力。同时,在货币计量模式下,企业的创新和风险信息无法被会计报表中的数字信息所反映。由于这两类信息在决策中的重要性,企业往往通过年报中的管理层讨论与分析、董事会报告、业绩说明会等多种方式,以文本信息的方式反映创新和风险信息。所以,如何提炼这些文本中的创新和风险信息,并分析这些信息的影响因素和经济后果,得到了学者的重点关注。
词典法是测量企业创新和风险信息披露水平的常用方法(Loughran and McDonald, 2011;吴武清等,2021)。一般而言,研究者会构建企业创新或者风险信息相关的特征词典,然后利用词典法提取相应文本中与创新或风险相关的词汇的数量,并通过某种方式标准化之后,就可以对创新或者风险信息实现定性化的测量。因此,创新或风险词典的构建是关键。Bao和Datta(2014)利用LDA(Latent Dirichlet Allocation)模型测量公司年报的风险披露信息,发现年报披露的宏观经济风险和流动性风险均与股票波动率显著正相关,而年报披露的人力资源风险、规章变动风险、基础设施风险则与股票波动率显著负相关。Campbell等(2014)同样发现风险披露信息对年报披露后的股票波动率有较好的预测效果。许文瀚等(2019)采取特征词典法衡量文本中研发披露程度、风险信息披露程度信息的提及频率,发现分析师会对年报中研发、风险等信息做出反应。张淑惠等(2021)用风险相关特征词出现的次数除以年报总字数衡量风险信息披露含量,发现风险信息披露水平会影响企业股价同步性。杨墨等(2021)以风险关联词度量年报风险披露的程度,表明风险信息披露与股票流动性负相关。刘晨等(2021)采用管理层讨论与分析中风险词频和文本字数之比衡量风险信息操纵程度,研究发现调研主体对公司进行实地调研会导致公司减少年报风险信息披露。陈艺云等(2021)采用主成分分析法构建了年报文本风险信息指数,以公司债为样本,分析了评级机构能否解读复杂文本内容中的风险信息。李岩琼等(2020)采用关键词法测量文本信息披露变量,使用年报中研发相关关键词词数占年报全文字数的比例测量研发信息披露水平,发现年报中研发信息披露越多,分析师预测偏差及分歧度越小。何雨晴等(2021)发现企业对实质性创新往往采取模糊表达的信息披露策略,以防止创新“溢出”至其他企业;而对策略性创新则采取清晰表达的信息披露策略,以营造创新“假象”。
2.2.4.2 前瞻性信息
管理层讨论与分析中,管理团队会对企业未来发展前景做出一定的陈述,所以包含大量的前瞻性信息。前瞻性信息的测量一般采用词典法(Li, 2010;Muslu et al.,2015),词典是由研究者构建的前瞻性相关词汇列表组成的。Li(2010)使用朴素贝叶斯方法,发现管理层讨论与分析中高管陈述越乐观,公司未来盈余和流动性就越好。孟庆斌等(2017)发现管理层讨论与分析中的信息含量越高,未来股价崩盘风险越低。王秀丽等(2020)采用了特征词汇提取法来度量“经营情况讨论与分析”中未来事项的披露指标,发现在股权质押后,上市公司年报文本中将披露更多前瞻性信息用以描述未来前景,将来时态语句数量显著增多。杨杨等(2021)将企业发展预期披露信息进行细化,分为企业发展前景预期信息披露指数、风险预期信息披露指数、计划预期信息披露指数和资金预期信息披露指数,以此为基础研究了外部经济政策不确定性下企业发展预期信息披露的策略选择。发现经济政策不确定性下公司管理层会减少积极、乐观的企业发展前景预期信息披露、计划预期信息披露和资金预期信息披露,增加消极、悲观的企业发展风险预期信息披露。
2.2.5 其他文本特征
除了上述文本信息特征之外,研究者还构建了许多其他特征指标,如文本数量、文本详细程度、真诚性、“互联网+”、竞争程度、主观性与客观性等。在文本数量方面,股吧帖子数量(Antweiler and Frank, 2004)、股票搜索频率、百度指数以及位置搜索数(Da et al.,2011;俞庆进等,2012;Chi and Shanthikumar, 2017)都可以用来构建反映投资者关注度的相关指标;公司相关的新闻数量可以构建媒体关注度指标(饶育蕾等,2010)。李晓溪等(2019)采用文本分析法对比分析企业发布的修订前后的并购重组报告书,以命名实体字数占比衡量了并购重组报告书的详细程度。赵璨等(2020)定义了“互联网+”关键词列表,并进一步分析了公司年报中“互联网+”信息披露次数对股价崩盘风险的影响。段钊等(2017)利用主客观文本分类法对企业社会责任信息披露的主客观性进行了专门评价。周波等(2019)将年报文本语调与企业会计数字信息相对比构建了反映年报文本语调的真实性的指标。王运陈等(2020)从显性表述真诚性和隐性表述真诚性两个方面对管理层讨论与分析的语言真诚性进行测量,发现年报中管理层讨论与分析中的语言真诚性可以降低股价同步性。Li等(2013)与Hoberg和Phillips(2016)利用年报文本相似度指标构建了反映公司层面的竞争指标。