文献综述-机器收听时如何讲话

近年来,随着计算机技术的不断进步,人工智能、机器学习、深度学习等词汇越来越多地出现在经济社会的各个部门。作为经济发展的长期重点,金融业也在逐步引进上述尖端技术。例如,我们经常在各大证券公司和投资银行研究部门的招聘广告中看到“熟悉Python和其他编程语言者优先”。《机器在听时如何说话:披露中的公司披露》是一篇关于2020年《论》的报告,作为一个相关的技术领域,我在阅读文本后感受到了前沿技术的先进性。但同时,结合实践也出现了许多问题。总的来说,我们收获了很多。我们特此记录交流和学习情况。

文章正文

(1) 动机

The SEC estimates that as much as 85% of the documents visited are by internet bot (Bauguess, 2018). There are two factors for this:

1. Technology like Machine Learning makes it feasible

2. The sheer volume of regulatory filings makes it inevitable

So corporate disclosure needs to resonate with both human and machine readers.

(二)Theory

A novel “Feedback Effect”: Encoded rules are at least partially transparent, observable, or reverse-engineerable, agents who are impacted by the decisions thus have the incentive to manipulate the inputs to machine-learning.

(三)Gap

While the literature has shown how investors and researchers apply machine learning and computational tools to extract information from disclosure and news, our study is the first to identify and analyze the Feedback Effect, i.e., how companies adjust the way they talk knowing that machines are listening.

(四)Data and Variables

1. Data

(1) Machine related: the SEC EDGAR and the associated Log File Data Set

(2) Firm characteristics: CRSP/Compuster; Thomson Reuters, IBES

(3) Conference call audios: EarningsCast

2. Key Variables

(1) Machine Downloads

a proxy for the presence of “machine readers”, identifying an IP address downloading more than 50 unique firms’ filings on a given day, and requests that are attributed to web crawlers in the SEC Log File Data, as a machine (i.e., robot) visitor (Lee, Ma, and Wang, 2015)

(2) Machine Readability

the ease at which a filing can be “understood”, measured by five most important attributes(Allee, DeAngelis and Moon, 2018)

(3) Sentiment

the representation of “negative” words in the documents, based on the Harvard General Inquirer IV-4 and the special dictionary by Loughran and McDonald(2011) (with additional sentiment measures including litigiousness, uncertainty, weak modal and strong modal words)

(4) Vocal Emotions

Emotional Valence and Arousal correspond to positivity and excitedness of voices, relied on a pre-trained Python machine learning package pyAudioAnalysis 21 (Giannakopoulos, 2015) to code the vocal emotion of each conference call(Hu and Ma, 2020)

(五)Conclusions

1. Increasing AI readership motivates firms to prepare filings that are more friendly to machine parsing and processing.

2. Firms adapt sentiment and tone management to evolving algorithms.

评论及思考

(一)启发

1.the Development of Technology

本文实证检验的末节使用voice analysis进行了一项out-of-sample test,主要参考Hu and Ma(2020)的方法利用Github上的Python程序对样本企业的conference calls进行分析,分别得出衡量the positivity and intensity of vocal tones,通过声波的物理特性来捕捉文本分析中被忽略的信息。在Hu and Ma(2020)的这篇Working Paper中,他们采用ML algorithms对audio data进行了three-V dimensions分析,即Visual、Verbal和本文参考Vocal,其中关于Visual的衡量可能更加符合我们对AI日常认知,即人脸识别的相关功能。

虽然机器学习凭借其在变量生成、预测等上的优势愈发频繁地应用到经济管理类研究中,但也正如王芳等(2020)在展望中所言,这一趋势可能会恶化“学者间不平等及数据可复制性问题”。例如在之前聆听的“首届会计与高质量发展学术研讨会”上,张博辉教授汇报了一篇利用公司快递信息预测股票价格的Working Paper,汇报中提到文章所用快递信息来自于上海某物流公司未公开数据。国内上市公司每年的物流信息无疑属于大数据层次,但业界出于用户隐私和公司利益,显然没有且不愿把这些数据公之于众,这便给学者进入该领域设置了障碍,普通研究者根本无法获取诸如每个公司每天收发快递的数据,更不用说如该文所用关于快递种类、快递重量、收发人之间距离等更为精细的数据。

2. the Feedback Effect

自Bond et al.(2012)提出 the market perception can also influences manager’s information set and decision making后,the Feedback Effect逐渐成为国外资本市场研究的热门话题,本站前两篇评论文章便属于相关研究(Jayaraman and Wu, 2019; Roychowdhury et al., 2019)。

这里我们可以进一步分析:Jayaraman and Wu(2019)的逻辑是manager披露公司信息,资本市场上的informed traders根据自身信息优势进行决策,影响公司股票价格,manager进一步从这种剥离和学习增量信息如growth opportunities or market demand;本文的逻辑是公司以各种形式向外界披露信息,analysts and institutional investors开始更多地使用machines 下载和分析这些信息载体如文档、录音、视频等,因此经历这种变化的公司管理者开始改变自己一切向外界传达信息的行为来适应这种变化。

根据上述两篇文献的逻辑我们其实可以粗浅概括Feedback Effect产生的原因:关注公司披露信息的人和群体(informed traders、analysts、institutional investors)所作决策愈发受到关注,或其决策所依赖信息的获取方式的改变。因此这也给了我们一点启发,即我们可以考虑其他传统意义上的公司利益相关者的行为及改变,是否也可触发Feedback Effect。

(二)疑问

1、首先便是investors,或者具体到analysts和institutional investors是否真的愈发倾向使用machine下载和分析公司的各种信息披露载体。文中提到“While the literature is catching up with and guiding investors’ rising aptitude to apply machine learning and computational tools to extract qualitative information from disclosure and news”,并罗列了近期的若干相关Working Paper(Crane, Crotty and Umar, 2020; Cao et al., 2020)。

由于我确实不太了解具体实务情况,因此咨询了在国内知名券商研究部实习过的前辈,她给我的答案是国内券商的分析师几乎不会使用machine download,更不可能会去深入学习ML等来分析各类文件。她告诉我讲国内分析师撰写分析报告所基于的原始数据大都是实习生逐个下载并转录的,“学习和应用这些机器学习的方法需要大量精力,分析师根本没有时间去深入学习这些技能,多雇几个实习生问题就解决了”。即便排除掉前辈个人判断的主观成分,我们多少也能窥得上述analysts和institutional investors分析模式的变化在国内资本市场现实中的惨淡景况。

考虑到setting不同的原因,也可能是由于美国资本市场发展较为成熟,因此这种分析模式的变化更有发生的可能。这里我深入阅读了本文在定义Machine Downloads时参考的Lee, Ma and Wang(2015)的研究,下面是其筛选样本的过程表。有趣的是在剔除掉单日下载超过50 files的样本后,files披露页面的浏览量views obs下降了近70%,而下载files的visitor obs仅下降3.9%。这其实侧面可以为上述假设提供证据,即下降的3.9%多为analysts和institutional investors,他们的相对数量较低,但确实进行了市场上绝大部分的Machine Downloads。而且这仅仅是美国资本市场2008年—2011年的数据,有理由使人相信在技术更加先进且活跃的当下,这一现象会更加普遍。

但问题其实也随之产生,如果确实随着技术的发展,analysts和institutional investors更多地采用了ML等技术,那为何本文仍在使用50 files这一将近10年前的阈值进行判断。而且本文在此基础上又根据SEC Log File给出的数据加上了网络爬虫的数据量,但显然这种做法并未排除学者们通过设计爬虫获取公司数据进行科研的样本,且这类样本体量绝对不小。因此即便上述分析模式的变化确实在资本市场上愈发常见,但也不能完全排除本文有在刻意夸大渲染这一趋势的意图。

2、其次便是managers是否真的会因为ML带来的分析模式变化而去改变自己的披露方式。从本文研究设计部分的所有实证模型来看,解释变量、被解释变量和所有控制变量均为同一年份(如下图所示为探究Machine Downloads和Machine Readability关系的模型),如果依据文中所谓Feedback Effect的前后逻辑,那么这些模型的设计显然存在严重的双向因果问题,且文中也并未设计相关稳健性检验解决这一问题,因此Feedback Effect后半段的研究假设的实证检验是有瑕疵的。

进一步,正如Roychowdhury et al.(2019)指出“it is plausible that managers do not incorporate all decision-relevant information accessible to them within their firms because such information is costly to collect and/or process”,且“information acquisition and processing costs affect the extent to which managers’ investment decisions incorporate information accessible within their firm that is not yet collected or processed”,即上一篇推文中提到的,managers需要依据成本效益原则作出tradeoff。对于本文所讨论的情景,即manager需要衡量学习改变自己披露方式所要付出的成本和改变披露方式后对公司发展的促进程度,这其实有许多容易被忽略的因素,例如对于付出成本并非只是managers学习相关ML、特殊词典词汇等知识付出的成本,还有所隐含的其对ML改变分析模式这一变化的相信程度,而为了达到足以使得managers去学习的相信程度也是需要managers付出成本寻找现实证据的。考虑到成本可能是较大的,且上述成本和收益economic magnitude的衡量难度也是较大的,因此对于文中提出的Feedback Effect还是抱有疑问的。

上述疑问均是我综合个人所知和推断及他人实践经验所提,常说理论和实践总有差距,因此十分希望如有读者有较为丰富的相关实务经验,或对我的疑问和观点有不同看法,可以和我进一步交流。

参考文献

[1] 陈晓萍, 徐淑英, 樊景立. 组织与管理研究的实证方法(第二版)[M]. 北京:北京大学出版社, 2012.

[2] 王芳, 王宣艺, 陈硕. 经济学研究中的机器学习:回顾与展望[J]. 数量经济技术经济研究, 2020, 37(04), 146-164.

[3] Allee, K.D., M.D. DeAngelis and J.R. Moon Jr, 2018. Disclosure “scriptability”, Journal of Accounting Research, 56(2), 363-430.

[4] Cao, S., K. Du, B. Yang and A.L. Zhang, 2020. Copycat skills and disclosure costs: Evidence from peer companies’ digital footprints, Working paper, Georgia State University and Pennsylvania State University.

[5] Cao, S., W. Jiang, B. Yang and A. L. Zhang, 2020. How to Talk When a Machine is Listening: Corporate Disclosure in the Age of AI, Working Paper, Georgia State University.

[6] Crane, A. D., K. Crotty and T. Umar, 2020. Public and private information: complements or substitutes? Working paper, Rice University.

[7] Giannakopoulos, Theodoros, 2015. pyAudioAnalysis: An open-source python library for audio signal analysis, PloS one 10, e0144610.

[8] Hamermesh, D.S., J.E. Biddle, 1994. Beauty and the labor market, American Economic Review, 84(5), 1174-1194.

[9] Hu, A., S. Ma, 2020, Human interactions and financial investment: A video-based approach, Working paper, Yale University.

[10] Jayaraman, S., J. S. Wu, 2019. Is silence golden? Real effects of mandatory disclosure. Review of Financial Studies, 32 (6), 2225-2259.

[11] Lee, C.M., P. Ma and C.C. Wang, 2015. Search-based peer firms: Aggregating investor perceptions through internet co-searches, Journal of Financial Economics, 116(2), 410-431.

[12] Loughran, T., B. McDonald, 2011. When is a liability not a liability? Textual analysis, dictionaries, and 10-Ks, Journal of Finance, 66(1), 35-65.

[13] Roychowdhury, S., N. Shroff and R. S. Verdi, 2019. The Effects of Financial Reporting and Disclosure on Corporate Investment: A Review. Journal of Accounting and Economics, 68(2-3), Article 101246.

[14] Russell, J. A., 1980. A circumplex model of affect, Journal of Personality and Social Psychology, 39(6), 1161-1178.

作者:王凯

资源下载: