DeepSeek vs ChatGPT:谁可以预测股票市场与宏观经济?

 Datawhale分享 

方向:AI+金融

作者:陈坚(厦门大学),唐国豪(湖南大学),周国富(Wustl),祝武(清华大学)

2025 年春节前夕,DeepSeek 一经推出迅速“走红”,受到了国内外广泛关注,同时打破了ChatGPT在大语言模型方面的垄断地位。可以预见,DeepSeek未来会在经济发展、社会治理与生产生活模式等各个领域迅速应用。从金融市场投资角度,业界与学界非常关注DeepSeek 与 ChatGPT 谁可以更好地分析投资信息,准确预测股票市场与宏观经济走势。
论文链接:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4660148

论文标题:ChatGPT与DeepSeek:是否可以预测股票市场与宏观经济(ChatGPT and Deepseek: Can They Predict the Stock Market and Macroeconomy?)

论文作者:厦门大学经济学院与邹至庄经济研究院、教育部重点研究基地厦门大学宏观经济中心副主任陈坚教授,湖南大学金融与统计学院金融科技与工程系、高性能分布式账本与数字金融教育部重点实验室唐国豪副教授,美国密苏里州圣路易斯华盛顿大学奥林商学院周国富教授,清华大学经济管理学院祝武助理教授

简介:聚焦于如何运用 Deepseek 与ChatGPT捕捉投资信息,从而对股市宏观经济进行预测。基本结论显示,ChatGPT反映了宏观基本面信息,但是利好消息的反映不足。DeepSeek可以更好地模拟投资者行为,特别是对宏观基本面利好消息产生的乐观情绪。二者的差异导致DeepSeek捕捉的投资信息迅速传导至股票市场,而ChatGPT识别的利好消息对股市影响具有滞后性。该文在SSRN下载量超过2000多次,得到包括花旗银行、美国银行在内的众多金融机构的关注。

1.研究方法

1.1 数据收集

从 Factiva 的道琼斯历史新闻档案获取 1996 年 1 月至 2022 年 12 月 Wall Street Journal 的头版新闻数据(含头条、商业金融快讯)构建文本语料库。

1.2 模型选用

利用 ChatGPT-3.5、ChatGPT-4 和 DeepSeek-R1 等大语言模型进行研究。通过设计特定的 prompt 引导模型对新闻进行情感倾向的定性分析。

选用 BERT 和 RoBERTa 等语言模型与 ChatGPT-3.5 作对比。前者模型无法直接通过 prompt 判断新闻的情感倾向,研究采用人工分类的新闻数据集(含 300 条新闻)与模型微调的方式,训练它们学习新闻分类的特征,再进行情感倾向的判断。

1.3 文本分析

    借助模型对头条进行分类,判断其为好消息、坏消息或未知,得到不同类型新闻的占比,作为后续分析预测的关键指标。新闻比率的时间序列如下(可以看出其对金融危机、新冠病毒等重要事件的捕捉):

注:chatgpt判断新闻比率的事件进展

    对 ChatGPT-3.5、BERT 和词表法识别的新闻进行词频分析。先清洗头条数据,去除数字、标点和停用词,还原词形,再计算词频并排除低频词,以探究三种方法对金融市场信息的捕捉能力。

1.4 股市收益预测

    文章构建了用于预测股票市场收益的系列回归模型(包括单变量回归模型、加入控制变量的回归模型以及控制滞后市场收益的回归模型),用于检验多种方法提取的文本信息对股市收益的预测能力。各回归模型通过不同变量设定与分析,探究新闻比率与股市收益间的关系及影响因素。具体如下:

    • 单变量回归模型

    其中代表当前市场超额收益,当时,为同期回归;时,代表市场组合从的平均超额收益,此时为预测回归。表示新闻比率,是每月坏消息的比例,是每月好消息的比例。该模型用于检验 ChatGPT 提取的文本信息对股票市场收益的预测能力,假设为,即 ChatGPT 估计的文本信息缺乏预测能力,备择假设为非0,表明其具有预测能力。

  • 加入控制变量的回归模型

    此模型在上述单变量回归模型基础上,加入了由 Welch 和 Goyal(2008)提出的 14 个经济变量作为控制变量,以探究的预测能力是否只是反映了这些潜在的经济变量。实际分析中,为避免共线性问题,使用这些变量的前五个主成分进行控制。

  • 控制滞后市场收益的回归模型:

    鉴于与同期收益显著相关,该模型加入当前市场收益作为控制变量,以确定观察到的的可预测性并非源于股价的延续性。

1.5 宏观经济预测

    以宏观经济变量为因变量,新闻比例为自变量进行回归,分析多种方法取的文本信息对宏观经济条件的预测情况。具体如下:

    • 单变量回归模型

    其中代表未来时刻的宏观经济状况变量,如工业生产增长(IPG)、恐慌指数(VIX)等。该模型用于分析新闻比率对宏观经济变量的预测能力。

1.6 市场对新闻反应机制探究

    市场对新闻的反应机制原理主要基于投资者对新闻性质的认知差异、信息处理能力和市场环境等因素的综合作用,这些因素导致投资者对新闻的敏感度存在差异,信息不确定时的判断不同,受到经济环境和新闻新颖性带来的影响。因此,文章将经济活动状态、经济政策不确定性、新闻新颖性作为指标纳入回归模型进行研究,有助于理解投资者对不同类型新闻的关注程度、反应速度以及信息处理方式,尝试揭示市场风险溢价的变化规律,为各类投资提供基准。具体如下:

    • 单变量回归模型

    投资者对市场消息的反应存在差异。面对坏消息,投资者更为敏感,反应迅速,使得坏消息与当前市场回报呈负相关,且难以预测未来回报;而经ChatGPT识别的好消息,与市场回报正相关,具备一定预测能力,但市场对其反应迟缓。这种现象与市场涨跌规律以及投资者在期权交易中的风险对冲行为相符。在经济低迷时期,投资者对未来经济增长预期较低,ChatGPT识别的好消息对市场的预测能力更为突出。构建回归模型:

        借助芝加哥联储全国活动指数(CFNAI)构建经济状态指标变量,以此深入剖析经济活动状态与预测能力之间的关系。

      • 加入控制变量的回归模型

        当市场信息存在不确定性时,投资者倾向于更重视坏消息,而对好消息持怀疑态度,进而导致市场对好坏消息的反应出现偏差。这种偏差在一定程度上影响了市场对各类消息的有效吸收和反馈。构建回归模型:

        运用经济政策不确定性(EPU)指数构建指标变量,通过控制经济政策不确定性这一因素,更准确地探究其对预测能力的影响。

      • 控制常规变量的回归模型

        新闻的新颖程度是影响市场反应的重要因素。当新闻内容与过往报道差异较大时,ChatGPT识别出的好消息对市场的预测能力会显著增强,这反映出市场对新颖信息的特殊反应机制。构建回归模型:

        构建新闻相似度指标变量,通过控制新闻新颖性这一变量,详细分析其对预测市场收益能力的作用机制。   

    1.7 稳健性检验

        基于研究目的、大语言模型特点以及过往研究经验综合考量,本研究通过调整 prompt 搭配微调实现优化。prompt 变换如下:

    注:prompt 变换检验

    1.8 样本外测试

        通过样本外评估预测的有效性和可靠性。

      • 预测流程

        选取1996年1月至2005年12月为初始样本期,基于此估计月度预测回归方程,用ChatGPT – 3.5提取的好坏新闻比率,于2006年1月生成首个样本外预测。之后不断重新估计回归方程,按公式持续构建月度样本外预测,直至2022年12月样本期结束。

      • 评估指标

        采用Campbell和Thompson(2008)的和Clark和West(2007)的MSFE调整统计量。衡量预测回归相对于基准预测的均方预测误差(MSFE)的比例reduction,基准为样本期开始至t月的平均超额收益。通过MSFE调整统计量检验的原假设和的备择假设,判断预测回归是否在MSFE上有显著改进。

    1.9 经济价值评估

        对预测结果进行经济价值评估,量化其预测能力转化为实际投资收益的程度。

      • 投资策略构建

        从资产配置角度,考虑均值 – 方差投资者利用预测回报在风险股票和无风险债券间决策。每月末重新平衡投资组合,根据公式计算股票权重,其中风险厌恶系数、股票超额收益预测值和方差预测值,且权重限制在 0 到 1.5 之间,防止卖空和限制杠杆。

      • 经济价值计算

        确定投资组合的实际回报,计算组合的确定性等价收益(CER),其为无风险收益与风险溢价的差值。CER 收益为使用预测回归预测的 CER 与使用历史平均预测的 CER 之差,乘以 12 代表投资者为获取预测回归预测愿意支付的年度投资组合管理费。同时计算年化夏普比率,进一步评估投资绩效

    1.10 前瞻性偏见

        在使用 ChatGPT-3.5 识别新闻时可能存在前瞻性偏见,即部分预测是由使用未来信息训练的模型做出的。本研究通过论证排除了前瞻性偏见的担忧。

    2.结果分析

    2.1 股票市场预测

      • 基准回归模型单变量回归显示,ChatGPT – 3.5 识别的坏消息比率与当前市场回报负相关,对未来回报无预测力;好消息比率与当前和未来 6 个月内市场回报显著正相关,说明其能提取未被投资者察觉的好消息,信息融入股价有延迟。DeepSeek 识别的消息对未来股价无预测力。

      • 比较其他文本分析方法Loughran 和 McDonald(2011)词表法及 BERT、RoBERTa 模型对股市回报预测能力较弱,ChatGPT – 3.5 在提取股票市场信息上表现突出,具备“涌现能力”  。

    注:各语言模型好坏消息词分布云图

      • 比较宏观经济预测指标加入常见经济变量和滞后市场回报作为控制变量后,ChatGPT – 3.5 提取的好消息比率预测能力独立于现有经济变量和股价趋势。

      • 稳健性检验:用替代提示、微调 ChatGPT – 3.5 和 ChatGPT – 4 分析,ChatGPT – 3.5 预测能力稳健,ChatGPT – 4 在预测股票回报上无明显优势。

      • 样本外表现ChatGPT – 3.5 提取的好消息比率样本外拟合优度为 1.17%且显著,有经济意义;坏消息比率单独无法预测市场,与好消息比率结合可提升预测效果。

    注:累积平方预测误差的差异

      • 经济价值从资产配置看,基于 ChatGPT – 3.5 好消息比率的预测能为 Mean-Variance Investor 带来较为显著的经济收益,扣除交易成本后仍可观。

      • 前瞻性偏差检验对比 ChatGPT – 3.5 和 BERT 预测性能、分析 2021 年 10 月后新闻比率预测能力及比较 GPT – 3.5 和 GPT – 4 预测结果,表明 ChatGPT – 3.5 预测能力并非源于前瞻性偏差。

    注:与 Bert 的样本外比较

    注:每周样本外预测误差

    2.2 宏观经济预测

      • 宏观经济关联ChatGPT – 3.5 识别的好消息比率与未来宏观经济状况正相关,坏消息比率相反,能捕捉宏观经济信息;DeepSeek 坏消息比率与宏观经济变量大多显著相关,好消息比率预测能力有限,且 DeepSeek 更擅长捕捉投资者情绪成分,ChatGPT 信息与基本面更相关。

      • 对新闻的不对称反应依据理论,通过分析专业预测者调查数据,发现坏消息比率与当前经济预期显著负相关,证实投资者对不同类型新闻的不对称反应,表明 ChatGPT 处理正面新闻能力优于人类投资者。

    注:与 SPF 预期的关系

    2.3 市场对新闻反应机制

      • 与经济状态的交互以 CFNAI 为经济状况代理变量构建模型,经济低迷时 ChatGPT – 3.5 识别的好消息比率对市场回报预测能力更强。

      • 与经济政策不确定性的交互用 EPU 指数衡量信息不确定性,高 EPU 时期好消息比率对市场回报预测能力显著增强。

      • 与新闻相似性的交互采用 Tetlock(2011)方法衡量新闻新颖性,经济新闻新颖时好消息比率对市场回报预测能力更明显。

      3.经济解释

      3.1 宏观经济关联

          依据跨期资本资产定价模型(ICAPM),市场超额收益和宏观经济状况紧密相关。假设 ChatGPT – 3.5 从新闻中提取的信息,能够反映宏观经济基本面的情况。将工业生产增长(IPG)、恐慌指数(VIX)、金融压力指数(KCFSI)、实际 GDP 增长(GDPG)等多个宏观经济指标,与 ChatGPT – 3.5 识别的消息比率进行回归分析,发现 ChatGPT – 3.5 识别的坏消息比率,与 VIX、KCFSI 等呈正相关,意味着坏消息越多,市场波动和金融压力可能越大;与 IPG、GDPG 等呈负相关,即坏消息增多时,工业生产和 GDP 增长可能受到抑制。而好消息比率,则与未来较高的工业生产、GDP 增长等呈正相关,与市场波动和衰退概率呈负相关。这充分证明了 ChatGPT – 3.5 能够有效地从新闻文本中捕捉宏观经济信息。

      注:从DeepSeek的β系数可见其对好坏消息更敏感

          对比 ChatGPT、DeepSeek、词表法和 BERT 模型,发现 ChatGPT 在预测宏观经济变量方面,表现要更优。DeepSeek 虽然能捕捉新闻与投资者情绪的关联,但在预测宏观经济基本面和股票市场走势方面,能力相对有限。

      3.2 消息反应差异

          根据 Epstein 和 Schneider 在 2008 年提出的理论,投资者在面对质量不确定的信息时,会偏离标准的贝叶斯信念更新模式,往往更看重负面信息,对正面信息则相对轻视。

          本研究分析了专业预测者对经济基本面的预测数据,发现坏消息比率与当前经济预期之间存在显著的负相关关系。这一结果证实了投资者对坏消息更为敏感,也体现出 ChatGPT 在处理好消息方面具有一定优势,进而解释了市场对好消息反应迟缓的现象。

      3.3 利好消息预测能力

          经济周期的不同阶段,会影响市场对消息的反应。研究以芝加哥联储全国活动指数(CFNAI)作为经济状况的代理变量构建模型。结果显示,在经济低迷时期,ChatGPT 识别的利好消息比率,对市场回报的预测能力更加突出。

          信息的不确定性会干扰投资者对信息的理解。研究采用经济政策不确定性(EPU)指数来衡量信息的不确定性,发现在 EPU 指数较高,即信息不确定性较大的时期,利好消息比率对市场回报的预测能力会显著增强。

          消息内容的新颖程度,会影响投资者对信息的处理效果。研究构建回归模型,评估消息新颖性对市场回报的影响。结果发现,当经济消息与之前的报道差异较大,即新颖性较高时,利好消息比率对市场回报的预测能力更为明显。

      4.研究结论

          研究发现,ChatGPT 更好地获取了宏观基本面信息,从而可以预测股票市场;而 DeepSeek 更准确地捕捉到了投资者情绪,更好地模拟了投资者行为,股票市场会对DeepSeek分析的信息做出迅速反应。特别是,DeepSeek很好地模拟投资者对于宏观面的利好消息做出的乐观反应。


      (文:Datawhale)

      欢迎分享

      发表评论