查看原文
其他

为什么说不可能用模型准确地预测出PMI指数?

竹杖芒鞋观烟雨 丹江湖上钓鱼翁 2024-07-07
撰写于2024年1月30日。
核心观点:理论上来说,有两个因素导致无法用模型准确预测PMI指数。一是生产指数、原材料库存指数在PMI中的权重只有35%;其他分项指标占65%,但没有合适的高频数据可用。二是国家统计局发布的PMI指数是季节调整后数据。要对它拟合模型,就必须把解释变量都进行季节调整,而用SARIMA模型进行季节调整时,时间序列末端的观测值季调结果不准确,无法用于预测。退一步说,即便我们自己的季调结果是绝对准确的,所得预测值也与统计局发布的PMI指数对不上(因为统计局没有把PMI指数中的季节性剔干净)。
用中国PMI指数构建AR模型、ADL模型,发现ADL模型的拟合效果比AR模型明显改善,但预测值依然是不可信的。卖方同行过往的拟合结果也是类似地不可信。建议放弃用模型预测PMI指数,改为根据工业品生产量、开工率高频数据主观判断。

国家统计局在每月最后一天发布当月制造业PMI指数,反映当月前25天制造业企业的生产经营状况。
从理论上说,利用主要工业品的高频(日、周)生产量或开工率数据,可以在月底之前提前预测出PMI指数。可以利用的高频指标通常包括:半钢胎开工率、高炉开工率、商品房成交面积、水泥价格、乘用车销量、独立焦化厂开工率。例如XYZQ宏观2022年9月曾经用厂家零售乘用车销量、国内独立焦化厂开工率、半钢胎汽车轮胎开工率等来拟合PMI。另外还可以用金融指标作为解释变量。例如GTJA宏观认为M2(-6)和3mShibor(-12)对PMI长期趋势有较好的拟合效果,因而可以向前预测6个月的PMI数据。FZZQ宏观2023年6月借鉴BIS 2019年的论文《金融条件与PMI:探讨二者之间的关系》,把美元指数、股指环比、信用利差作为解释变量。
不过,我认为,从理论上说,PMI的编制方法决定了,它是无法用模型准确预测的。
一、PMI编制方法的两个特点,决定了无法用模型准确预测它
国家统计局发布的制造业PMI指数,包括生产、新订单、原材料库存、从业人员、供应商配送时间、新出口订单、进口、采购量、主要原材料购进价格、出厂价格、产成品库存、在手订单、生产经营活动预期等分项指数。
但是,经过仔细分析和尝试之后,我们发现,编制PMI的两个重要特点决定了,无法用高频数据来准确预测它:
第一,总PMI指数中,生产指数占比低
PMI指数是用五个分项指数的加权平均组成的。

PMI=30%新订单+25%生产+20%从业人员+15%(100-供应商配送时间)+10%原材料库存


我们能够得到的高频数据主要是生产量和原材料库存数据,它们在PMI中合计只占35%。其他三项(新订单、从业人员、供应商配送时间)占到了65%,但都没有高频数据。这样就无法预测出PMI指数。
那么能不能预测生产指数?也不能,具体见本文最后一部分。
第二,季节调整导致的问题。
国家统计局在收集好调查问卷、汇总好原始数据后,会用季节调整软件 NBS-SA进行季节调整(但不剔除疫情影响),然后再编制PMI指数。但它剔除得不干净。例如图1中,蓝线是国家统计局发布的PMI指数,红线是我们对该指数再次进行季节调整得到的结果(使用了按央行方法编制的三个虚拟变量,但未剔除疫情影响)。可见,PMI指数每年春节的影响都未剔除干净。 

图1 国家统计局发布的PMI指数季节性未剔除干净

资料来源:国家统计局;自己计算


为什么说季节调整会给预测造成困难呢?这是因为:
【1】既然PMI指数是经过季调的(虽然没调干净),我们就得先把高频数据转换成月度,然后进行季调,算出季调环比或同比,然后作为解释变量,来解释PMI指数。这里有个技术问题:季调模型背后是SARIMA模型,其中在计算移动平均值时,对数据序列末端(即最新的观测)计算不准确,导致SARIMA模型对数据序列末端调整不准确,即数据末端的季节调整结果是不可信的。
关于这个问题,我以前专门讨论过(点击。当时我举了国家统计局发布的社会消费品总额、工业增加值季调环比的例子。例如2022年5月15日国家统计局发布的工业增加值季调环比是-7.08%,此后每月进行修正,12个月之后修正为0.16%(表1中粉红色那一行),跟-7.08%天壤之别。换言之,时间序列末端的季调环比是不可信的。
这意味着,我们在对高频数据进行季调时,得到的末端(最后几个)数据也是不可信的。受春节期间剧烈波动的影响,每年1、2月尤其不可信。而这个末端数据恰恰是利用估计方程(模型)进行预测的依据。换言之,我们要把解释变量的一期不准的观测值,代入模型,算出被解释变量的预测值。这样当然得不到准确的预测值,即便模型是完美的,也不可能得到准确的预测值;何况受限于数据质量,不可能拟合出完美的模型。
表1  国家统计局每月对工业增加值季调环比的修正% 

资料来源:国家统计局网站

【2】如前所述,统计局发布的PMI指数中,季节性没剔干净,尤其是春节影响没剔干净。因此,即便我们季调得到的时间序列末端数据是可信的,并且拟合出了完美的模型,预测出了准确的PMI指数,这个预测值与统计局发布的PMI指数可能也是不匹配的。
总之,从理论上来说,不可能准确预测出国家统计局的PMI指数。不过我们还是做了一些尝试。下面展示出这些模型,来说明为什么确实不行。
二、方法1:拟合自回归模型(AR)
既然对数据进行季节调整时,末端数据不准确,不适合作为PMI指数的解释变量。那么一个自然而然的思路就是:拟合一个自回归模型,用PMI指数来预测它自己。
我们选用2020年4月至2023年12月的PMI指数。这是因为统计局没有剔除疫情对PMI指数的影响,2020年1-3月PMI指数波动非常剧烈。选用2020年4月之后的数据可以避开这段影响。
首先用PMI指数本身构建自回归模型:

PMI = 17.057 + 0.9274PMI(-1) - 0.5743PMI(-2) + 0.3057PMI(-3)                (1)


R-squared只有0.5048,拟合效果很差(图2),显然不能用它来做预测。 

图2 用AR模型拟合的PMI指数
资料来源:自己计算

下面我们尝试用PMI同比来拟合模型,步骤是:
(1)用2020年4月至2023年12月的PMI指数减去50;然后以2020年4月为100,计算出定基指数;再计算出2021年4月之后的同比,称为“PMI同比”。
(2)为该“PMI同比”拟合AR模型如下:
PMI=2.0031PMI(-1)-1.8399PMI(-2)+1.1974PMI(-3)-0.4188 PMI(-4)

每个系数都在1%的显著性水平上异于0。R-squared=0.9819。DW统计量=1.9745,其他统计量也都很显著。
拟合结果见图3,看起来很完美。但是,把拟合结果转换成PMI指数,就会发现它与统计局发布的PMI指数相去甚远(图4),比图2好不了多少。这一点也不奇怪,因为同比接近的时候,环比可以差得很远。 

图3 用AR模型拟合的PMI同比
资料来源:自己计算 

图4 把AR模型拟合得到的PMI同比转换成PMI指数
资料来源:自己计算

我们用美国ISM的制造业PMI指数进行尝试,得到了类似的结果。总之,用PMI指数构建AR模型来预测PMI指数,不可能得到准确的结果。
三、方法2:拟合自回归分布滞后模型(ADL)
式(1)显示,2020年4月至2023年12月的PMI指数是一个AR(3)过程,R-squared很低。这意味着可以把其他因素纳入模型作为解释变量。现在我们退一步,忽略季节调整会导致末端数据不准确的问题,把如下变量也作为解释变量:
(1)98个城市拥堵延迟指数的季调环比,记为yd;
(2)粗钢产量月均值的季调环比,记为cg;
(3)螺纹钢、线材、热轧板卷、中厚板、冷轧板卷、镀锌板卷、彩涂板卷表观消费量之和的月均值的季调环比,记为gt;
(4)大秦线煤炭发运量月均值季调环比,记为mt;
(5)涤纶短纤综合开工率,记为dldx。
(6)独立焦化厂开工率,记为jhc。
(7)半钢胎开工率,记为bgt。
(8)规模以上工业增加值季调环比(自己计算的,不是统计局发布的),记为iva。
这样得到的模型是:
PMI = 10.3488 + 0.7864 PMI(-1) + 0.1051YD +1.2037IVA - 0.4893IVA(-1)
R-squared是0.7694,比式(1)明显提高。拟合效果见图5,明显好于图2。但是也没有好太多。这么高的R-squared,足以拟合出趋势,但不注意准确拟合出每个数据点。在45个观测中,有12个发生了方向性错误,占27%,略好于某同行的模型。 
图5 用ADL模型拟合的PMI指数 
资料来源:自己计算

此时预测得到2024年1月PMI指数是48.1。但是由于【1】拟合优度很低;【2】工业增加值环比、拥堵延时指数环比是我们自己季调的结果,末端(2024年1月)环比不可信。【3】工业增加值不是高频数据,2024年1月工业增加值本身也是我们用其他模型预测出来的(其实从逻辑上来说,既然已经预测出工业增加值,再预测PMI就没啥必要)。因此这个预测值是不可信的。
总之,我们尝试过AR模型和ADL模型之后,确认无法准确预测PMI指数。从图6看,市场对PMI的一致预期也经常不准确。 
图6  PMI指数的一致预期 
资料来源:自己计算

从同行看,也没能构建出漂亮的模型例如XYZQ宏观2022年9月用厂家零售乘用车销量、国内独立焦化厂开工率、半钢胎汽车轮胎开工率等作为解释变量,拟合得到的R方为0.87,预测PMI方向变动的准确率为65.7%。FZZQ宏观2023年6月把美元指数、股指环比、信用利差作为解释变量进行拟合,得到的R方是0.72。我认为这么低的R方和准确率,只能拟合出趋势,无法拟合出每个数据点。用于预测的话,是无法令人信服的。TFZQ策略2019年5月用发电耗煤拟合PMI,并且承认“虽然模型无法做到精确,但在方向上还是具有一定参考价值”。
四、结论
综上所述,从理论上和实际操作上,都无法准确预测出PMI指数。
前面提到:在PMI指数中,生产只占了25%的权重。由于制造业PMI与生产指数基本上是同步的(图7),如果能预测出生产指数,是不是就能判断出PMI指数的方向了?
理论上是这样,但不幸的是,生产指数也无法预测。因为预测它,也面临着本文第一部分说的问题:统计局没把季节性剔除干净(图7);对高频数据进行季调,末端数据不可信。

图7  PMI生产指数与总指数
资料来源:国家统计局;自己计算

不过本文并非没有价值。它的价值就是:此路不通,请绕道。如果未来统计局能发布未经季调的PMI,并且能发布更多完善的、高质量的、高频的、生产量方面的数据,可以再度尝试拟合PMI。
在此之前,建议还是根据生产量、开工率高频数据做主观判断,也就是“拍脑袋”。
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存