TDC 关闭

基于机器学习的后疫情时代中国民航客运量的预测研究

从2021年的情况看,民航旅客运输量比2019年下降1/3,回升动力仍不明显。

摘要

随着我国社会经济的不断发展,人们对于日常出行的需求逐渐从安全转移到舒适,因此,中国民航业在此大背景下有了长足的进步。但是好景不长,随着近年来的新冠疫情肆虐全球,中国民航业的发展也受到了一定的冲击,再加上不久之前发生的“3.21”东航MU5735航空器飞行事故,打破了中国长达12年的安全飞行纪录,人们对于以后出行是否乘坐飞机或多或少也有了新的看法。民航客运量不仅是反映民航业运输繁忙程度的参考,也是制定运输生产计划、研究运输发展的主要指标。所以使用科学的方法进行客运量的预测,就显得尤为重要,而由于上述种种原因,对中国民航客运量的预测也更具有实际意义。

文章首先从其他竞争运输方式、民航内部相关、宏观经济、旅游业发展状况四个方面的14个因素来构建影响中国民航客运量的因子指标,并运用多元逐步回归分析法最终确定了主要影响因素;然后利用训练数据对中国民航客运量构建灰色模型、机器学习模型以及组合模型,并且使用测试数据对三类模型的预测精度进行验证,通过构建模型评价体系来衡量模型的优劣,判定选取最优的模型进行预测。同时,我们针对预测结果,对民航提出相应的发展对策。

关键词:中国民航客运量;灰色模型;BP神经网络模型;机器学习;熵权法

一、绪论

(一)研究背景

2019年年末,当新冠疫情席卷全球时,各行各业都受到了不同程度的影响,其中以服务业为代表的第三产业所受损失首当其冲,如餐饮业、零售业、旅游业、运输业和民航业等行业都受到了重创。从2021年的情况看,旅游人数和收入比2019年分别下降了46%和48%,民航旅客运输量比2019年下降1/3,回升动力仍不明显。

伴随着近日来发生的“3.21”东航MU5735航空器飞行事故,短期内将会对我国航空业产生较大影响。首先是改变乘客的交通出行方式,至少短期来看,很多旅客都有可能选择高铁或者汽车出行。其次从2020年发生疫情以来,因为疫情的影响乘客大幅减少,航空业本来就受到了很大的重创,各大航空公司收入已经减少了很多,飞机事故会使各大航空公司更加雪上加霜。

综上所述,鉴于我国民航业近日来受到来自各方面自然以及人为因素的影响,科学合理地预测民航客运量就显得格外重要。

(二)研究意义

宏观意义:民航客运量的预测是科学合理地规划全国客运系统的重要前提。民航客运量的预测对于自身来说,能够更好地确定未来民航客运量的发展方向;同时,对于其他运输方式来说,可以分担它们客运量的压力。合理规划未来交通系统的设施,可以使中国的交通更好地顺应经济发展的趋势,对中国国民经济的正常发展起到重要影响。

微观意义:民航客运量的多少直接决定了一个航空公司的主要收益,也影响着航空公司今后的发展以及走向。预测民航客运量可以帮助各大航空公司科学的制定业绩目标,帮助其管理层有效的开展对下阶段工作的规划,使其对照自身现状找寻不足,更好地应对未来的机遇与挑战。

(三)文献综述

多年来,国内外学者纷纷对民航客运量开展了众多研究工作,成果颇丰。

1.国内方面,朱卫卫[1](2010)采用偏最小二乘法对民航客运量的影响因素进行定量分析;王沁昀[2](2018)在已有研究的基础上,采取主成分分析法对1996—2015年的统计数据建立回归模型。齐子薇[3](2018)针对民航客运量2016年6月—2018年4月的月度数据,采用应用时间序列分析方法进行建模分析,并对2018年5月客运量做出预测。

李伟,申浩等[5](2019)考虑到城镇居民消费水平、第三产业、经济政策等众多因素的影响,提出基于LSTM循环神经网络对民航客运量复杂的非线性时间序列预测方法。陈聪聪,李程,刘聪灵[6](2020)则是利用超极限学习机(ELM)的算法模型进行预测。张千露[7](2018)将我国1996-2016年的民航客运量作为研究对象建立6种模型,结合泰尔不等系数等指标构建了评价模型精度的体系,比较这些模型短期和中期的预测效果。

2.国外方面也有很多相关研究。例如Farzin和Nourzadeh[10](2020)等人使用BP人工神经网络预测了伊朗2020年的国际航空客运量,通过使用11个指数来判断划分出了与伊朗较为相似的国家,并用选取的这些国家客运量的加权平均值和相似百分比来进一步预测伊朗的国际航空客运量。

(四)文章创新点

1.统计建模方面:本文不仅选取了传统建模方式,而且采用了多种机器学习的建模方式进行对比,完成模型的拟合以及对民航客运量的预测,进一步提高了只考虑单一建模方式的精度。

2.研究视角方面:结合文献综述提到的各位前辈的研究成果,本文采用多角度对民航客运量进行分析预测。并且,我们选取了疫情下的相关数据,在建模过程中考虑了疫情对民航客运量的重大冲击。

3.政策效果方面:针对我们建立的模型,考虑了后疫情时代,疫情冲击的影响在逐渐降低,在此基础上,我们做出了对后疫情下民航客运量的预测,以及提出了对后疫情下中国民航的发展对策。

二、影响民航客运量的指标体系的构建

(一)影响民航客运量的因素

根据选取影响因素的三个原则--可获取性、相关性、可量化性,结合民航客运量的实际情况,参考邓洁君和罗利[13]等各位的文献,本文决定从竞争因素、民航内部因素、宏观经济水平、旅游业发展状况四个方面来构建影响指标体系。

说明:目前我国运输业主要是以公路运输、铁路运输、水路运输和航空运输四种方式为主。通过收集的数据来看,每年水路运输业的客运量都维持基本保持平稳,认为对本论文的研究影响不大,所以此变量不予选取。

(二)中国民航客运量的选取

1.指标数据的选取

本文以民用航空客运量(万人)——X0为解释变量,选取了14个变现良好、具有代表性的影响因素作为被解释变量,并且通过检验认为不存在内生性。

2.影响因素的相关性分析

本文对民航年度客运量进行预测分析时,为了更客观的检验我们所选取的这14个影响因素是否会出现与预测变量-民航客运量相关性较小的情况,我们运用SPSS对以上选取的14个变量进行的相关性分析,我们截取了部分结果进行展示:

本文依据偏相关系数的大小,以及p值对这些指标进行了筛选:

(1)竞争因素:对于公路和铁路的相关性分析,可以看出民航客运量和铁路客运量的相关性,比与公路客运量的相关性大。

(2)民航内部因素:从结果来看,民航内部的指标整体对民航客运量的影响都较为显著。

(3)经济因素:对于本文选取的4个宏观经济指标,除了居民交通消费价格指数不显著以外,其他三个因素均呈现显著的影响。

(4)旅游业发展状况:从旅游业来看,国内旅游总收入对民航客运量的影响最为显著。

三、实证分析

(一)中国民航年度客运量数据整理

本文所用到的中国民航客运量的数据,主要来源于国家统计局和中国民用航空总局等网站。我们搜索的数据集是从1990年至2020年31组中国民航年度客运量的数据组成。在之后的建模中,我们主要把数据集分成了两组,将1990年至2017年的28个数据作为训练数据用于模型的建立,将2018年至2020年的3个数据作为测试数据用于检验训练集模型的效果。

(二)中国民航客运量的灰色模型的构建

1.灰色关联度分析

我们选取了1990年至2020年31个的民航客运量数据以及上述过程中提到的14个影响因素数据进行灰色预测,民航客运量即为参考数列,14项影响因素为比较数列。

从结果上看,选取的14个影响因素与我国民航客运量之间都有着密切的关系,他们的关联度都在0.629-0.939之间,大部分的因素关联度都在0.8以上。可以明显的发现宏观经济因素和航空自身的因素对民航客运量的关联度较大,说明他们对民航客运量的影响更为显著;而对于其他竞争交通方式和旅游业发展状况的这些指标来说,虽然有着较强的关联度和相关性,但是综合来看,并未有宏观经济因素和自身因素对民航客运量的影响大,相对来说,关系没有特别密切。

2.灰色预测模型的建立

灰色预测是利用较小的样本,进行预测。本小节我们采用2011年到2020年一共10年的民航客运量数据,进行建模。对于灰色预测模型来说,训练集和验证集的数据个数要求一致,并且2015年是供给侧改革的实现点,对于此研究更有意义,能更好的对比供给侧改革对民航客运量的影响,所以我们采用2011-2015年的数据作为训练集样本,对模型进行建模;取2016-2020年的数据作为验证集,对上步建好的模型进行验证。

我们用2016年到2020年的数据记性模型验证,验证结果如下:

从结果上来看,当没有出现异常值的情况下,模型预测效果较好,误差可以接受;但是,当数据中出现异常值时,或者偏离趋势过多时,模型的估计误差较大。

3.GM(1,1)模型在描述单调的变化过程中变现良好,更适合对具有较强规律性的序列进行建模 [14],此次数据出现非单调的发展趋势,经过调试GM(2,1)会有更好的表现。采用python软件建立GM(2,1)的结果如下:

从此次结果来看,相比较GM(1,1),当数据出现偏离时,该模型可以及时捕捉到变化趋势,预测误差也有所改善。所以我们认为GM(2,1)的表现更好,可以采用此模型进行预测。

(三)中国民航客运量的BP神经网络模型的构建

1.数据的收集

我们初步筛选了14个指标作为影响客运量的主要因素,但是结合前面灰色预测的数据分析以及相关性的大小,我们除去了公路客运量、居民交通消费价格指数,选认为其余12个变量与中国民航客运量之间的相关性更显著,并且认为在经济学上影响更为显著。因此,在BP神经网络的建模中使用这12个影响因素作为输入层进行分析。

2.数据的准备与探索

在训练神经网络模型时,为防止模型由于数据量级的差异,在计算时出现饱和现象或造成误差过大,我们对原始数据采用了标准化处理,将所有的数据调制到0~1之间,然后再将这31年的数据分为训练数据和测试数据:1990年至2017年的28组数据作为训练数据,2018年至2020年的3组数据作为测试数据。

3.基于训练数据进行建模

我们采用经验公式[15]确定隐含层个数:

其中输入层节点个数(解释变量)a为12个,输出层节点个数(被解释变量)b有1个,c是范围 1~10 的常数。经过经验公式的计算,隐含层节点的取值范围是4~14。通过不断的尝试验证,我们发现当BP神经模型的隐含节点为5个时,模型的表现最优、误差平方和最小、相关系数最大。

4.评估BP神经网络模型的性能

我们使用MATLAB语言基于测试数据生成预测数据,进一步评估模型的性能。

由此表可知,该模型预测值与真实值之间的相关性大约为0.99168,可以认为该模型中解释变量和被解释变量之间具有一个非常强的相关关系。

5.BP神经网络预测结果的比较

由上面两个图,可以直观的看出无论是训练集还是测试集拟合效果都比较理想。我们将利用训练好的BP神经网络模型预测的数值、相对误差、绝对误差整理为下表。通过数据直观的说明了我们的模型预测效果较好。

(四)中国民航客运量的其他机器学习模型的构建

通过传统的灰色预测模型和BP神经网络机器学习模型,我们发现当遇到趋势突变的情况,传统的模型无法很好的对未来趋势进行预测。所以,本节我们利用其他机器学习构建模型,从而对未来民航客运量做出预测。

我们采用随机森林,梯度提升树(GBDT)、CatBoost、支持向量机(SVM)四个模型,结果如下:

(五)中国民航客运量的组合模型的构建

我们将这些机器模型进行训练和验证后,利用熵权法确定他们的比重,对不同机器学习下得到的模型进行组合。

我们利用2018-2020年的数据作为验证集,模型回归情况如下:

从拟合曲线以及相对误差的结果结果上看,传统的灰色预测无法更好的对未来进行预测,机器学习表现更加良好。此外,可以看到BP-SVM组合模型,在2020年面对疫情的冲击时,可以有更好的表现,但是可能综合三年的预测效果,BP神经网络构造的单一模型会表现更好一点。

(六)不同模型的预测结果的比较

通过灰色预测模型、BP神经网络模型、单一机器学习模型、组合模型的预测,得到了各模型的预测值。前期我们通过询问老师意见、查阅大量的相关文献资料并结合本次论文实际的研究对象,选择了绝对误差、平均绝对误差(MAE)、相对误差和平均相对误差(MAPE)这四个指标综合作为评判模型优劣程度的标准,比较四类模型的预测的效果。

虽然从相对误差的结果来看,在2020年组合模型表现更好一些,但是从平均绝对误差(MAE)、平均相对误差(MAPE)的结果来看,BP神经网络模型的这两个指标表现都是最佳的。

(七)中国民航客运量的预测

本文计划对2021年至2027年的中国民航年度客运量进行预测。利用整理好的1990年至2020年的31各年度数据,选用BP神经网络模型计算出预测值。

我们在对模型预测的时候,做出了一定的假设:在后疫情时代,我国的经济逐渐复苏,疫情对民航客运量的冲击逐渐减少。在上述假设的基础上,由BP神经网络预测2021年的民航客运量为44201.7488万人次。我们通过进一步的数据搜集,得到2021年的民航客运量的真实值为44000万人次。对比两者,可以更加直观的看出BP神经网络模型预测的误差为0.458%。通过对比预测数据,发现BP神经网络预测模型的误差仍然是最小的,进一步验证了此模型的可靠性和有效性。

从BP神经网络预测的结果来看,相比疫情发生之前,后疫情时代的民航客运量增长率不会有那么高,但是总体趋势还是比较客观。我们预计在2024年民航客运量会再次突破50000万人次,可能在2028年便会突破60000万人次,逐步恢复到2018-2019年的水平。

四、结论与对策

(一)结论

随着我国民航业及相关配套产业在我国经济运行中占比权重逐渐增大,预测民航客运量就显得尤为重要,因为它不仅是可以为交通运输部门提供更合理的交通运行规模的规划建议,保障民航企业正常、高效开展工作的前提,同时也在我国经济发展中有着至关重要的地位。

本文通过研究得出以下结论:

(1)就灰色预测系统而言:

人均GDP、居民消费水平等宏观经济指标方面与民航客运量的灰色关联系数更大,说明宏观经济对于民航业的发展尤为重要,民航业受宏观经济环境的影响很大;对比来看,其他竞争交通方式与民航客运量的灰色关联系数较小,说明两者之间关系相对疏远,这些因素对民航客运量影响的权重不大。

对于构建好的GM(1,1)和GM(2,1)模型,我们分别计算了预测数据的相对误差。当未出现重大突发事件之时,模型预测误差可以接受,但是当到2020年,遇到疫情时,我们明显发现模型无法很好的捕捉变化趋势,导致相对误差骤然增加,预测效果很不理想。

(2)就机器学习而言:

我们通过对BP神经网络、随机森林,梯度提升树(GBDT)、CatBoost、支持向量机(SVM)这五种机器学习分别对数据进行模拟和验证,又选取BP神经网络和支持向量机通过熵权法进行加权组合,得到BP-SVM组合模型。根据绝对误差、相对误差、平均绝对误差(MAE)以及平均相对误差(MAPE)这四个指标的综合表现,选定BP神经网络模型作为最终的预测模型。

通过模型的预测,我们计算了2021-2027年的预测值,增长值以及同比增长率。从数据中我们可以看出,在后疫情之下,民航的客运量呈现着稳步增长的趋势,虽然没有疫情之前的大幅增长,但是在面对疫情的冲击之下,只要民航采取合理的措施,相信民航的发展会更加的可观。

(二)中国民航发展对策

中国民航业要在后疫情时代实现可持续发展,需要扩大内需和消费,积极主动地寻求新的发展模式。尽管受到疫情的影响,中国民航业还是展现出了一定的韧性,这不仅仅是因为中国客观上存在着巨大的消费市场,更重要的是,中国民航业采取了许多创新的营销策略。这些战略在极大程度上扩大内需的同时,也带来了市场价格下移等重大问题。疫情的缓解并不是中国民航业成功突围的关键,整个行业的彻底变革、业务结构的优化和服务成本的降低才是达成全面深化民航改革的关键,才能进一步扩大有效供给,增强充分满足潜在需求的持续发展能力。

中国民航业要在后疫情时代实现可持续发展,需要重塑增长方式,在创新和融合发展上实现突破。这就要求行业不仅要在学习他国在后疫情时代的“自救”方式基础上,创新符合自身的生产方式和融合发展模式,还要扩大与其他行业的合作交流,在政策法规和社会治理方面实现突破,从而有效提升中国民航业的全要素生产率,更好地协调“安全与发展”的关系。

中国民航业要在后疫情时代实现可持续发展,需要全面推进智慧民航建设,以数字化转型带动行业高质量发展。党的十八大以来,党中央高度重视数字经济发展,深入实施网络强国战略和国家大数据战略,建设数字中国、智慧社会,加快推进数字产业化和产业数字化。《国民经济和社会发展“十四五”规划纲要》明确提出了建设智慧民航。数字化发展和实体经济的相互结合,才能更好地推进民航业的发展。(作者:陈苗双 李子欣 河南大学)

航旅新零售

航旅新零售(微信公众号ID:AirDS-):聚焦航空分销与服务领域,推动航旅新零售认知升级,助力航空零售转型和旅客服务数字化转型。

© 以商业目的使用环球旅讯拥有版权的内容,请遵循环球旅讯 版权声明 获得授权。非商业目的使用,请遵循 CC BY-NC 4.0

评论

请登录 参与评论
客服二维码

想获取更多内容或线索?

扫码添加学委,帮你支招!

微信
微博
QQ
微信扫码分享
打开微信扫一扫

微信扫码参与话题讨论