话务量预测问题,是指通过精准的统计调查方法,以历史话务量数据为基础,从其内在蕴含的规律性与特点出发,运用科学有效的建模回归方法对未来某一时段的话务量进行预测。话务量的多少直接影响到移动通信网络的设计、规划以及运营情况,对于终端客户的服务质量具有决定性的影响。
目前对移动话务量预测常采用的方法为线性自回归移动平均模型(ARIMA)、人工神经网络(ANN)、支持向量回归机(SVR),其中线性自回归移动平均模型对训练数据具有较高的要求,具体为时间序列应具有正态分布、全局平稳等特征,然而在实际应用中,话务量的时间序列往往是不规则、非平稳且非线性的,因此线性自回归移动平均模型对于移动话务量的预测具有一定的缺陷。相比于线性自回归移动平均模型,人工神经网络具有较好的非线性预测能力,然而其对所需的训练样本数据数量较大,且易于陷入局部极值,因而导致最终的预测效果不稳定[1];支持向量回归机中相关参数的选择对于最终预测模型的泛化能力及预测结果,因此构建相关参数科学、合理的选取机制是基于支持向量回归机进行时间序列数据预测的一个关键问题[2,3]。
一、支持向量回归机模型
作为一种新型的机器学习方法,支持向量机(Support Vector Machine, SVM)的基本思想是构造一个恰当的非线性映射,将低维度的非线性函数映射至高维度的空间内。需要注意的是,对于支持向量机SVM的求解过程不需要事先对非线性映射的具体表达式进行表述,只需要选取合适的核函数即可,利用对核函数进行优化求解过程,将高维特征空间的点积转换为低维空间的核函数进行计算,从而避免了高维空间中求解所带来的维数灾难问题。可以说,核函数的选取是支持向量机应用中的一个关键问题,对于核函数的选取要求是其必须满足Mercer条件,此外应尽可能的准确反映训练样本数据点的分布特征。在支持向量机的实际应用中,大多选择多项式核函数、高斯径向基核函数以及Sigmoid核函数。
支持向量机在实际使用中性能的好坏取决于相关参数的选择,其中包括:正则化参数C,核参数σ,以及不敏感参数ε等。支持向量机目前在回归算法的应用及研究方面表现出了良好的性能,在宏观经济、工程应用如电力需求预测、证劵市场时间序列分析等方面均有成功的应用范例。
给定一组训练集合T={(xi,yi),i=1,2,…,m},其中xi∈Rn,yi=R,i=1,2,…,m。假设该组训练数据是按照Rn·R上的某一个分布P(x,y)所选取的独立且同分布的样本点,我们的目的在于试图寻找一个实值函数,从而实现以y=f(x)推断任意一组输入xi∈Rn所对应的的输出值y∈R,同时使得对训练集的期望风险值达到最小程度。
R(f)=∫c(x,y,f)dp(x,y)
其中c(x,y,f)是给定的损失函数。
二、蚁群算法
蚁群算法由Dorigo等在上个世纪90年代首次提出之后,在国际学术界引起了广泛的关注。作为一种人工智能仿生算法,其借鉴生物界中蚂蚁在觅食的过程中通过自身所释放出的信息素进行社会化沟通、交流及协作的机制,通过多次迭代过程实现对最优解的寻找。
下面以TSP问题为例,介绍蚁群算法ACO的数学模型。假定给定的城市数目为n,di,j(i,j=1,2,…,n)为第i个城市到第j个城市之间的距离,Bi(t)表示在t时刻,第i个城市上停留的蚁群数量,则有M=■B■(t)。蚂蚁的状态转移是依靠分布在城市路径上的信息素作为线索进行完成的。在具体的算法运行过程中,蚁群利用状态转移定律p■■(t)来选择具体的行进路径,从而到达下一个城市。在t时刻,p■■(t)的含义为
■
其中,allowedk表示蚂蚁k下一次迭代可选择的具体城市,α和β的作用为调节信息素和启发式信息重要性程度。从上面的式子可以看出,两个城市之间的距离愈小,则其对应的信息素浓度值愈高,这也就意味着蚂蚁从这两个城市之间进行移动的概率愈大。信息素的全局更新规则如下所示,其中ρ∈(0,1]为信息素的挥发因子。
■
■
参数是影响蚁群算法运行性能及效率的一个关键因素,算法的启发式因子α、期望启发式因子β、信息素残留因子1-ρ、信息素强度Q以及蚁群规模数M等等均是比较重要的参数,这些参数选取及配置的好坏直接影响到蚁群算法的全局收敛性及算法的运行效率。
三、基于蚁群算法优化支持向量机参数
支持向量机的预测精确度与其自身所选定的相关参数取值紧密相关,如惩罚参数、不敏感损失参数、RBF核参数等等。故而,通过蚁群优化算法在一定范围内对支持向量机的相关参数进行搜索寻优,寻找其最优组合配置,从而获得预测性能较好的支持向量机。蚁群算法作为一种新的仿生智能算法,其模拟社会化昆虫蚂蚁在觅食等活动中通过信息素进行相互交流以寻找最短路径的优化机制。
具体的算法优化流程如下:(1)算法初始化设置,设置最大迭代次数Mmax,且令M=0。(2)每只蚂蚁个体依靠轮盘赌方法,依次先后在每个集合中选择元素,直至所有的蚂蚁找到食物。(3)划分训练样本为相互独立且不包含的k个子集合S1,S2,…,Sk,其中Si为测试集合,其他均为训练集合,经过训练得到支持向量机的预测值平均误差,逐次循环过程,将每次所得到的结果平均,计算适应度值。(4)一旦达到所设定的迭代次数Mmax,则终止迭代过程,输出最终解,否则转到步骤(2)。
四、实验结果及仿真
以历史话务量数据为基础,构建相应地预测模型以对未来的话务量进行准确的预测,需要指出的是,在构建预测模型中我们忽略相关其他因素对于话务量的影响作用。话务量需求是一个收到多元素重叠影响的动态非线性系统,重大事件、活动及节日,异常天气等等均会造成话务量的异常。因此,本文在构建预测模型的过程中,充分考虑到了用户数、短信数以及系统的接通率对于最终话务量的影响。
对每日产生的话务量进行周期为一小时的统计调查,一天中则会产生24个话务量的数据值,分布对应于每日的0点到23点,以对每天的24个话务量数据中的Max值作为今日的最忙时话务量。本文的数据统计来源于某市的移动通信数据,其中包括2013年3月到2013年9月间随即选取的40天数据,其中每日的统计数据包含用户数、短信发送数、系统接通率、话务量值。其中前39日的数据作为预测模型的训练样本数据,第40日的数据作为测试样本数据。每个输入样本包含8个不同的变量值:前日的话务量值、用户数、短信发送量、系统接通率;前两日的话务量值、用户数、短信发送量、系统接通率。输出值为所预测当天的移动通信话务量。
图1和图2分别为采用高斯核函数及K型核函数构建的基于支持向量机的预测模型,由图可见,预测值与真实值之间的相对误差基本上控制在5%左右,最小可到0.01%,这说明该方法对于移动通信话务量的预测结果精度是比较高的。然而,选取K型核函数构建的预测模型其训练时间较高斯核函数的训练时间减少了将近50%左右,因此总体性能上K型核函数要优于高斯核函数。
五、结语
本文研究了基于蚁群算法优化支持向量机相关参数以构建预测模型,从而对移动通信话务量数据值进行预测,以某市的GSM网40天内的数据为研究对象,构建了基于支持向量机的预测模型。通过优化参数选取,对移动话务量进行了准确的预测,结果表明支持向量机对样本数据具有较好的学习及泛化能力。
参 考 文 献
[1] 陶乃勇,蒋建忠,昃草心. 神经网络在移动话务量预测中的应用研究[J]. 山东通信技术,2008,28(1):9-12
[2] 王少军,刘琦,彭喜元,等. 移动通信话务量多步预测的 LS-SVM 方法研究[J]. 仪器仪表学报,2011,32(6):1258-1264
中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。