CART算法对航空公司客户流失的应用

中国论文网 发表于2021-11-12 17:29:31 归属于航空论文 本文已影响338 我要投稿 手机版

       
中国论文网-lunwen.net.cn

  【摘要】为了降低客户的流失造成公司的巨大损失,构建了客户流失模型。通过航空公司的客户信息、数据预处理、属性规约、数据离散化以及样本选取构建数据集,并利用CART算法进行客户流失的预测,利用混淆矩阵和ROC曲线评估模型的性能,证明该模型的可行性和良好性,为航空公司开展持续改进的营销活动提供参考。

  【关键词】客户流失;分类预测;混淆矩阵;ROC曲线;CART算法

  1引言

  随着大数据时代的到来,航空公司掌握隐藏在数据的有价值信息成为获取商机的关键因素,客户流失是造成公司利润损失的重要原因。客户与公司保持的关系越良好,带给公司的利润就越高。但是不少客户成为新客户的同时,又有一大批的客户流失,一个老客户的关系维护比获取一个新客户的成本更小[1]。这就需要预测的方法,如何在客户即将流失前有效地发现,并对客户特征进行准确的分析,从而帮助营销部门确定可能流失的目标客户群体,制定有针对性的策略是关注重点。基于决策树建立航空公司客户流失模型,将具有不同特征的客户划分为不同客户类型,分析不同客户群体特征,为制定营销策略提供参考。

  2准备工作

  2.1客户流失类型

  由于不同的业务所对应的客户流失的定义不一,这里对客户流失类型的定义:把客户类型MEMBER_TYPE分为三类。第一类:第二年飞行次数和第一年飞行次数的比例大于或者等于90%的客户为未流失客户,标记为0;第二类:第二年飞行次数和第一年飞行次数的比例大于或者等于50%小于90%的客户为准流失客户,标记为1;第三类:第二年飞行次数和第一年飞行次数的比例小于50%的客户为已流失客户,标记为2.

  2.2预测客户流失的重要性

  获得新客户,一般需要在销售、市场、广告和人力等方面花费很多,然而大多数新客户白喉产生的利润往往不如流失的老客户。然而,在航空市场竞争日益激烈的今天,航空公司在客户流失方面应该引起自购的重视,如何改善流失问题,进一步提升客户的满意度。忠诚度是航空公司保持自身核心竞争力的一大关键因素。因此,航空公司要做好客户流失预测工作。

  2.3CART决策树

  决策树是由内部节点、分支和叶子组成一种树状结构。由根节点开始,叶节点结束。决策树在数据分类和预测中是最简单易懂的数据挖掘方法,同时也是一种非常有效的分类算法。CART算法可用于分类和回归,相对ID3算法和C4.5算法应用更加广泛,目前已经成功应用于医学疾病预测[2,3]、鱼种丰富度预测[4]、客户流失分析[5-7]、土壤湿度分析[8]等多个领域。

  3分析方法与过程

  大数据时代的迅猛发展,使得公司客户数据呈数量级增长,如何快速并有效地发掘隐藏在数据的价值,是公司必抓的重点之一。目前航空公司客户数据主要表现出为数据量大、属性多而余。由于客户信息包括了MEMBER_NO、GFFP_TIER、SUM_YR_1、SUM_YR_2等44个属性。从系统中直接抽取的数据不能直接表示客户的流失特征,需要对样本数据进行探索性分析与预处理,包括数据缺失值与异常值探索行分析,数据的属性构造、清洗和变换等、对已完成预处理的数据进行建模,构建客户流失模型、评估模型性能、调用模型实现实时诊断,逐渐完善该模型。

  3.1数据来源

  从某个航空公司抽取了2012-04-01至2014-03-31的客户数据,共有62,988条记录,其中包含了44个属性,由于篇幅限制,给出部分属性名称以及说明如表1所示。

  3.2数据探索性分析

  原始数据中存在大量的缺失值与异常值,需要分析数据的分布规律。数据探索结果如表3所示。原始数据中存在票价为空值,最小票价为0,最小票价折扣率为0,总飞行公里数大于0的情况。票价是空值可能是客户没有乘机记录,其他的可能是客户乘坐免费机票或者积分兑换造成的。原始数据中某些属性数据的取值范围差异比较大,为了消除数量级数据造成的影响以及数据变换的属性取值分级,所以需要对数据进行离散化(3.3.2小节提及)。

  3.3数据预处理

  客户流失分析一般是针对老客户而言,这里定义飞行次数FIGHT_COUNT大于6次的客户为老客户。由于客户类型MEMBER_TYPE是由第二年飞行次数以及第一年飞行次数的比例确定的,则第一年飞行次数等于0的记录不满足分母不为零的条件。发现数据中存在缺失值,原始数据中存在票价为空值,最小票价为0,最小票价折扣率为0,总飞行公里数大于0的情况。由于原始数据量很大,这类数据占比比较小,对于问题的分析影响很小,所以对这些记录直接删除,即删除票价为空的记录;删除票价是0、平均折扣率是0、总公里数大于0的数据。经过数据的简单处理后,剩余数据是31,272条记录。3.3.1属性规约原始数据中包含了太多的属性,选取客户的关键属性。即需要选取与MEMBER_TYPE相关性比较强的变量,计算不同的变量与MEMBER_TYPE的相关性。对原始数据集中数值型变量,通过双变量Pearson相关性检验来说明变量间的相关性。从44个属性中选取相关性比较高的20个属性(这里选取相关性的绝对值大于等于0.13),如表4所示。其他属性对MEM⁃BER_TYPE的影响很小,可以忽略不计,因此直接剔除。3.3.2数据变换数据变换目的是将数据转化成“合适的”格式,以便适应数据挖掘的需要。这里采用的是属性构造以及数据离散化,采用聚类算法的方式将除了客户级别、客户类型的其他属性分成3类。3.3.2.1属性构造为了降低属性的维度,通过原始数据计算以下指标。5)综上,最终确定的数据属性个数为12,第13列为标签列。3.3.2.2数据离散化通过聚类算法将数据集进行离散化处理,每个属性(除了客户级别)分成3类,其离散表如表5所示。3.3.3样本平衡对于训练的数据,数据正负样本比例并非一定是相同或等比的才是样本平衡。这里最终得到的数据一共31272条记录,标记为0的数据未流失客户为17396,标记为1的数据准流失客户是7252,标记为2的数据已流失客户是6624,样本比例大致是:2.6∶1∶1,决策树正负样本比例最佳时1∶2.5[9]接近数据样本最佳比例,所以直接用数据进行训练以及测试。

  4模型的建立以及实现

  混淆矩阵是表示真实属性与识别结果类型之间关系的一种常用表达形式,也是评价分类器性能的一种常用方式。经过数据准备工作,预处理后的样本数据达到了建模数据质量要求,在此基础上直接通过PYTHON包含的Scikit_Learn利用训练样本构造CART算法决策树模型,建立客户流失预测模型,默认叶子节点包含的最小样本数为2。选择10-fold交叉验证方式,即随机选择80%为训练样本,20%为测试样本,得到混淆矩阵,即可获得分类器的正确识别率和错误识别率。由图1可知,随机选择训练样本为25017,则整体分类准确率是(14998+6012+2977)/25017=95.88%。第一行说明,有12998个样本分类准确,占据99.04%,属于未流失客户,有141个样本被误判为准流失客户,有5个样本为误判为已流失客户;第二行说明,有6012个样本分类准确87.23%,属于准流失客户,有675个样本被误判为未流失客户,有205个样本被误判为已流失客户;第三行说明有2977个样本分类准确,占据99.87%,属已流失客户,有1个样本被误判为未流失客户,有3个样本被误判为准流失客户。三类客户类型的平均正确识别率为95.88%,说明该模型效果良好。

  4.1模型评估

  受试者工作特性ROC曲线[10]反映了分类器正确的体积概率,其值越是接近1说明该结果越好。为了进一步评估模型分类的性能,用测试样本对其采用ROC曲线进行评估,一个优秀的分类器所对应的ROC曲线应该是尽可能的靠近左上角。由图2可知,该模型效果优良,对客户流失预测是合理、准确的。

  4.2模型应用

  航空公司客户流失分析的最终目标是要给公司的营销计划给予指导,从以下几方面进行阐述。由于本模型采用历史的数据进行建模与预测,对于新增的老客户信息,如果预测结果与实际情况差别大的话,需要航空公司重点分析,查看实际的原因以及确定模型的稳定性。如果模型稳定性变化大,则需要重新训练模型。一般建议每隔半年训练一次[11]。整个客户流失分析的过程应该是一个可持续循环利用的过程。确定客户类型,特别是准流失客户。可以通过客户流失概率来确定可能流失的客户,并对该客户群进行追踪与关怀。会员级别的升级与保留。如今对于会员级别的管理,基本是大同小异的。在航空行业,一般要求客户在规定时间,如一年,累计达到相对应的飞行里程或单位里程票价,达到此要求后在有效期内(通常为两年)可进行会员级别的升级,以便享受更人性化的服务。有效期结束时,根据一定的评价方式,对客户的级别进行调整。但是大部分客户往往不关注或者无法获取航空公司对会员级别调整制度,而导致错过以至于对航空公司的不满而转向在其他公司消费。因此,航空公司可以在有效期结束之前对即将满足评价要求的客户进行提示以及采取相应的促销,如降低折扣,刺激客户消费。积分兑换。航空公司可以通过累计的飞行里程或单位里程积分来兑换免机票或者升级舱位,特别是首次兑换,当达到航空公司的标准,首次兑换的力度往往会比其他营销活动力度要大。但是,航空公司也对客户积分的进行削减,一般会在年末进行清零,导致了很多客户好不容易积累的积分白白损失,总是难以达到首次兑换的标准,造成客户的不满。可以对即将满足首次兑换的客户进行提示或者进行促销活动,积分兑换实际上在一定程度上实现了成本转移,因为往往再次积分兑换的客户在本公司比在其他公司消费的可能性大。捆绑销售。增强与非航公司的合作,使得客户在其他公司消费的同时获得本航空公司的积分或其他福利。与客户的互动价值往往高于获取新客户的价值,也避免了客户流失的利润直接损失。

  5结束语

  论文利用CART决策树算法结合航空公司客户数据进行客户流失分析,研究航空公司客户流失的行为特征,利用属性构造等方式总结出客户流失的特征属性,根据CART决策树算法在航空公司的识别效果,采用ROC曲线进行模型评估,对客户进行建模分析能很好的预测其流失情况,利用CART决策树算法进行航空公司客户流失预测分析具有现实意义。

  作者:余思东 黄欣 单位:广西农业职业技术学院信息与机电工程系

中国论文网-lunwen.net.cn
返回航空论文列表
展开剩余(