火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转产生电能。在这一系列的能量转化中影响股票涨跌的洇素发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽锅炉的燃烧效率的影响股票涨跌的因素因素很多,包括锅爐的可调参数如燃烧给量,一二次风引风,返料风给水水量;以及锅炉的工况,比如锅炉床温、床压炉膛温度、压力,过热器的溫度等
数据分成训练数据(train.txt)和测试数据(test.txt)其中字段”V0”-“V37”,这38个字段是作为特征变量”target”作为目标变量。选手利用训练数据训練出模型预测测试数据的目标变量,排名结果依据预测结果的MSE(mean square error)
经脱敏后的锅炉传感器采集的数据(采集频率是分钟级别),根据鍋炉的工况预测产生的蒸汽量。
本次数据采用线性回归模型进行预测,首先查看一下数据
查看数据的缺失情况经确认并没有缺失值
本次鼡的是statsmodels模块,所以需要提取所有的字段由于字段过多,我构造了一个函数:
lst = [] #构造自变量特征名方便建模使用
通过model.summary()可以得到模型的一些信息(部分截图如下)
- R-squared:判决系数R平方,用来衡量自变量对因变量解释程度
- F-statistic:模型的F统计量,用来检验模型的显著性
- P>|t|:每个t统计量对應的概率值p,用来检验回归系数的显著性一般p值小于0.05,说明此变量是因变量的影响股票涨跌的因素因素
这里只留取了先关系数大于等於0.5的变量,再综合上面的t检验最终确定下1-v12,v14,v16v17,v24v27,v31v33,v37作为模型的自变量再根据这些变量建立新的模型
比赛是根据MSE评分的,这里我計算得出本次模型的MSE为0.55005
目测这个结果在排行榜中排到了90多名