摘要:
本文使用赛题提供的训练数据,对数据信息进行挖掘,最终建立平均信号接收功率预测模型,在华为云平台成功部署, 排名前 3%。
本文主要完成了以下几方面的工作:
数据观察与清洗。 本文通过特征分布信息可视化、多项地图信息可视化、 计算基本统计量等方式,对数据进行了宏观观察,获取了一些先验信息。随后, 从多个角度对数据集进行筛查,发现数据集无缺失值,一致性强,但存在若干异常。对异常点进行进一步分析讨论,最终确定了若干海拔异常点,由于异常点数量与数据集数量相比较小,直接对异常值进行剔除处理。最后将清洗后的数据集做了训练集与验证集的划分。
针对问题一,本文调查了 Cost 231-Hata 模型的详细资料,并从中选取出合适的基于专家经验的特征,结合数据集的几何信息、发射机工程信息、地物类型索引等信息为数据集设计了合适的特征,并阐明了构造理由。
针对问题二,本文从传统信道模型、数据集信息、算法生成三个方面构造特征,并进行筛选。 构造过程中, 查找了多个传统信道传播模型,并选取典型有效代表,从中构造合适的特征;在数据集上构造了几何信息特征,加入发射机工程信息、地物类型索引特征;对前两种方法构造出的单一特征进行多项式变换、对数变换、指数变换,从而丰富特征集。筛选过程中,使用方差、皮尔森系数、斯皮尔曼系数等指标评价特征,并结合随机森林算法为特征重要性评估,最终对四项排名取均值,获取了特征排名。
针对问题三,我们在比较后使用了五层神经网络作为本文主要模型,使用 leakyRelu 为激活函数,并添加 BatchNormalization 层,最终在在本地获得了 9.06 的验证集误差。
最后我们对我们的模型进行了评价总结,指出了不足。
关键字: 信道建模 特征工程 机器学习
A19102690029链接:https://pan.baidu.com/s/1WwGCdooVAZLpBKpe8J27hw
提取码:e8w2