你的问题可以给出肯定的回答,重要性本来就是一个依赖于模型的指标,一些指标对模型A重要,但对B未必重要。
举个很简单的例子,在欧式距离中,量纲很重要,数值大距离就大数值小距离就小。而在余弦夹角表示距离时,量纲不重要,因为一除就约没了,重要的是两个向量的夹角。比如:
(1, 1, 1, 1)和(2, 2, 2, 2):
(2, 2, 2, 2)和(4, 4, 4, 4):
欧式距离翻倍余弦夹角不变。
对CNN来说,它自己可以学习模式,你筛过以后,可能把一些重要信息筛没了。比如以前分类问题中,一般认为嘈杂的背景对分类是起负作用的,把背景去掉要好很多。但几年前(左右)一篇用CNN做分类的文章结果表明,在ImageNet数据集上,把识别对象提取出来,放到不同的复杂背景中训练,准确率反而得到提升。
我在Valse上听的这个paper的报告,作者其实一开始想去背景的,后来发现这样结果更好,解释是测试带背景的,那么训练时在不同背景下,其实更多的学习到了目标的模式,而把嘈杂的背景部分忽略掉了。
这就是不同方法对数据要求的不同,所以这CNN上,不建议进行数据筛选,毕竟有稀疏性可以自动滤掉它认为不重要的数据。
python随机森林特征重要性原理_用随机森林进行特征重要性度量 筛选出来的重要特征是否只对该随机森林来说是重要的 而对其他模型不一定?...