图像融合
Last updated on May 12, 2024 pm
融合方法分析
下面列了一些相关领域的作者写的文章可供参考:
图像融合分类
根据图像表征层次的不同,图像融合可以分为三个层次的融合:像素级融合、特征级融合、决策级融合。
图像融合的目的:图像增强,提高图像的分辨率和清晰度;增强图像的相关特征;补充相关信息,去除噪声和冗余;提高下游任务的精度和性能等。
像素级融合
直接对单幅图像的像素点进行融合(信息综合)。
由于原始图像规模很大(一个普通的小低分辨率图像可能都有几十万个像素点),直接处理像素很费时,且传感器采集的数据不经过各种处理可能会影响融合效果,对硬件设施的要求也很高(配准的精度要求),像素信息易受到污染(含有噪声等干扰),融合效果不稳定。
特征级融合
对图像特征进行抽取,将边缘、形状、轮廓、局部特征等信息进行综合处理,再在特征层面进行融合。
图像的特征是一种代价处理,降低了数据量,保留了大部分的“重要”信息,但是会损失部分细节信息。但是可操作性强,运用各种方法更加灵活多样。
决策级融合
在每种传感器独立完成决策或分类的基础上,将多个传感器的识别结果进行融合做出全局的最优决策。
需要根据一定的规则对提取特征和识别后的图像进行决策综合,获得融合图像。决策的输入是对目标的认识框架,认识框架是通过传感器观测同一场景目标后经过预处理、特征提取、识别的基本处理后形成的。对改框架通过最优化决策得到融合结果。
决策级是趋向智能逻辑的,综合多传感器的识别结果比单一识别更精准,但会增加误差和风险(传感器的错误会累加)。
我个人不是很明白决策级融合是什么意思,我的猜想是决策级融合在传感器采集信息后就进行了融合的初步操作,然后经过综合得到融合结果,不需要像像素级和特征级那样,由自行设计的算法和模型进行特征提取、融合。此外,我发现在有些论文中,像素级融合和特征级融合并没有明确的界限。
实验
对比试验
与其他SOTA方法进行对比,在多个不同数据集上验证,证明本论文中所述方法的有效性和先进性。
对比指标:各种融合指标、下游高级视觉任务的相关指标、计算效率(轻量化)、视觉效果(可视化)等。
消融实验
分别去掉某关键模块(idea),与完整方法的效果进行对比,验证本方法所述模块(策略、模型或算法)的必要性。
参数实验
确定模型中神经网络超参数Hyperparameters的最佳配置,并分析这些参数的作用。
部分指标
1.融合
- AP(Average Precision),平均精度,指所有图片中具体某一类P-R曲线下的面积
- mAP(Mean Average Precision),均值平均精度,指所有图片中所有类别的AP的均值,用的较多
2.检测
- IoU(Intersection over Union),交并比,指ground truth bbox与predict bbox交集面积占两者并集面积的比率
bbox指的是bounding box。IoU越大说明预测框的模型算法性能越好。
3.分类
以二分类为例介绍分类问题的一些常用评估指标。
混淆矩阵Confusion Matrix中的计算单元:
- 真正例TP(True Positive):预测结果为正例,真实结果也为正例
- 假正例FP(False Positive):预测结果为正例,真实结果是反例
- 真反例TN(True Negative):预测结果是反例,真实结果也是反例
- 假反例FN(False Negative):预测结果是反例,真实结果为正例
总样例数:\((Num)_{total} = TP + FP + TN + FN\)
错误率\(ER\):被错分的样本数占总样本数的比率:\(ER = \dfrac{FP+FN}{(Num)_{total}}\)。注:\(1-ER\)等于精度。
精确率(Accuracy):精确率是最常用的分类性能指标,用来表示模型的精度,即模型识别正确的样本数/样本的总个数:\(Acc = \dfrac{TP+TN}{(Num)_{total}} = 1-ER\)。一般情况下,模型的精度越高,效果越好。
正确率或准确率(Precision):又称查准率。预测出的正例中,真正的正例(真正例)所占的比率。\(P = \dfrac{TP}{TP+FP}\)。
召回率(Recall):又称查全率、真正例率TPR。预测正确的正例(真正例)占所有真实正例的比率。\(R = \dfrac{TP}{TP+FN}\)。
分类报告Classification Report,由一些评估指标对模型进行综合评价。指标如下。
Precision、Recall,上面已经介绍过。
F1-Score,F1分数,对查准率和召回率的综合考虑。查准率和召回率是一对矛盾的指标,一般查准率高时召回率低、召回率高时查准率低。\(F_1 = \dfrac{2\times P\times R}{P+R}\)。
Macro avg,宏平均,所有类别的F1进行简单算术平均。
Weighted avg,加权平均,所有类别的F1进行加权平均,考虑了各个类别所占的比重。
P-R曲线,依据Precision与Recall绘制的曲线,能直观显示学习器在样本总体上的查准率\(P\)和查全率\(R\)。P-R图纵轴是查全率P,横轴是查准率R,P = R的点是“平衡点” BEP(Break-Even(收支平衡) Point)。
ROC曲线,全称为“受试者工作特征”。ROC图纵轴是TPR(True Positive Rate,真正例率),横轴是FPR(False Positive Rate,假正例率),能反映学习器对样本学习后预测结果的好坏。曲线下方的面积AUC能反映学习器的整体性能。
TPR = Sensitivity(灵敏度) = TP / (TP + FN)
FPR = 1 -
Specificity = FP / (TN + FP)
Specificity(特异度) = TN / (TN + FP)
特异性指标,表示模型识别为负类样本的数量占总的负类样本数量的比值。
融合展望
当前多模态图像融合具有的几个挑战:
- 配准数据构造难。由于镜头畸变、尺度差异、视差以及拍摄位置的影响,输入图像都无法实现严格的空间对齐。现有方法依赖配准的多模态数据进行训练和测试,人工配准空间不对齐的不同模态图像具有较高的人工成本和配准难度。
- 复杂的多模态数据。真实场景和环境中,多模态数据复杂多样,具有不确定性、不一致性和数据噪声。现有的图像融合算法大多是基于正常成像场景设计的,极端环境下信息获取不充分,如夜间、雨雾、过曝、欠曝等极端问题需要被重视。
- 融合模型的轻量化。图像融合通常作为高层视觉任务的预处理手段或摄影设备的后处理过程,对实时性有一定要求。现有的多模态图像融合模型大多都含有大量的参数,计算量和存储负担大,不利于实时性的需求。在保障融合性能的前提下,开发轻量级的图像融合算法对扩宽图像融合应用场景具有至关重要的作用。