图像引导的深度补全是一项通过利用稀疏深度测量和RGB图像来估计密集深度图的任务;它通过估算深度来填充未测量的区域。由于许多深度传感器(如LiDAR和飞行时间相机(ToF))只能提供稀疏的深度图,这项任务变得尤为重要。随着深度信息在自动驾驶和各种3D应用中的广泛应用,深度补全已经成为一个重要的研究课题。近年来,随着深度神经网络的成功,基于学习的方法通过利用大量训练数据显著提升了性能。这些方法尝试融合多模态特征,如表面法线或提供重复的图像引导。尤其是,基于亲和性的空间传播方法被广泛研究。
图像引导的深度补全是一项通过利用稀疏深度测量和RGB图像来估计密集深度图的任务;它通过估算深度来填充未测量的区域。由于许多深度传感器(如LiDAR和飞行时间相机(ToF))只能提供稀疏的深度图,这项任务变得尤为重要。随着深度信息在自动驾驶和各种3D应用中的广泛应用,深度补全已经成为一个重要的研究课题。近年来,随着深度神经网络的成功,基于学习的方法通过利用大量训练数据显著提升了性能。这些方法尝试融合多模态特征,如表面法线或提供重复的图像引导。尤其是,基于亲和性的空间传播方法被广泛研究。
本文介绍了一个基于机器学习的眼疾识别系统,使用了ResNet18和ResNet18-NAM两种卷积神经网络模型来对眼底图像进行分类,以实现自动眼疾识别。通过对两个公开数据集 iChallenge-PM 和 眼病分类数据集 的部分数据进行处理,并将其调整为 224x224 的图像尺寸。文章重点研究了基于注意力机制的ResNet18-NAM模型,其中引入了NAM(归一化注意力机制)以增强模型的注意力计算能力。实验结果表明,ResNet18-NAM在准确率和模型效率上优于标准ResNet18,并且在多项指标上均表现出较好…
语音情绪识别是音频分类的一个重要应用场景,在机器人制造、自动化、人机交互、安全、医疗、驾驶和通信等领域具有高实用价值。本文利用飞桨框架实现的ResNet18模型,实现了6种语音情绪的识别。数据集包含6类情绪,每类50个样本,共300条数据。音频数据通过librosa库处理,并使用MFCC算法提取特征,转化为图片形式用于训练。模型训练过程展示了高准确率和低损失函数,最终测试模型的准确率为86.67%,展示了情绪识别的良好效果。
UWB(Ultra Wide Band,超宽带)信号与其他无线信号相比具有大带宽,功耗低,精度高,穿透能力强等特性,因此其在室内定位领域有着十分广泛的应用。与其他室内定位算法相比,基于UWB的室内定位算法的定位精度可以达到厘米级别,UWB室内定位算法的误差主要来源于NLOS(Non Line Of Sight,非视距)信号。本文采用CNN(Convolutional Neural Network,卷积神经网络)、FCN(Full Convolutional Network,全卷积神经网络)和ResNet(Resid…
分享编程实战经验|实战项目