针对现有疲劳状态检测方法无法适用于疫情防控下的驾驶员,利用改进后的YOLOv5目标检测算法,对驾驶员的面部区域进行检测,建立多特征融合的疲劳状态检测方法. 针对公交驾驶特性,建立包含佩戴口罩和未佩戴口罩情况的图像标签数据. 通过增加YOLOv5模型的特征采样次数,提高眼、嘴、面部区域的检测精度. 利用BiFPN网络结构保留多尺度的特征信息,使得预测网络对不同大小的目标更敏感,提升整体模型的检测能力. 结合人脸关键点算法提出参数补偿机制,提高眨眼、打哈欠帧数的准确率. 将多种疲劳参数融合归一化处理,开展疲劳等级划分. 公开数据集NTHU和自制数据集的验证结果表明,该方法对佩戴口罩和未佩戴口罩情况均可以进行眨眼、打哈欠识别,可以准确地判断驾驶员的疲劳状态.
提出面向水下场景的图像语义分割网络,考虑到速度和准确度之间的权衡问题,网络采用轻量且高效的编解码器结构. 在编码器部分,设计倒置瓶颈层和金字塔池化模块,高效地提取特征. 在解码器部分,构建特征融合模块融合多水平特征,提升了分割的准确度. 针对水下图像边缘模糊的问题,使用辅助的边缘损失函数来更好地训练网络,通过语义边界的监督细化分割的边缘. 在水下语义分割数据集SUIM上的实验数据表明,对于320像素×256像素的输入图像,该网络在NVIDIA GeForce GTX 1080Ti显卡上的推理速度达到258.94帧/s,mIoU达到53.55%,能够在保证高准确度的同时,达到实时的处理速度.
针对球面手腕康复机器人的末端执行机构——共轴3RRR球面并联机构(CSPM)存在逆运动学解不完整性或无解析解的问题,提出基于欧拉角的逆运动学分步求解方法. 根据共轴球面并联机构的特性,可以将CSPM姿态欧拉角分解为绕Z轴和绕X、Y轴旋转的2个子姿态,求解绕X、Y轴旋转子姿态逆运动学解的集合. 选取每个关节逆运动学解集合中的较小值,与绕Z轴旋转的角度相加作为CSPM逆运动学解,利用CSPM正运动学验证了所提方法的正确性. 在真实手腕运动范围的基础上,以无连杆碰撞点和无奇异位形为约束条件,使用所提方法求解手腕康复装置的实际姿态空间. 在实际的姿态空间内,将提出的逆运动学求解方法与单位四元数相互转换,将单位四元数插补应用于CSPM运动规划中,理论计算结果与试验结果均为光滑的轨迹曲线,两者误差的最大值不超过2.5°.
针对考虑运输时间的柔性作业车间调度问题,以最小化最大完工时间为优化目标,提出自适应樽海鞘群算法. 设计基于随机密钥方法的3层编码方案,将编码的离散解空间连续化. 引入惯性权重评价跟随者之间的相互影响程度,增强算法的全局探索与局部搜索能力. 提出自适应更新领导者-跟随者种群数量策略,根据种群迭代状态对领导者和跟随者的数量进行自适应调整. 在邻域搜索中引入禁忌搜索策略,防止算法陷入局部最优. 通过基准算例测试,验证了算法的有效性和优越性,发现AGV数量对完工时间的影响符合边际效应递减的规律.
针对实际工业过程故障检测时存在误报警现象及易缺失部分时段质量数据的问题,提出在线监测动态内潜结构投影(OM-DiPLS)模型. 该模型通过引入时延的质量数据,使得在缺失部分时段质量数据时能够实现模型的更新. 为了更好地监控质量变量中不可预测的信息,基于OM-DiPLS模型提出在线监测动态内并行潜结构投影模型. 该模型将过程数据和质量数据投影到输入输出相关的协变子空间、输出无关但过程相关的输入主子空间、输入残差子空间、不可预测的输出主子空间及输出残差子空间,通过对各子空间构造相应的统计量,实现过程监测. 田纳西-伊斯曼过程仿真的实验表明,利用所提算法有效提高了质量相关故障的有效检测率,降低了质量无关故障的误报率.
为了解决SiamRPN++单目标跟踪算法在目标被短时遮挡及外观剧烈变化时定位不准确的问题,提出基于双注意力机制的多分支孪生网络目标跟踪算法. 采用具有轻量化主干网络的SiamRPN++为基础算法,结合轻量化的通道和空间注意力机制,提升跟踪过程中应对遮挡挑战时的抗干扰能力. 新增上一帧模板分支,动态更新目标外观变化,利用三元组损失增强跟踪过程中前景与背景的判别能力. 根据目标的移动速度进行局部扩大搜索,使目标被短时遮挡后仍可以及时、准确地跟踪到目标. 实验结果表明,改进后的算法在OTB100数据集的成功率和精确度较原算法分别提高了2.4%和1.6%,平均中心位置误差降低了28.97个像素,平均重叠率提高了14.5%.
为了准确地评估VR视频引起不适的程度,提出基于3D双流卷积神经网络的VR病评估模型. 模仿人类视觉系统的2条通路,建立外观流和运动流2个子网络;将2D-ResNet50模型改为3D模型,增加一个深度通道,用以学习视频中的时序信息. 加入3D-CBAM注意力模块提高了各帧通道之间的空间关联,增强关键信息,去除冗余信息. 采用后端融合的方法,实现2个子网络结果的融合. 在公开视频数据集上进行实验验证,结果表明,通过3D-CBAM注意力模块引入注意力机制,使得外观流和运动流网络的VR病评估精度分别提升了1.7%和3.6%,与现有文献相比,融合的双流网络模型的精度得到了较大的提升,精度达到93.7%.
定义“演变基因”的概念来捕获时间序列所隐含的用户行为,描述这些行为如何导致时间序列的产生. 提出统一的框架,通过学习分类器来识别片段的不同演变基因,采用对抗性生成器估计片段的分布来实现演变基因. 该模型有3个主要组成部分:基因识别,旨在学习片段的相应基因;基因生成,旨在学习从基因中生成片段;基因应用,旨在建模行为演变,将学习到的基因应用于未来值和事件的预测中. 本研究的实验基于1个合成数据集和5个真实数据集,相关结果表明,该方法不仅可以获得好的预测结果,而且能够提供对结果的有效解释.
为了解决点击率预测任务中现存的参数共享和计算耗费较高的问题,提出特征融合与分发的多专家并行推荐算法框架. 利用该方法不仅可以提高并行架构对不同类型特征的分辨能力,学习表现力更强的特征输入,还能够在显式特征和隐式特征之间进行参数共享,缓和反向传播期间的梯度,提高模型的性能. 该框架是轻量级而且与模型无关的,可以泛化应用在众多主流并行架构的推荐算法上. 在3个公共数据集上的大量实验结果表明,利用该算法框架,能够有效地提高SOTA模型的性能.
为了解决在遥感图像语义分割任务中存在的目标物体之间巨大尺度差异和丢失空间细节信息导致分割精度下降的问题,提出多尺度互注意力与指导上采样网络. 利用多尺度互注意力模块获得不同尺度图像之间的像素关系,平衡不同尺度物体的权重,提高小尺度物体的分割性能. 编码指导上采样模块利用编码结构中的信息,指导图像上采样的过程,融合空间细节信息,提升目标物体边界像素的分类效果. 在Potsdam数据集和Jiage数据集上的mIoU得分分别为85.52%和86.59%,较次优网络分别提升了1.32%和1.46%.
针对生成对抗网络生成字体存在笔画缺失、字形结构错乱、图像模糊与质量差的问题,提出改进zi2zi生成对抗网络的书法字生成算法. 在编码器中引入卷积核为1的残差块,提高生成器提取书法字体细节特征的能力,通过增加上下文感知注意力结构提取书法字体的风格特征. 在判别器中利用谱归一化增强模型的稳定性,避免因模型训练不稳定而带来的模式崩塌. 采用最小绝对误差L1范数约束生成字体边缘特征,使得字体轮廓更加清晰,最终生成2种风格的书法字. 颜真卿楷书与赵孟頫行书目标风格数据集的测试结果表明,提出算法的主观客观评价结果均优于对比算法,与zi2zi相比,峰值信噪比分别提高了1.58、1.76 dB,结构相似性分别提高了5.66%、6.91%,感知相似性分别降低了4.21%、6.20%.