深度学习周报（3.30~4.5）

张开发

• 2026/6/7 15:11:47 • 15 分钟阅读

分享文章

目录摘要Abstarct1 文献阅读《Enhanced spectrum convolutional neural architecture: An intelligent leak detection method for gas pipeline》1.1 背景1.2 方法论1.3 创新点1.4 实验结果及分析2 补充STFT2.1 定义2.2 原理与数学表示2.3 局限与应用领域3 总结摘要本周主要阅读了《Enhanced spectrum convolutional neural architecture: An intelligent leak detection method for gas pipeline》这篇论文了解了其将声学信号作为基础数据、结合频谱增强与 CNN 架构对甲烷泄漏进行检测的核心方法与创新其次基于论文对短时傅里叶变换进行了拓展学习了解了其原理、局限与应用领域等知识点同时回顾了部分之前学习过的内容。AbstarctThis week, I mainly read the paper titled Enhanced spectrum convolutional neural architecture: An intelligent leak detection method for gas pipeline, gaining an understanding of its core method and innovations, which involve using acoustic signals as the foundational data and combining spectrum enhancement with a CNN architecture for methane leak detection. In addition, based on this paper, I further studied the short-time Fourier transform, learning about its principles, limitations, and application areas, while also reviewing some previously covered material.1 文献阅读《Enhanced spectrum convolutional neural architecture: An intelligent leak detection method for gas pipeline》链接Enhanced spectrum convolutional neural architecture: An intelligent leak detection method for gas pipeline - ScienceDirect1.1 背景天然气管道泄漏在工程实践中经常发生不仅浪费能源还会引发严重的安全和环境隐患。传统的泄漏检测通常需要经过数据采集、降噪、特征提取和分类诊断四个步骤比较割裂。数据采集通常会得到振动、声学或图像类原始数据其中声学类有着传播距离长、非接触测量和无盲区等优势故本研究选定其作为原始数据。然而现有的降噪算法难以处理工业现场中复杂的背景噪声人工提取音频特征又高度依赖专家的先验知识这就导致模型在面对新的工业环境时需要重新设计泛化能力大打折扣。1.2 方法论为了解决上述问题突破传统机器学习分类器和普通深度学习模型的局限本研究提出了一种结合频谱增强Spectrum Enhancement与卷积神经网络的新型端到端架构即SE-CNN。在数据输入与预处理上该方法首先采集受外界干扰较小的超声波频段音频信号随后通过核心的频谱增强模块对其进行短时傅里叶变换提取出特定频段的时频子矩阵并通过二维离散卷积操作在矩阵上滑动过滤以达到凸显泄漏的平稳信号并消除背景非平稳噪声的目的。在网络架构上经过增强处理的数据会输入到一个受 VGGNet 启发但更为轻量化的 CNN 网络中该网络包含 9 个卷积层和 4 个池化层同时为了有效防止模型过拟合并降低计算负担使用全局平均池化层替代了传统的全连接层。1.3 创新点该研究的核心创新在于频谱增强模块与 CNN 的结合将传统检测步骤中的降噪、特征提取和分类诊断三个步骤集合为一个系统仅需接收原始声音数据即可直接输出是否泄漏的诊断结果。其中频谱增强模块主要采用短时傅里叶变换不仅在数据进入网络前有效抑制了背景干扰还能大幅压缩数据体积通过引入全局平均池化和 Dropout 机制该架构在保持网络深度的同时大幅削减参数量赋予了模型极为出色的鲁棒性。1.4 实验结果及分析论文在真实管线主管道直径125mm分支25mm上采集了6类不同状态即无泄漏/微小泄漏/大泄漏等并混合强弱背景噪声的数据进行测试。首先对频谱增强效果进行了定性与定量两个方面的验证发现采用频谱增强技术的效果优于不采用提高其值可以使频谱更强但谱的大小会相应缩小可能导致关键信息的丢失。其次在卷积架构中不同步幅S对 SE-CNN 的性能影响不大值较大则在显著缩短训练时间同时可能伴随丢失关键信息的风险核的个数K) 主要取决于 S当 K≥2S 时频谱增强后的矩阵相邻元素之间的差值会减小从而削弱频谱的特征。最后对比了 SVM、CNN 与 SE-CNN 的效果SE-CNN 在各类任务中的平均准确率达到了 94.3%。尤其在条件最为苛刻的强背景噪声环境下其准确率依然逼近九成显著优于 SVM 与普通 CNN 充分验证了该算法在工业抗干扰应用中的巨大价值。2 补充STFT2.1 定义短时傅里叶变换Short-time Fourier Transform, STFT是一种时频分析方法能够将一维的时间序列信号转化为二维的时频矩阵从而更清晰地反映原始信号在不同时间和频率上的特征。在前面学习量子傅里叶变换时了解到傅里叶变换FT主要是提供了一种全新的视角来理解复杂信号。具体而言假设有一杯由橙汁、苹果汁和葡萄汁混合而成的果汁普通视角下只会感受到复杂的味道在傅里叶变换的视角下则能知道这杯混合果汁里包含了多少橙汁、多少苹果汁与多少葡萄汁。对于这种频率不随时间变化的信号平稳信号傅里叶变换已然足够但对于频率随时间剧烈变化的信号非平稳信号它却力有不足为了了解频率随时间演变的过程短时傅里叶变换出现了。2.2 原理与数学表示STFT 主要原理是将一个长信号切分成许多个等长的短片段并假设在极短的时间窗口内信号是平稳的。其步骤大概是首先用一个特定的窗口函数如汉宁窗、高斯窗截取信号的一小部分即加窗对这一小块信号进行快速傅里叶变换得到该时刻的频率分布接着将窗口向后移动一段距离并重复前面的步骤直至结束最后将所有片段的结果按时间顺序排列形成一张二维的网格图。对于连续信号其公式为其中为输入的原始信号f 为频率为中心位置在的窗函数。它的结果直观表现为时频图也是理解声音或波形的常用工具通常横轴代表时间纵轴代表频率颜色或者亮度则代表能量的大小振幅下图就是前篇论文中利用短时傅里叶变换得到的一个时频图例子2.3 局限与应用领域STFT 的局限性在于其时间和频率分辨率不可兼得。对于短时间窗口窄窗由于其时间切割较细在得到精准变化的时间点的同时傅里叶变换采样点变少频率精度变差对于长时间窗口就相反能够将频率看得很准但无法确定变化的具体时刻。因此在实际应用中需要根据信号特征来选择合适的窗函数长度。它主要应用于语音处理、音频分析、工业检测和医学等领域进行语音识别、音色分析、声学信号处理或分析脑电图之类的工作。3 总结本周主要阅读了一篇论文并基于论文对不了解的知识点即短时傅里叶变换进行了拓展。在论文的导论部分给检测的每个步骤都罗列了一些方法感觉后面可以补充学习同时论文列出了成本函数、梯度下降、F1分数等许多公式也让我顺带回顾了一下前面的知识。

深度学习周报（3.30~4.5）

最新文章

Mac Mouse Fix终极指南：让你的普通鼠标秒变苹果触控板！[特殊字符]

mysql事务什么时候需要回滚_mysql异常处理解析

虚拟线程在Spring WebFlux中偷偷泄露数据库连接？深度剖析ThreadLocal跨虚拟线程失效的5类隐蔽漏洞，立即修复！

别再傻傻分不清了！一张图看懂NI USRP和Ettus USRP的区别与选型

从“鱼与熊掌”到帕累托最优：NSGA-II算法如何帮你做更聪明的决策？

2026年高并发AI应用架构指南：5款主流大模型API中转服务性能横评与接入实战

推荐文章

相关文章

分享文章

更多文章

Windows下OpenClaw安装全攻略：千问3.5-9B一键对接

Zynq PS端I2C避坑指南：为什么你的读操作总是失败？

高云GW2A-LV18PG256C8 FPGA在工业通信与数据采集中的实战应用解析

亚洲首个！港理工硕士一作发文Nature子刊（IF 15.1 ），机器学习新思路大放光彩| 一周好文汇总

深入剖析mini-swe-agent：100行核心代码如何实现高效编程助手

Win10家庭版用户必看：彻底关闭Hyper-V和Device Guard让VMware Workstation 16流畅运行

Qwen3.5-9B-AWQ-4bit视觉理解实战：10个高频办公场景的图文处理案例

OpenClaw备份策略：Qwen3-4B模型配置与技能数据的定期归档

面向 LLM 的程序设计 4：API 版本化与演进——在「模型会记忆旧文档」前提下的兼容策略

RMBG-2.0 GPU算力弹性调度：K8s中根据负载自动扩缩容抠图Pod

YOLO12与YOLO11对比：新一代模型在精度和速度上有哪些提升？

Qwen3-ASR-0.6B惊艳效果展示：22种中文方言混合音频精准切分与转录实录