# 基于卷积神经网络的环境声音识别系统

**Repository Path**: zgs/GIT_CNN

## Basic Information

- **Project Name**: 基于卷积神经网络的环境声音识别系统
- **Description**: 基于卷积神经网络的环境声音识别系统，语言python，模型框架：keras==1.12，声音提取函数MFSC，识别准确率最高可达90%，平均准确率86%，高于目前主流的环境声音识别系统。
- **Primary Language**: Python
- **License**: EPL-1.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 6
- **Created**: 2025-05-23
- **Last Updated**: 2025-05-23

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 基于卷积神经网络的环境声音识别系统

#### 介绍
  环境声音中包含的大量有效信息如果能合理的应用将会对于智能听觉的发展产生重要的影响。当下环境声音识别技术主要通过传统的特征参数提取算法与机器学习模型集成的方式进行识别，准确率低且不易应用于实际生活。伴随人工智能的快速发展，深度学习成为目前该研究领域的重要方向之一，其在对特征参数的自动提取能力方面相对于传统的机器学习而言具有显著的提升，同时模型对数据集的划分效果相对于传统的机器学习分类方法也有明显的提高。基于此，本文针对环境声音识别技术中最关键的声音信号特征提取算法与神经网络分类模型提出了改进的卷积神经网络模型与梅尔倒谱系数（Mel—frequency spectral coemcient，MFSC）特征参数提取算法集成的环境声音识别技术来改善现阶段环境声音识别准确率低的问题。本文主要工作如下：
  设计了梅尔倒谱系数与改进的卷积神经网络模型集成的环境声音识别系统，该模型由4层卷积、3层池化构成，通过ESC-10数据集、Keras框架对该模型进行训练，实验结果表明该模型准确率较低，为进一步提高该系统识别准确率，对数据进行分析后，首先通过时域增强与频域增强集成的方法对实验选用的数据集进行数据增强，并借助MFSC算法提取声音信号特征参数，模型搭建方式采用金字塔堆叠的思想进行搭建构建以便于提取声音信号更多细节特征，同时在前三层卷积层后进行池化操作在保留声音信号主要特征参数的同时提高模型运行速度，在模型每层神经元后通过Dropout正则化方式来避免模型过拟合，模型训练阶段通过余弦学习率衰减策略配合Adam优化器进行优化，实验数据集是ESC-10数据集。实验采用5折交叉验证，取前4折作为训练，最后1折作为验证，其模型最终的验证准确率达90.00%，相较于KNN、SVM、DNN、GMM等传统的语音识别技术准确率分别提高“22.75%，20%，22.25%，22.00%”。相较于DECASE1、DECASE2、DECASE3主流的环境声音识别模型在准确率方面分别提高“49.75%、5%、10%”。

#### 软件架构
实验平台为NVIDIA i7-1050显卡(4G显存) 及Intel COREi7-7th Gen处理器,本实验所用的语言为python语言，实验采用GPU加速库：NVIDIA-SMI 461.72、Driver Version: 461.72、CUDA Version: 11.2，实验系统为win10企业版系统，框架为keras深度学习框架。其中keras版本为1.12.