语音增强原理之增益因子(增益效果)
itomcoil 2025-07-03 15:54 2 浏览
上次关于语音增强的原理讲说了噪声估计问题,这次打算说下增益因子如何确定,也就是当噪声已知后,如何进行去噪的问题(把增益因子与带噪语音相乘即可)。这里主要说下MMSE滤波,顺带说下谱减法、维纳滤波。当然也有其它方式来实现语音增强的,比如基于矩阵分解原理的子空间法、基于自适应滤波器的降噪,有的方法icoolmedia比较清楚,有的也还在学习之中,同时也欢迎各位朋友就不足之处批评指正。
先说下经典的谱减法。我们还是假设带噪语音y(n)由纯净语音x(n)和加性噪声d(n)组成,其时域表示与频域表示为
\[\begin{array}{l}
y(n) = x(n) + d(n) \\
Y(\omega ) = X(\omega ) + D(\omega ) \\
\end{array}\]
在语音增强领域中,最常使用的是频域功率谱形式,那么,带噪语音的功率谱可以表示为Y与其共轭相乘,展开可得
\[\begin{array}{l}
|Y(\omega ){|^2} = [X(\omega ) + D(\omega )][{X^*}(\omega ) + {D^*}(\omega )] \\
= |X(\omega ){|^2} + |D(\omega ){|^2} + X(\omega ){D^*}(\omega ) + {X^*}(\omega )D(\omega ) \\
= |X(\omega ){|^2} + |D(\omega ){|^2} + 2{\mathop{\rm Re}\nolimits} \{ X(\omega ){D^*}(\omega )\} \\
\end{array}\]
展开式的第三项被称为交叉项,当纯净语音与加性噪声不相关时,交叉项为0,那么,当我们已经估计出噪声信号的功率谱时,纯净语音信号的估值就可以表示为
\[|\hat X(\omega ){|^2} = |Y(\omega ){|^2} - |\hat D(\omega ){|^2}\]
根据线性滤波理论,可以将这个滤波过程建模为
\[|\hat X(\omega ){|^2} = {H^2}(\omega )|Y(\omega ){|^2}\]
综合以上两式,H可以表示为
\[H(\omega ) = \sqrt {\frac{{|\hat X(\omega ){|^2}}}{{|Y(\omega ){|^2}}}} = \sqrt {\frac{{|Y(\omega ){|^2} - |\hat D(\omega ){|^2}}}{{|Y(\omega ){|^2}}}} = \sqrt {1 - \frac{{|\hat D(\omega ){|^2}}}{{|Y(\omega ){|^2}}}} \]
这里的H,就是线性滤波系统的传递函数,在语音增强领域,通常也称为增益函数/抑制函数、或者增益因子/抑制因子,都是是同一个意思。另外,要注意,上面的这个增益因子表示只是一个理想的过程。因为当从带噪语音中减去估计噪声后,总会遗留一些或长或短的小谱峰,这些谱峰比较影响听感。这种现象就是出现了音乐噪声。因此,如果谱减法要实际使用时,必须做如下改变。
- 当对噪声估计过高时,就出现了过估计现象,很可能估计出来的噪声功率大于带噪语音的功率,这时,不能简单的把纯净语音的功率置0,而应该设置与噪声相关的一个谱下限值。设置谱下限的目的在于缩小遗留的小谱峰的差异,控制残留噪声的多少和音乐噪声的大小
- 人为的对噪声多减去一部分,这样做的目的是为了尽可能的减少小谱峰的遗留,避免音乐噪声。
经过这两方面的改变,谱减法具有如下形式:
\[|\hat X(\omega ){|^2} = \left\{ {\begin{array}{*{20}{c}}
{|Y(\omega ){|^2} - \alpha |\hat D(\omega ){|^2}} \\
{\beta |\hat D(\omega ){|^2}} \\
\end{array}} \right.\]
这里当存在语音时,用第一个式子,当没有语音存在时,就用下面的式子,其中,alpha就是过减因子,取为一个大于1的值,beta为一个远小于1的值,具体取值范围请参考Berouti等人的论文:Enhancement of speech corrupted by acoustic noise,这里不再详加叙述。
这时,当存在语音时谱减法的增益因子就变为
\[H(\omega ) = \sqrt {\frac{{|Y(\omega ){|^2} - \alpha |\hat D(\omega ){|^2}}}{{|Y(\omega ){|^2}}}} = \sqrt {\frac{{\gamma (\omega ) - \alpha }}{{\gamma (\omega )}}} \]
这里的gamma是后验信噪比,为带噪语音与噪声的功率之比。谱减法增益因子就说完了。频域维纳滤波的增益因子可以参考我以前写的博客一个频域语音降噪算法实现及改进方法中的内容,里面有详细的推导过程,这里就不详加叙述了。下面重点说下MMSE降噪算法是如何确定增益因子的。
MMSE估计器用在语音增强之中,就是在贝叶斯准则下估计出来的纯净语音频幅度与实际幅度的均方误差最小,因此,也可以称为贝叶斯MSE。而要做到这一点,我们可以充分利用带噪语音的先验信息来提高估计的准确性。即,假定我们已知信号的噪声DFT系数的概率密度,在此基本上,充分利用这种已知的先验信息,提高估计的准确性。因此,贝叶斯MSE用公式表示如下:
\[Bmse({\hat X_k}) = E[{({X_k} - {\hat X_k})^2}] = \int {\int {{{({X_k} - {{\hat X}_k})}^2}} } p(Y,{X_k})dYd{X_k}\]
我们来推导下使贝叶斯MSE最小的估计量,首先应用贝叶斯原理,联合概率密度可以写为:\[p(Y,{X_k}) = p({X_k}|Y)p(Y)\]
所以
\[Bmse({{\hat X}_k}) = \int {\left[ {\int {{{({X_k} - {{\hat X}_k})}^2}} p({X_k}|Y)d{X_k}} \right]} p(Y)dY\]
对中括号中的积分求导
\[\begin{array}{l}
\frac{d}{{d{{\hat X}_k}}}\int {{{({X_k} - {{\hat X}_k})}^2}} p({X_k}|Y)d{X_k} = \int {\frac{d}{{d{{\hat X}_k}}}} {({X_k} - {{\hat X}_k})^2}p({X_k}|Y)d{X_k} \\
= \int { - 2(} {X_k} - {{\hat X}_k})p({X_k}|Y)d{X_k} \\
= - 2\int {{X_k}p({X_k}|Y)d{X_k}} + 2{{\hat X}_k}\int {p({X_k}|Y)d{X_k}} \\
\end{array}\]
令等式等于0,得
\[{{\hat X}_k} = \int {{X_k}p({X_k}|Y)d{X_k}} = E[{X_k}|Y] = E[{X_k}|Y({\omega _0})Y({\omega _1})...Y({\omega _{N - 1}})]\]
在此我们假设傅里叶变换系数之音是统计独立的。因此上式可以表示为
\[{{\hat X}_k} = E[{X_k}|Y({\omega _0})Y({\omega _1})...Y({\omega _{N - 1}})] = E[{X_k}|Y({\omega _k})] = \int {{X_k}p({X_k}|Y({\omega _k}))d{X_k}} \]
可以看到,要想得到MMSE估计器,我们首先需要计算纯净语音第k个分量的后验概率密度函数,它可以通过贝叶斯准则得到:
\[p({X_k}|Y) = \frac{{p(Y({\omega _k})|{X_k})p({X_k})}}{{p(Y({\omega _k}))}} = \frac{{p(Y({\omega _k})|{X_k})p({X_k})}}{{\int {p(Y({\omega _k})|{x_k})p({x_x})d{x_k}} }}\]
这里xk是随机变量Xk的实际值。把上面这个后验概率密度函数表达式代入我们推导出来的MMSE估计器中
\[{{\hat X}_k} = E[{X_k}|Y({\omega _k})] = \int\limits_0^\infty {{x_k}p({x_k}|Y({\omega _k}))d{x_k}} = \frac{{\int\limits_0^\infty {{x_k}p(Y({\omega _k})|{x_k})p({x_k})} d{x_k}}}{{\int\limits_0^\infty {p(Y({\omega _k})|{x_k})p({x_x})d{x_k}} }} = \frac{{\int\limits_0^\infty {\int\limits_0^{2\pi } {{x_k}p(Y({\omega _k})|{x_k},{\theta _k})p({x_k},{\theta _k})d{\theta _k}d{x_k}} } }}{{\int\limits_0^\infty {\int\limits_0^{2\pi } {p(Y({\omega _k})|{x_k},{\theta _k})p({x_x},{\theta _k})d{\theta _k}d{x_k}} } }}\]
其中
\[\begin{array}{l}
p(Y({\omega _k})|{x_k},{\theta _k}) = \frac{1}{{\pi {\lambda _d}(k)}}\exp \left\{ { - \frac{1}{{{\lambda _d}(k)}}|Y({\omega _k}) - X({\omega _k}){|^2}} \right\} \\
p({x_x},{\theta _k}) = \frac{{{x_k}}}{{\pi {\lambda _k}(k)}}\exp \left\{ { - \frac{{x_k^2}}{{{\lambda _k}(k)}}} \right\} \\
\end{array}\]
代入MMSE估计器中,我们最终得到MMSE幅度谱估计器(推导过程请参考:语音增强-理论与实践中的附录B)
\[{{\hat X}_k} = \frac{{\sqrt {{v_k}} }}{{{\gamma _k}}}\Gamma (1.5)\Phi ( - 0.5,1; - {v_k}){Y_k}\]
其中,Γ(.)为伽马函数,Φ(a,b;c)为合流超几何函数,ξ为先验信噪比、最后一个式子为后验信噪比。
\[\begin{array}{l}
{v_k} = \frac{{{\xi _k}}}{{1 + {\xi _k}}}{\gamma _k} \\
{\xi _k} = \frac{{{\lambda _x}(k)}}{{{\lambda _d}(k)}} \\
{\gamma _k} = \frac{{Y_k^2}}{{{\lambda _d}(k)}} \\
\end{array}\]
最后,把合流超几何函数写成贝塞尔函数的形式,我们就得到了最终的MMSE估计器的表达式:
\[{{\hat X}_k} = \frac{{\sqrt \pi }}{2}\frac{{\sqrt {{v_k}} }}{{{\gamma _k}}}\exp \left( { - \frac{{{v_k}}}{2}} \right)\left[ {(1 + {v_k}){I_0}\left( {\frac{{{v_k}}}{2}} \right) + {v_k}{I_1}\frac{{{v_k}}}{2}} \right]{Y_k}\]
如果我们定义:
\[G({\xi _k},{\gamma _k}) = \frac{{{{\hat X}_k}}}{{{Y_k}}} = \frac{{\sqrt \pi }}{2}\frac{{\sqrt {{v_k}} }}{{{\gamma _k}}}\exp \left( { - \frac{{{v_k}}}{2}} \right)\left[ {(1 + {v_k}){I_0}\left( {\frac{{{v_k}}}{2}} \right) + {v_k}{I_1}\frac{{{v_k}}}{2}} \right]\]
的话,这里G就是我们要求的MMSE幅度估计器的增益。
另外想说一下,MMSE估计的推导思路我弄明白了,主要是通过参考《语音增强-理论与实践》、《统计信号处理基础-估计与检测理论》这两本书做到的,但关于合流超几何函数与贝塞尔函数的推导内容还没完全搞明白,如果不是对理论推导过程非常感兴趣的话,这里也没有必要深究,只要会使用这个结果就行了。
使用MMSE做语音增强,经典的出处应该是Speech enhancement using minimum mean-square error这篇论文,但里面讲的并不详细,这里尽可能的给出能让大家理解流程的推导。当然,如果感兴趣的话,icoolmedia还是推荐大家最好都认真看一遍上面提到的资料。
相关推荐
- 字节三面:MySQL数据同步ES的4种方法!你能想到几种?
-
如何进行数据同步MySQL是一种流行的关系型数据库,而Elasticsearch是一个强大的搜索引擎和分析平台。将MySQL数据同步到Elasticsearch中可以帮助我们更方便地搜索和分析数据。在...
- Java 连接 MySQL 数据库(java连接mysql课设)
-
一、环境准备1.1依赖管理(Maven)在项目的pom.xml中添加MySQL驱动依赖:<dependency><groupId>mysql</gro...
- Spring Boot 连接 MySQL 数据库(spring boot配置数据库连接)
-
一、环境准备1.1依赖管理(Maven)<!--方案1:JdbcTemplate--><dependency><groupId>org.sprin...
- java连接mysql数据库达成数据查询详细教程
-
前言:本篇文章适用于所有前后端开发者众所周知,只要是编程,那肯定是需要存储数据的,无论是c语言还是java,都离不开数据的读写,数据之间传输不止,这也就形成了现代互联网的一种相互存在关系!而读写存储的...
- 既然有MySQL了,为什么还要有MongoDB?
-
大家好,我是哪吒,最近项目在使用MongoDB作为图片和文档的存储数据库,为啥不直接存MySQL里,还要搭个MongoDB集群,麻不麻烦?让我们一起,一探究竟,了解一下MongoDB的特点和基本用法,...
- 用 JSP 连接 MySQL 登入注册项目实践(JSP + HTML + CSS + MySQL)
-
目录一、写在前面二、效果图三、实现思路四、实现代码1、login总界面2、registercheck总代码3、logoutcheck总代码4、amendcheck总代码相关文章一、写在前面哈喽~大家好...
- MySQL关联查询时,为什么建议小表驱动大表?这样做有什么好处
-
在SQL数据库中,小表驱动大表是一种常见的优化策略。这种策略在涉及多表关联查询的情况下尤其有效。这是因为数据库查询引擎会尽可能少的读取和处理数据,这样能极大地提高查询性能。"小表驱动大表&...
- mysql8驱动兼容规则(mysql8.0驱动)
-
JDBC版本:Connector/J8.0支持JDBC4.2规范.如果Connector/J8.0依赖于更高版本的jdbclib,对于调用只有更高版本特定的方法会抛出SQLFea...
- mysql数据表如何导入MSSQL中(mysql怎样导入数据)
-
本案例演示所用系统是windowsserver2012.其它版本windows操作系统类似。1,首先需要下载mysqlodbc安装包。http://dev.mysql.com/downloa...
- MySQL 驱动中虚引用 GC 耗时优化与源码分析
-
本文要点:一种优雅解决MySQL驱动中虚引用导致GC耗时较长问题的解决方法虚引用的作用与使用场景MySQL驱动源码中的虚引用分析背景在之前文章中写过MySQLJDBC驱动中的虚引用导致...
- ExcelVBA 连接 MySQL 数据库(vba 连接sqlserver)
-
上期分享了ExcelVBA连接sqlite3数据库,今天给大家分享ExcelVBA连接另一个非常流行的MySQL数据库。一、环境win10Microsoftoffice2010(...
- QT 5.12.11 编译MySQL 8 驱动教程- 1.01版
-
安装编译环境:qt5.12.11mysql8.0.28修改mysql.pro工程文件,编译生成动态库mysql.pro文件位置:D:\Alantop_Dir\alantop_sde\Qt\Qt5....
- 「Qt入门第22篇」 数据库(二)编译MySQL数据库驱动
-
导语在上一节的末尾我们已经看到,现在可用的数据库驱动只有两类3种,那么怎样使用其他的数据库呢?在Qt中,我们需要自己编译其他数据库驱动的源码,然后当做插件来使用。下面就以现在比较流行的MySQL数据库...
- (干货)一级注册计量师第五版——第四章第三节(三)
-
计量标准的建立、考核及使用(三)PS:内容都是经过个人学习而做的笔记。如有错误的地方,恳请帮忙指正!计量标准考核中有关技术问题1检定或校准结果的重复性重复性是指在一组重复性测量条件下的测量精密度。检定...
- 声学测量基础知识分享(声学测量pdf)
-
一、声学测量的分类和难点1.声学测量的分类声学测量按目的可分为:声学特性研究(声学特性研究、媒质特性研究、声波发射与接收的研究、测量方法与手段的研究、声学设备的研究),声学性能评价和改善(声学特性评价...
- 一周热门
- 最近发表
-
- 字节三面:MySQL数据同步ES的4种方法!你能想到几种?
- Java 连接 MySQL 数据库(java连接mysql课设)
- Spring Boot 连接 MySQL 数据库(spring boot配置数据库连接)
- java连接mysql数据库达成数据查询详细教程
- 既然有MySQL了,为什么还要有MongoDB?
- 用 JSP 连接 MySQL 登入注册项目实践(JSP + HTML + CSS + MySQL)
- MySQL关联查询时,为什么建议小表驱动大表?这样做有什么好处
- mysql8驱动兼容规则(mysql8.0驱动)
- mysql数据表如何导入MSSQL中(mysql怎样导入数据)
- MySQL 驱动中虚引用 GC 耗时优化与源码分析
- 标签列表
-
- ps图案在哪里 (33)
- super().__init__ (33)
- python 获取日期 (34)
- 0xa (36)
- super().__init__()详解 (33)
- python安装包在哪里找 (33)
- linux查看python版本信息 (35)
- python怎么改成中文 (35)
- php文件怎么在浏览器运行 (33)
- eval在python中的意思 (33)
- python安装opencv库 (35)
- python div (34)
- sticky css (33)
- python中random.randint()函数 (34)
- python去掉字符串中的指定字符 (33)
- python入门经典100题 (34)
- anaconda安装路径 (34)
- yield和return的区别 (33)
- 1到10的阶乘之和是多少 (35)
- python安装sklearn库 (33)
- dom和bom区别 (33)
- js 替换指定位置的字符 (33)
- python判断元素是否存在 (33)
- sorted key (33)
- shutil.copy() (33)