WAV文件分析C(libsndfile,fftw3)

2020-01-07 原文

我正在尝试开发一个简单的C应用程序,可以在WAV文件中给定时间戳的特定频率范围内为0-100提供一个值.

示例：我的频率范围为44.1kHz(典型的MP3文件),我想将该范围分为n个范围(从0开始).然后我需要得到每个范围的幅度,从0到100.

到目前为止我所管理的

使用libsndfile我现在可以读取一个WAV文件的数据.

infile = sf_open(argv [1],SFM_READ,&sfinfo);

float samples[sfinfo.frames];

sf_read_float(infile,samples,1);

然而,我对FFT的理解是相当有限的.但是我知道这是需要的,以获得我需要的范围的振幅.但是我该如何从这里继续前进？我发现了这个图书馆FFTW-3,这似乎是适合这个目的的.

我在这里找到一些帮助：https://stackoverflow.com/a/4371627/1141483

并在这里查看了FFTW教程：http://www.fftw.org/fftw2_doc/fftw_2.html

但是,由于我不确定FFTW的行为,我不知道从这里进步.

另一个问题,假设您使用libsndfile：如果强制读取单通道(使用立体声文件),然后读取样本.那么你实际上只会读取总文件的一半样本吗？其中一半是频道1,还是自动过滤？

感谢你的帮助.

编辑：我的代码可以在这里看到：

double blackman_harris(int n,int N){
double a0,a1,a2,a3,seg1,seg2,seg3,w_n;
a0 = 0.35875;
a1 = 0.48829;
a2 = 0.14128;
a3 = 0.01168;

seg1 = a1 * (double) cos( ((double) 2 * (double) M_PI * (double) n) / ((double) N - (double) 1) );
seg2 = a2 * (double) cos( ((double) 4 * (double) M_PI * (double) n) / ((double) N - (double) 1) );
seg3 = a3 * (double) cos( ((double) 6 * (double) M_PI * (double) n) / ((double) N - (double) 1) );

w_n = a0 - seg1 + seg2 - seg3;
return w_n;
}

int main (int argc,char * argv [])
{   char        *infilename ;
SNDFILE     *infile = NULL ;
FILE        *outfile = NULL ;
SF_INFO     sfinfo ;


infile = sf_open(argv [1],&sfinfo);

int N = pow(2,10);

fftw_complex results[N/2 +1];
double samples[N];

sf_read_double(infile,1);


double normalizer;
int k;
for(k = 0; k < N;k++){
    if(k == 0){

        normalizer = blackman_harris(k,N);

    } else {
        normalizer = blackman_harris(k,N);
    }

}

normalizer = normalizer * (double) N/2;



fftw_plan p = fftw_plan_dft_r2c_1d(N,results,FFTW_ESTIMATE);

fftw_execute(p);


int i;
for(i = 0; i < N/2 +1; i++){
    double value = ((double) sqrtf(creal(results[i])*creal(results[i])+cimag(results[i])*cimag(results[i]))/normalizer);
    printf("%f\n",value);

}



sf_close (infile) ;

return 0 ;
} /* main */

解决方法

这一切都取决于你的频率范围. FFT采用2 ^ n个样本,并为您提供2 ^(n-1)个实数和虚数.我不得不承认,我对这些价值所代表的东西真的很朦胧(我有一个朋友,承诺在我遇到财务问题时,代我提供了一笔贷款))围绕一个圆角.实际上,它们为每个频率仓的正弦和余弦提供角度参数的弧度,原始的2 ^ n个样本可以从中重建.

无论如何,这有很大的优势,您可以通过采用实部和虚部的欧几里德距离(sqrtf((真实*真实)(imag * imag)))来计算大小.这为您提供了一个非标准化的距离值.然后可以使用该值为每个频带建立一个幅度.

所以我们可以订单10 FFT(2 ^ 10).输入1024个样本.您可以FFT这些样本,并返回512个虚数值和实数值(这些值的特定顺序取决于您使用的FFT算法).所以这意味着对于一个44.1Khz的音频文件,每个bin表示44100/512Hz或〜86Hz / bin.

应该脱颖而出的一件事是,如果您使用更多的样本(在处理诸如图像的多维信号时,称为时间或空间域),您将获得更好的频率表示(在所谓的频域中).然而,你为另一个牺牲一个.这只是事情的发生,你必须要忍受.

基本上,您将需要调整频率仓和时间/空间分辨率以获取所需的数据.

首先有一点命名.我之前提到的1024个时域样本称为您的窗口.一般来说,当执行这种过程时,您将需要滑动一些窗口,以获得下一个1024的FFT样本.明显的做法是取样品0→1023,然后取1024→2047等等.不幸的是没有给出最好的结果.理想情况下,您希望在某种程度上与窗口重叠,以便随着时间的推移变得更平滑.最常见的人将窗户滑动一半窗口大小.即您的第一个窗口将为0→1023第二个512→1535等等.

现在这又带来了另外一个问题.虽然这个信息提供了完美的逆FFT信号重建,但它让您遇到一些问题,即频率会在一定程度上泄漏到环绕箱中.为了解决这个问题,一些数学家(比我更智能)提出了一个window function的概念.窗口功能在频域提供了更好的频率隔离,尽管导致时域信息的丢失(即它不可能在使用窗口函数AFAIK后,完美重构信号.

现在有各种类型的窗口函数,从矩形窗口(对信号无效)到提供更好的频率隔离的各种功能(尽管有些也可能会杀死您感兴趣的周围频率).唉,没有一个大小适合所有,但我是黑曼哈里斯窗口功能的大风扇(对于频谱图).我认为它给了最好的结果！

然而,如前所述,FFT为您提供了非标准化频谱.为了使频谱正常化(在进行欧几里得距离计算之后),需要将所有值除以归一化因子(更详细的说明here).

这种规范化将为您提供0到1之间的值.因此,您可以轻松地将此值乘以100,以获得0到100的比例.

然而,这不是它结束的地方.你从中获得的光谱相当不满意.这是因为您正在使用线性尺度来查看幅度.不幸的是,人耳听到使用对数刻度.这相当引起了光谱图/光谱的看法.

为了得到这个结果,您需要将这些0值转换为1(我称之为“x”)为分贝量表.标准转换为20.0f * log10f( x ).这将为您提供一个值,其中1已转换为0,0已转换为-infinity.你的数值现在在适当的对数尺度.但它并不总是那么有帮助.

此时您需要查看原始采样位深度.在16位采样时,您将获得一个介于32767和-32768之间的值.这意味着您的dynamic range是fabsf(20.0f * log10f(1.0f / 65536.0f))或〜96.33dB.所以现在我们有这个价值.

从上面的dB计算得出我们得到的值.将此-96.33值添加到它.显然最大振幅(0)现在为96.33.现在用同样的数值来表示,你现在有一个从-infinity到1.0f的值.将下限固定为0,您现在的范围从0到1,并将其乘以100,并且您的最终0到100范围.

而且这是一个比我原来想要的更多的怪物帖子,但应该给你一个良好的基础,如何为输入信号生成一个良好的频谱/谱图.

呼吸

进一步阅读(对于已经找到原始海报的人除外)

Converting an FFT to a spectogram

编辑：除了我发现亲吻FFT更容易使用,我的代码执行一个前进fft如下：

CFFT::CFFT( unsigned int fftOrder ) :
    BaseFFT( fftOrder )
{
    mFFTSetupFwd    = kiss_fftr_alloc( 1 << fftOrder,NULL,NULL );
}

bool CFFT::ForwardFFT( std::complex< float >* pOut,const float* pIn,unsigned int num )
{
    kiss_fftr( mFFTSetupFwd,pIn,(kiss_fft_cpx*)pOut );
    return true;
}

WAV文件分析C(libsndfile,fftw3)的更多相关文章

基于EJB技术的商务预订系统的开发

用EJB结构开发的应用程序是可伸缩的、事务型的、多用户安全的。总的来说，EJB是一个组件事务监控的标准服务器端的组件模型。基于EJB技术的系统结构模型EJB结构是一个服务端组件结构，是一个层次性结构，其结构模型如图1所示。图2：商务预订系统的构架EntityBean是为了现实世界的对象建造的模型，这些对象通常是数据库的一些持久记录。
js中‘!.’是什么意思
InnoDB 和 MyISAM 引擎恢复数据库，使用 .frm、.ibd文件恢复数据库
Error: Cannot find module ‘node:util‘问题解决

控制台安装 Vue-Cli 最后一步出现 Error: Cannot find module 'node:util' 问题解决方案1.问题C:\Windows\System32>cnpm install -g @vue/cli@4.0.3internal/modules/cjs/loader.js:638 throw err; &nbs
yarn的安装和使用(全网最详细)

一、yarn的简介：Yarn是facebook发布的一款取代npm的包管理工具。二、yarn的特点：速度超快。Yarn 缓存了每个下载过的包，所以再次使用时无需重复下载。同时利用并行下载以最大化资源利用率，因此安装速度更快。超级安全。在执行代码之前，Yarn 会通过算法校验每个安装包的完整性。超级可靠。使用详细、简洁的锁文件格式和明确的安装算法，Yarn 能够保证在不同系统上无差异的工作。三、y
前端环境本机可切换node多版本问题源头是node使用的高版本

前言投降投降重头再来重装环境也就分分钟的事偏要折腾这下好了1天了还没折腾出来问题的源头是node 使用的高版本方案那就用本机可切换多版本最终问题是因为nodejs的版本太高，导致的node-sass不兼容问题，我的node是v16.14.0的版本，项目中用了"node-sass": "^4.7.2"版本，无法匹配当前的node版本根据文章的提
宝塔Linux的FTP连接不上的解决方法

宝塔Linux的FTP连接不上的解决方法常见的几个可能,建议先排查。1.注意内网IP和外网IP2.检查ftp服务是否启动（面板首页即可看到）3.检查防火墙20端口 ftp 21端口及被动端口39000 - 40000是否放行（如是腾讯云/阿里云等还需检查安全组）4.是否主动/被动模式都不能连接5.新建一个用户看是否能连接6.修改ftp配置文件将ForcePassiveIP前面的#去掉将19
扩展element-ui el-upload组件，实现复制粘贴上传图片文件，带图片预览功能
微信小程序canvas实现水平、垂直居中效果

这篇文章主要介绍了小程序中canvas实现水平、垂直居中效果,本文图文实例代码相结合给大家介绍的非常详细，具有一定的参考借鉴价值，需要的朋友可以参考下
使用HTML5做的导航条详细步骤

这篇文章主要介绍了用HTML5做的导航条详细步骤,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下

随机推荐

从C到C#的zlib(如何将byte []转换为流并将流转换为byte [])

我的任务是使用zlib解压缩数据包(已接收),然后使用算法从数据中生成图片好消息是我在C中有代码,但任务是在C#中完成C我正在尝试使用zlib.NET,但所有演示都有该代码进行解压缩(C#)我的问题：我不想在解压缩后保存文件,因为我必须使用C代码中显示的算法.如何将byte[]数组转换为类似于C#zlib代码中的流来解压缩数据然后如何将流转换回字节数组？
为什么C标准使用不确定的变量未定义？

垃圾价值存储在哪里,为什么目的？解决方法由于效率原因,C选择不将变量初始化为某些自动值.为了初始化这些数据,必须添加指令.以下是一个例子：产生：虽然这段代码：产生：你可以看到,一个完整的额外的指令用来移动1到x.这对于嵌入式系统来说至关重要.
如何使用命名管道从c调用WCF方法？

更新：通过协议here,我无法弄清楚未知的信封记录.我在网上找不到任何例子.原版的：我有以下WCF服务我输出添加5行,所以我知道服务器是否处理了请求与否.我有一个.NET客户端,我曾经测试这一切,一切正常工作预期.现在我想为这个做一个非托管的C客户端.我想出了如何得到管道的名称,并写信给它.我从here下载了协议我可以写信给管道,但我看不懂.每当我尝试读取它,我得到一个ERROR_broKEN_P
“这”是否保证指向C中的对象的开始？

我想使用fwrite将一个对象写入顺序文件.班级就像当我将一个对象写入文件时.我正在游荡,我可以使用fwrite(this,sizeof(int),2,fo)写入前两个整数.问题是：这是否保证指向对象数据的开始,即使对象的最开始可能存在虚拟表.所以上面的操作是安全的.解决方法这提供了对象的地址,这不一定是第一个成员的地址.唯一的例外是所谓的标准布局类型.从C11标准：(9.2/20)Apointe
c – 编译单元之间共享的全局const对象

当我声明并初始化一个const对象时.两个cpp文件包含此标头.和当我构建解决方案时,没有链接错误,你会得到什么如果g_Const是一个非const基本类型！PrintInUnit1()和PrintInUnit2()表明在两个编译单元中有两个独立的“g_Const”具有不同的地址,为什么？
什么是C名称查找在这里？ (&GCC对吗？)

为什么在第三个变体找到func,但是在实例化的时候,原始变体中不合格查找找不到func？解决方法一般规则是,任何不在模板定义上下文中的内容只能通过ADL来获取.换句话说,正常的不合格查找仅在模板定义上下文中执行.因为在定义中间语句时没有声明func,并且func不在与ns::type相关联的命名空间中,所以代码形式不正确.
c – 在输出参数中使用auto

有没有办法在这种情况下使用auto关键字：当然,不可能知道什么类型的.因此,解决方案应该是以某种方式将它们合并为一个句子.这可用吗？解决方法看起来您希望默认初始化给定函数期望作为参数的类型的对象.您无法使用auto执行此操作,但您可以编写一个特征来提取函数所需的类型,然后使用它来声明您的变量：然后你就像这样使用它：当然,只要你重载函数,这一切都会失败.
在C中说“推动一切浮动”的确定性方式

鉴于我更喜欢将程序中的数字保留为int或任何内容,那么使用这些数字的浮点数等效的任意算术最方便的方法是什么？说,我有我想写通过将转换放在解析的运算符树叶中,无需将表达式转化为混乱是否可以使用C风格的宏？应该用新的类和重载操作符完成吗？解决方法这是一个非常复杂的表达.更好地给它一个名字：现在当您使用整数参数调用它时,由于参数的类型为double,因此使用常规的算术转换将参数转换为double用C11lambda……
objective-c – 如何获取未知大小的NSArray的第一个X元素？

在objectiveC中,我有一个NSArray,我们称之为NSArray*largeArray,我想要获得一个新的NSArray*smallArray,只有第一个x对象…
c – Setprecision是混乱

我只是想问一下setprecision,因为我有点困惑.这里是代码：其中x=以下：方程的左边是x的值.1.105=1.10应为1.111.115=1.11应为1.121.125=1.12应为1.131.135=1.14是正确的1.145=1.15也正确但如果x是：2.115=2.12是正确的2.125=2.12应为2.13所以为什么在一定的价值是正确的,但有时是错误的？请启发我谢谢解决方法没有理由期望使用浮点系统可以正确地表示您的帖子中的任何常量.因此,一旦将它们存储在一个双变量中,那么你所拥有的确切的一