MFCC代码

9333阅读 2评论2012-06-28 小菜仙
分类:C/C++

//ASR.h
#include
#include

#define MAXDATA (256*400)  //一般采样数据大小,语音文件的数据不能大于该数据
#define SFREMQ (8000)   //采样数据的采样频率8khz

typedef struct WaveStruck//wav数据结构
{
 //data head
 struct HEAD{
  char cRiffFlag[4];
  int nFileLen;
  char cWaveFlag[4];//WAV文件标志
  char cFmtFlag[4];
  int cTransition;
  short nFormatTag;
  short nChannels;
  int nSamplesPerSec;//采样频率,mfcc为8khz
  int nAvgBytesperSec;
  short nBlockAlign;
  short nBitNumPerSample;//样本数据位数,mfcc为12bit
 } head;

 //data block
 struct BLOCK{
  char cDataFlag[4];//数据标志符(data)
  int nAudioLength;//采样数据总数
 } block;
} WAVE;


typedef struct //定义实数结构
{
  double real;
  double image;
}complex;

//获取wav数据样本数据,sample数组的长度至少为MAXDATA,函数返回读入的数据的长度
int getWaveData(char* file,double *sample);

int copyData(double *src,double *dest,int num);//实数数据复制

//所有mfcc操作都是基于每帧操作的,len为总长度,unitsize为采样点组成的观察单位,256||512
//emp_v为欲加重因子,hanming_v为汉明窗因子,fft_v为傅里叶变化级数
//filter_v为mel滤波器个数,dct_v为dct变换因子
//函数返回mfcc识别后特征参数数组,数组长度存储在第0个元素中
double* MFCC(double *sample,int len ,int unitsize=256,double emp_v=0.97,double hanming_v=0.46,int filter_v=20,int dct=12);

//MFCC欲加重,len为数组sample的长度,factor为加重因子
bool _mfcc_preEmphasize(double *sample,int len,double factor=0.9);

//框化数据即分帧,同事在原始采样数据中插入重叠区数据
//函数返回总的帧数,和分帧后的数据sample
int _mfcc_Frame(double *sample,int unitsize,int len);

//加汉明窗,factor为汉明窗因子
bool _mfcc_HanmingWindow(double *sample,int unitsize,int frames,double hanming_factor=0.46);

//快速傅里叶变换,输入参数sample为实数,无虚数部分,len为sample的总大小,也为傅里叶变换点数
//函数返回时complex为fft变换后的频率能量复数数值,总长度为len,频率从0-SFREMQ(8khz)
complex* _mfcc_FFT(double *sample,int len);

//功率计算,返回计算后的功率实数powersample,总长度为len,频率从0-SFREMQ(8khz)
bool  _mfcc_Power(complex* fftdata,double *powersample,int len);

//三角滤波,len为powersample数字长度,num为mei滤波个数
//函数返回mel频率下的滤波器内的对数能量double*(长度为num)
double* _mfcc_filter(double *powersample,int len,int num);

//离散余弦变换,lnpower(长度为len)为滤波器内积对数能量,num与mel滤波器一致,dctnum为dct变换级数
//函数返回时double*的长度为dctnum,代表dct变换后的倒频参数
double* _mfcc_DCT(double *lnpower,int len,int dctnum);

//求音框1的能量+音框2的能量+....+音框frames的能量+dct参数
//函数返回double *,其长度为(dctlen+1)*frames
double* _mfc_Logenergy(double *powersample,int unitsize,int frames,double * dctdata,int dctlen);

//差量倒频谱参数,函数返回double*,数组长度为len*2
double* _mfcc_differential(double *logenergy,int len);

 

//asp.cpp
#include "stdafx.h"
#include "ASR.h"

//获取wav数据样本数据
int getWaveData(char* file,double *sample)
{
 WAVE wave[1];
 FILE * f;
 f = fopen(file,"rb");
 if(!f)
 {
  printf("Cannot open %s for reading\n",file);
  return -1;
 }
 
 //读取wav文件头并且分析
 fread(wave,1,sizeof(wave),f);
 
 if(wave[0].head.cWaveFlag[0]=='W'&&wave[0].head.cWaveFlag[1]=='A'
  &&wave[0].head.cWaveFlag[2]=='V'&&wave[0].head.cWaveFlag[3]=='E')//判断是否是wav文件
 {
  printf("It's not .wav file\n" );
  return -1;
 }
 if(wave[0].head.nSamplesPerSec!=SFREMQ&&wave[1].head.nBitNumPerSample!=12)//判断是否采样频率是8khz,12bit量化
 {
  printf("It's not 8khz and 12 bit\n" );
  return -1;
 }
 
 if(wave[0].block.nAudioLength>MAXDATA/2)//wav文件不能太大,为sample长度的一半
 {
  printf("wav file is to long\n" );
  return -1;
 }
 
 //读取采样数据 
 fread(sample,sizeof(char),wave[0].block.nAudioLength,f);
 fclose(f);
 return wave[0].block.nAudioLength;
}

int copyData(double *src,double *dest,int num)
{
 if(src==NULL||dest==NULL)
 {
  printf("src and dest are NULL\n");
  return -1;
 }
 
 for(int i=0;i {
  *(dest++)=*(src++);
 }
 return i;
}


//开始mfc操作
//所有mfcc操作都是基于每帧操作的,unit为采样点组成的观察单位,256||512
//函数返回double*长度存储在第0个元素中
double* MFCC(double *sample,int len,int unitsize,double emp_v,double hanming_v,int filter_v,int dct_v)
{

 double *mfccA=NULL;

 //欲加重
 _mfcc_preEmphasize(sample,len,emp_v); 
 
 //框化,在原始采样数据中添加重叠区数据 
 int frames=_mfcc_Frame(sample,unitsize,len); 
 
 //加汉明窗
 _mfcc_HanmingWindow(sample,unitsize,frames,hanming_v);
 
 //fft变化
 complex *fftdata=_mfcc_FFT(sample,unitsize*frames);
 
 //频谱的功率sample
 _mfcc_Power(fftdata,sample,len);
 if(fftdata!=NULL)
  delete fftdata;

 //保存频谱能量
 double *power=new double(len);
 copyData(sample,power,len);
 
 //滤波,得到filter_v个滤波器内的对数能量
 double *filterpower=_mfcc_filter(sample,len,filter_v); 
 
 //dct变换,输入filterpower为滤波器内积对数能量,输出lnpower为dct倒频谱参数
 double *dctpara=_mfcc_DCT(filterpower,filter_v,dct_v);
 if(filterpower!=NULL)
  delete filterpower; 

 //log对数能量logenergy,长度为frames+dct_v
 double *logenergy=_mfc_Logenergy(power,unitsize,frames,dctpara,dct_v);

 //保存对数能量logenergy
 mfccA=new double((frames+dct_v)*3+1);
 mfccA[0]=(frames+dct_v)*3+1;//第0位存储数组的总长度

 copyData(&logenergy[0],&mfccA[1],frames+dct_v);
 if(power!=NULL)
  delete power;
 if(dctpara!=NULL)
  delete dctpara;
 
 //差量倒频谱运算,返回double*长度为(frames+dct_v)*2
 double *diff=_mfcc_differential(logenergy,frames+dct_v);
 copyData(&diff[0],&mfccA[frames+dct_v+1],(frames+dct_v)*2);

 if(logenergy!=NULL)
  delete logenergy;
 if(diff!=NULL)
  delete diff;
 
 return mfccA;
}


bool _mfcc_preEmphasize(double *sample,int len,double factor)//MFCC欲加重,factor为加重因子
{
 //欲加重公式s2(n) = s(n) - a*s(n-1)
 for(int i=1;i {
  sample[i]=sample[i]-factor*sample[i-1];
 }
 
 return true;
}

//数据框化即分帧,插入重叠区的数据到sample中,返回帧的总数
int _mfcc_Frame(double *sample,int unitsize,int len)
{
 double *mirrordata=new double[len/2];
 copyData(&sample[0],&mirrordata[0],len/2);
 
 
 double temp[512];
 
 if(unitsize>512)
 {
  printf("unitsize of mfcc is biger than 512");
  return false;
 }
 
 //因为要操作附加的重叠区域,故分成三部分,第一部分数据不变
 //开始和结尾部分不包含附加重叠区的操作
 
 //中间部分,包括附件重叠区域变换
 
 int m=unitsize/2;//重叠区域的单位大小为正常区的一半
 int frames=2;//加上重叠区后的帧数
 int index=unitsize;//当前添加后的数据的排列序号
 
 for(int i=unitsize;i {
  //重叠区域数据
  copyData(&mirrordata[i-m/2],&temp[0],m);
  
  //添加重叠区的数据  
  copyData(&temp[0],&sample[index],m);//写回数据
  index+=m;
  frames+=1;
  
  
  //原采样数据
  copyData(&mirrordata[i],&temp[0],unitsize);
  copyData(&temp[0],&sample[index],unitsize);//写回数据
  index+=unitsize;
  frames+=1;
  
 }
 
 //框化的最后一部分为尾数部分,少于或者等于unitsize大小
 
 if(len%unitsize==0)//刚好等于unitsize大小
 {
  copyData(&mirrordata[i],&temp[0],unitsize);
  copyData(&temp[0],&sample[index],unitsize);//写回数据
 }else{
  copyData(&mirrordata[i],&sample[index],len%unitsize);
  copyData(&temp[0],&sample[index],len%unitsize);//写回数据
 }
 frames+=1;
 delete[] mirrordata;
 
 return frames;
}

//加汉明窗,factor为汉明窗因子
bool _mfcc_HanmingWindow(double *sample,int unitsize,int frames,double hanming_factor)
{
 //S'(n) = S(n)*W(n),W(n, a) = (1 - a) - a cos(2pn/(N-1)),0≦n≦N-1,N为窗口大小
 if(hanming_factor>=1||hanming_factor<=0)
 {
  printf("hanming hanming_factor 0-1\n");
  return false; 
 }
 
 if(unitsize>512)
 {
  printf("unitsize of mfcc is biger than 512");
  return false;
 }
 
 
 int windowsize;//框化后的窗口大小
 
 double HanmingWindow[512];//汉明窗口乘法因子
 double fDataTemp;
 
 for(int i=0;i {
  if((i+1)%2==0)
  {
   windowsize=unitsize/2;//重叠区为正常区的一半
  }else
   windowsize=unitsize;
  
  for(int j=0; j  {
   fDataTemp = (double) 2.0 * 3.141592653589793*j/(windowsize-1);
   HanmingWindow[j] = (double)(1-hanming_factor)-hanming_factor*cos(fDataTemp);
   sample[i*frames+j]=sample[i*frames+j]*HanmingWindow[j];
  }
 } 
 
 return true;
}


//快速傅里叶变换,输入参数sample为实数,无虚数部分,len为sample的总大小,也为傅里叶变换点数
//函数返回时complex为fft变换后的频率能量复数数值,总长度为len,频率从0-SFREMQ(8khz)
complex* _mfcc_FFT(double *sample,int len)
{
 //实数转为复数
 complex *TD=new complex[len];
 complex *FD=new complex[len];
 
 int i;
 for(i=0;i {
  TD[i].real=sample[i];
  TD[i].image=0;
 }
 
 //fft计算 
 LONG count; // Fourier变换点数
 int j,k; // 循环变量
 int bfsize,p; // 中间变量
 double angle; // 角度
 complex *W,*X1,*X2,*X;
 
 count =len; // 计算Fourier变换点数为数组的长度
 int r=count>>1;//变换级数
 
 W = new complex[count / 2];
 X1 = new complex[count];
 X2 = new complex[count]; // 分配运算所需存储器
 
 // 计算加权系数(旋转因子w的i次幂表)
 for(i = 0; i < count / 2; i++)
 {
  angle = -i * 3.141592653589793 * 2 / count;
  W[ i ].real=cos(angle);
  W[ i ].image=sin(angle);
 }
 // 将时域点写入X1
 memcpy(X1, TD, sizeof(complex) * count);
 // 采用蝶形算法进行快速Fourier变换
 for(k = 0; k < r; k++ )
 {
  for(j = 0; j < (1 << k); j++ )
  {
   bfsize = 1 << (r-k);
   for(i = 0; i < bfsize / 2; i++ )
   {
    p = j * bfsize;
    X2[i + p].real = X1[i + p].real + X1[i + p + bfsize / 2].real * W[i * (1<    X2[i + p].image = X1[i + p].image + X1[i + p + bfsize / 2].image * W[i * (1<    
    X2[i + p + bfsize / 2].real = X1[i + p].real - X1[i + p + bfsize / 2].real * W[i * (1<    X2[i + p + bfsize / 2].image = X1[i + p].image - X1[i + p + bfsize / 2].image * W[i * (1<   }
  }
  X = X1;
  X1 = X2;
  X2 = X;
 }
 // 重新排序,转为频率f(0-count)的值
 for(j = 0; j < count; j++)
 {
  p = 0;
  for(i = 0; i < r; i++ )
  {
   if (j&(1<   {
    p =1<<(r-i-1);
   }
  }
  FD[j]=X1[p];
 }
 // 释放内存
 delete[] TD;
 delete W;
 delete X1;
 delete X2;
 
 return FD;
}

//对应频谱的功率
bool _mfcc_Power(complex* fftdata,double *powersample,int len)
{
 for(int i=0;i {
  powersample[i]=sqrt(fftdata[i].real*fftdata[i].real+fftdata[i].image*fftdata[i].image);
 }
 
 return true;
}

//三角滤波,len为powersample数字长度,num为mei滤波个数
//函数返回mel频率下的对数能量double*(长度为num)
double* _mfcc_filter(double *powersample,int len,int filterNum)
{
 double* melf=new double(len);//频率--->mel频率
 double* lnpower=new double(filterNum);//对数能量
 memset(lnpower,0,filterNum);
 
 double f=0;
 for(int i=0;i {
  f=i*SFREMQ/len;//求出每个数组的相对应的频率
  melf[i]=2595*log10(1+f/700.0);//由频率求出mel频率
 }
 
 
 double filterFW=melf[len-1]/(2*filterNum);//mel频率滤波器的半宽带
 double filterpara;//三角滤波参数
 int j=1;//滤波器计数
 
 for(i=0;i { 
  j=(int)ceil(melf[i]/filterFW);//ceil大于x的最小整数,求出滤波器序号为1-n
  if(j>filterNum)//跳过最右边半个滤波器数据
   break;
  filterpara=1+(melf[i]-j*filterFW)/filterFW; //斜率为1,上升 
  powersample[i]=filterpara*powersample[i]; 
  lnpower[j-1]+=powersample[i];//累计一个滤波器内的能量
 }
 
 for(i=0;i { 
  if(melf[i]  {
   continue;
  }
  
  j=(int)floor(melf[i]/filterFW);//floor小于x的最大整数
  filterpara=1-(melf[i]-j*filterFW)/filterFW; //斜率为1,下降 
  powersample[i]=filterpara*powersample[i];
  lnpower[j-1]+=powersample[i];//累计一个滤波器内的能量
 }

 //滤波器能量求对数,得到类似正态分布
 //对数能量(定义为讯号的平方和,再取以 10 为底的对数值,再乘以 10)
 for(j=0;j {
  lnpower[j]=log10(lnpower[j])*10;
 }
 delete[] melf;
 
 return lnpower;//返回对数能量
}

//离散余弦变换,lnpower(长度为len)为滤波器内积对数能量,num与mel滤波器一致,dctnum为dct变换级数
//函数返回时lnpower的长度为dctnum,代表dct变换后的倒频参数
double* _mfcc_DCT(double *lnpower,int len,int dctnum)
{
 
 double *temp=new double(dctnum);

 memset(&lnpower[0],0,len);

 for(int i=1;i<=dctnum;i++)
 {
  for(int j=1;j<=len;j++)
  {
   temp[i-1]+=lnpower[j-1]*cos(i*(j-0.5)*3.141592653589793/len);
  }
 }
 
 return temp;
}

//求音框1的能量+音框2的能量+....+音框frames的能量+dct参数
//函数返回double *,其长度为(dctlen+frames)
double* _mfc_Logenergy(double *powersample,int unitsize,int frames,double * dctdata,int dctlen)
{
 double *logenergy=new double((frames+dctlen));

 for(int i=0;i {
  logenergy[i]=0;
  for(int j=0;j  {
   logenergy[i]+=powersample[i*unitsize+j];
  }
  logenergy[i]=log10(logenergy[0])*10;//取10的对数
 } 

 copyData(&dctdata[0],&logenergy[i],dctlen);

 return logenergy;
}

//差量倒频谱参数,函数返回double*,数组长度为len*2
double* _mfcc_differential(double *logenergy,int len)
{
 int M=2;//差量倒频谱参数
 double suma;
 double sumb;
 double *diff=new double(len*2);
 

 //差量计算,△Cm(t) = [Sum(g=-M, M, Cm(t+g)g] / [Sum(g=-M, M, g^2], 这里 M 的值一般是取 2 或 3
 copyData(&logenergy[0],&diff[0],len);
 int i,j;
 for(i=1;i<=len;i++)
 {
  suma=0;
  sumb=0;
  for(j=-M;j<=M;j++)
  {
   suma+=diff[i-1+j]*j;
   sumb+=j*j;
  }
  diff[i-1]=suma/sumb;
 }

 //差差量计算
 copyData(&diff[0],&diff[len],len);
 for(i=len+1;i<=2*len;i++)
 {
  suma=0;
  sumb=0;
  for(j=-M;j<=M;j++)
  {
   suma+=diff[i-1+j]*j;
   sumb+=j*j;
  }
  diff[i-1]=suma/sumb;
 }
 
 return diff;
}

void main()
{
 double sample[MAXDATA]={0};//wave文件采样数据存放点
 int len=getWaveData("1.wav",sample);
 double *mfcca=MFCC(sample,len);
 len=mfcca[0];//mfcc特征量的总长度
}

上一篇:C语言中的break、continue和goto三者的区别与用法
下一篇:MFCC--Mel频率倒谱系数

文章评论