语音相关知识

来源:互联网 发布:店铺优化是什么意思 编辑:程序博客网 时间:2024/06/11 21:00

最近做语音相关的内容,整理一些相关知识,予以记录。


模拟音频和数字音频

模拟音频

物体振动产生声音,为了记录和保存声音信号,先后诞生了机械录音(以留声机、机械唱片为代表)、光学录音(以电影胶片为代表)、磁性录音(以磁带录音为代表)等模拟录音方式,二十世纪七、八十年代开始进入了数字录音的时代。

  声音是机械振动在弹性介质中传播的机械波。声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号。声音信号的两个基本参数是频率和幅度。频率是指信号每秒钟变化的次数,用Hz表示。幅度是指信号的强弱。

数字音频

  数字音频主要包括两类:波形音频和MIDI音频。

  模拟声音在时间和幅度上是连续的,声音的数字化是通过采样、量化和编码,把模拟量表示的音频信号转换成由许多二进制数1和0组成的数字音频信号。数字音频是一个数据序列,在时间和幅度上是断续的。

  计算机内的基本数制是二进制,为此我们要把声音数据写成计算机的数据格式。将连续的模拟音频信号转换成有限个数字表示的离散序列(即实现音频数字化),在这一处理技术中,涉及到音频的采样、量化和编码。

采样、量化

声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。连续时间的离散化通过采样来实现,如果每隔相等的一小段时间采样一次,称为均匀采样(uniform sampling);连续幅度的离散化通过量化(quantization)来实现,把信号的强度划分成一小段一小段,如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化。

参数特征

采样频率

采样频率是指将模拟声音波形数字化时,每秒钟所抽取声波幅度样本的次数,采样频率的计算单位是kHz。通常,采样频率越高声音失真越小,但用于存储音频的数据量也越大。

量化精度(也称量化位数、量化级、样本尺寸、采样精度等)

量化是将经过采样得到的离散数据转换成二进制数的过程,量化精度是每个采样点能够表示的数据范围,在计算机中音频的量化位数一般为4、8、16、32位(bit)等。例如:量化精度为8bit时,每个采样点可以表示256个不同的量化值,而量化精度为16bit时,每个采样点可以表示65536个不同的量化值。量化精度的大小影响到声音的质量,显然,位数越多,量化后的波形越接近原始波形,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。

声道数

记录声音时,如果每次生成一个声波数据,称为单声道;每次生成两个声波数据,称为双声道。使用双声道记录声音,能够在一定程度上再现声音的方位,反映人耳的听觉特性。

数字音频的存储

一般来说,采样频率、量化位数越高,声音质量也就越高,保存这段声音所用的空间也就越大。立体声(双声道)是单声道文件的两倍。
  即:文件大小(B)=采样频率(Hz)×录音时间(S)×(量化精度/8)×声道数(单声道为1,立体声为2)
  如:录制1分钟采样频率为44.1KHz,量化精度为16位,立体声的声音(CD音质),文件大小为:
    44.1×1000×60×(16/8)×2=10584000B≈10.0


参考文章:
https://my.oschina.net/freeblues/blog/63621?p=1

0 0
原创粉丝点击