语音相关知识

来源：互联网发布：店铺优化是什么意思编辑：程序博客网时间：2024/06/11 21:00

最近做语音相关的内容，整理一些相关知识，予以记录。

模拟音频和数字音频

模拟音频

物体振动产生声音，为了记录和保存声音信号，先后诞生了机械录音（以留声机、机械唱片为代表）、光学录音（以电影胶片为代表）、磁性录音（以磁带录音为代表）等模拟录音方式，二十世纪七、八十年代开始进入了数字录音的时代。

　　声音是机械振动在弹性介质中传播的机械波。声音的强弱体现在声波压力的大小上，音调的高低体现在声音的频率上。声音用电表示时，声音信号在时间和幅度上都是连续的模拟信号。声音信号的两个基本参数是频率和幅度。频率是指信号每秒钟变化的次数，用Hz表示。幅度是指信号的强弱。

数字音频

　　数字音频主要包括两类：波形音频和MIDI音频。

　　模拟声音在时间和幅度上是连续的，声音的数字化是通过采样、量化和编码，把模拟量表示的音频信号转换成由许多二进制数1和0组成的数字音频信号。数字音频是一个数据序列，在时间和幅度上是断续的。

　　计算机内的基本数制是二进制，为此我们要把声音数据写成计算机的数据格式。将连续的模拟音频信号转换成有限个数字表示的离散序列（即实现音频数字化），在这一处理技术中，涉及到音频的采样、量化和编码。

采样、量化

声音进入计算机的第一步就是数字化，数字化实际上就是采样和量化。连续时间的离散化通过采样来实现，如果每隔相等的一小段时间采样一次，称为均匀采样(uniform sampling)；连续幅度的离散化通过量化(quantization)来实现，把信号的强度划分成一小段一小段，如果幅度的划分是等间隔的，就称为线性量化，否则就称为非线性量化。

参数特征

采样频率

采样频率是指将模拟声音波形数字化时，每秒钟所抽取声波幅度样本的次数，采样频率的计算单位是kHz。通常，采样频率越高声音失真越小，但用于存储音频的数据量也越大。

量化精度（也称量化位数、量化级、样本尺寸、采样精度等）

量化是将经过采样得到的离散数据转换成二进制数的过程，量化精度是每个采样点能够表示的数据范围，在计算机中音频的量化位数一般为4、8、16、32位（bit）等。例如：量化精度为8bit时,每个采样点可以表示256个不同的量化值，而量化精度为16bit时,每个采样点可以表示65536个不同的量化值。量化精度的大小影响到声音的质量，显然，位数越多，量化后的波形越接近原始波形，声音的质量越高，而需要的存储空间也越多；位数越少，声音的质量越低，需要的存储空间越少。

声道数

记录声音时，如果每次生成一个声波数据，称为单声道；每次生成两个声波数据，称为双声道。使用双声道记录声音，能够在一定程度上再现声音的方位，反映人耳的听觉特性。

数字音频的存储

一般来说，采样频率、量化位数越高，声音质量也就越高，保存这段声音所用的空间也就越大。立体声（双声道）是单声道文件的两倍。
　　即：文件大小（B）=采样频率（Hz）×录音时间（S）×（量化精度/8）×声道数（单声道为1，立体声为2）
　　如：录制1分钟采样频率为44.1KHz，量化精度为16位，立体声的声音（CD音质），文件大小为：
　　　　44.1×1000×60×(16/8)×2=10584000B≈10.0

参考文章：
https://my.oschina.net/freeblues/blog/63621?p=1

0 0