学习整理的相关章节链接:
基础篇_1.音视频学习框架
基础篇_2. 颜色空间模型 RBG、YUV、HSV
基础篇_3.图像编码之Bmp
基础篇_4.音频基础概念
基础篇_5.音频数据采集
基础篇_6.音频编码PCM
基础篇_7.音频编码WAV
基础篇_8.音频编码MP3AAC

1. 为什么会需要做音频数据采集

首先需要理解数字信号和模拟信号
模拟信号:
模拟信号是指信息参数在给定范围内表现为连续的信号。 或在一段连续的时间间隔内,其代表信息的特征量可以在任意瞬间呈现为任意数值的信号,用简单的0和1不能够表达清晰

模拟信号.png

数字信号:
数字信号是一些离散的信号,数字信号通常使用1和0表示

数字信号.png

都知道计算机只认识0和1,所以我们就必须得对模拟信号做转换,转换为数字信号。
那么音频数据采集,实际上就是一个将声波(模拟信号)数字化的一个过程。

2.数字音频采集过程

采样:
所谓采样就是在时间轴上对模拟信号进行数字化,根据奈奎斯特定理(采样定理),按照比声音最高频率2倍以上的频率进行采样(AD转换)。在基础篇_4.音频基础概念中我们提到人耳听力范围是20Hz~20kHz,所以采样频率一般为40kHz左右,常用的有44.1kHz(44100次/s采样)、48kHz等,采样率越高,音质越好

量化:
是指在幅度轴上对信号进行数字化。对模拟音频信号的幅度进行数字化,它决定了模拟信号数字化以后的动态范围,常用的有8位、12位和16位。量化位越高,信号的动态范围越大,数字化后的音频信号就越可能接近原始信号

采样及量化图示如下:

image.png

编码:
所谓编码就是按照一定的格式记录采样和量化后的数字数据,比如顺序存储、压缩存储等等。这里有很多格式,通常所说的音频的裸数据格式就是脉冲编码调制(Pulse Code Modulation, PCM)数据。
我们描述一段PCM数据通常涉及一下几个概念:
量化格式(sampleFormat)或者叫深度采样率(sampleRate)声道数(Channel)
例如,cd音质的相关参数为,深度:16bit、采样率:44100、声道数:2
我们在描述声音格式的大小是,用到的概念为,数据比特率(即1s内的比特数目),用来衡量音频数据单位时间内的容量大小,那么cd音质的数据比特率则为:
44100 * 16 * 2 = 1411.2kbps
一分钟的cd音质数据占用的存储空间大小则为:
(1378.125 * 60) / (8 * 1024 * 1024) = 10.09m

将量化后的二进制数据存储下来,就完成了模拟信号到数字信号的转换。

文章来源于互联网,如有雷同请联系站长删除:基础篇_5.音频数据采集

发表评论