音频文件转码工具文档目录 1. 音频文件转码1 1.1. 简介1 1.2. 转换命令示例2 1.3. wav 文件转 16k 16bits 位深的单声道pcm文件2 1.4. mp3 文件转

linux 版本：http://www.ffmpeg.org/download.html#build-linux linux 静态编译版本：https://www.johnvansickle.com/ffmpeg/ windows 版本：http://ffmpeg.zeranoe.com/builds/

ffmpeg官方文档地址：http://ffmpeg.org/ffmpeg.html

编译参数与支持格式

ffmpeg默认支持pcm与wav（pcm编码）格式，额外的编译参数如下：

输入音频参数

wav amr 与mp3格式都自带头部，含有采样率编码多声道等信息。而pcm为原始音频信息，没有类似头部。 wav（pcm编码）格式，仅仅在同样参数的pcm文件加了个几百k的文件头。

输入 wav amr 及mp3格式：

-i test.wav # 或test.mp3 或者 test.amr

输入 pcm格式： pcm需要额外告知编码格式，采样率，单声道信息

-f s16le -ac 1 -ar 16000 –i 8k.pcm// 单声道 16000 采样率 16bits编码 pcm文件

输出音频参数

在原始采样率大于或者接近16000的时候，推荐使用16000的采样率。 8000的采样率会降低识别效果。输出wav和amr格式时，如果不指定输出编码器的haunt，ffmpeg会选取默认编码器。

输出pcm音频

-f s16le -ac 1 -ar 16000 16k.pcm // 单声道 16000 采样率 16bits编码 pcm文件

输出wav 音频：

-ac 1 -ar 16000 16k.wav // 单声道 16000 采样率 16bits编码 pcm编码的wav文件

输出amr-nb 音频：全称是：Adaptive Multi-Rate，自适应多速率

，是一种音频编码文件格式，专用于有效地压缩语音频率。在带宽不是瓶颈的情况下，不建议选择这种格式，解压需要百度服务器额外的耗时amr-nb格式只能选 8000采样率。bit rates越高音质越好，但是文件越大。 bit rates 4.75k, 5.15k, 5.9k, 6.7k, 7.4k, 7.95k, 10.2k or 12.2k

8000的采样率及有损压缩会降低识别效果。如果原始采样率大于16000，请使用 amr-wb格式。

-ac 1 -ar 8000 -ab 12.2k 8k-122.amr

// 8000 采样率 12.2 bitRates

输出 amr-wb 格式，采样率 16000。 bit rates越高音质越好，但是文件越大。 6600 8850 12650 14250 15850 18250 19850 23050 23850

-acodec amr_wb -ac 1 -ar 16000 -ab 23850 16k-23850.amr

常用参数-y 覆盖同名文件-v 日志输出基本如 -v ERROR -v quiet 等

参数拼接

ffmpeg {常用参数} {输入音频参数} {输出音频参数}

示例：输入是 32000HZ的单声道 16bits pcm文件。查询之前的输入参数为 “ -f s16le -ac 1 -ar 32000 -i test32.pcm” 输出是 16000HZ的单声道 16bits pcm文件。查询之前的输出参数为 “-f s16le -ac 1 -ar 16000 16k.pcm” 常用参数选择 -y

合并如下：

ffmpeg -y -f s16le -ac 1 -ar 32000 –i test32.pcm -f s16le -ac 1 -ar 16000 16k.pcm

查看音频格式ffprobe使用

查看语音合成生成的MP3格式信息：

ffprobe -v quiet -print_format json –show_streams aidemo.mp3

返回如下

{

“streams”: [

{

“index”: 0,

“codec_name”: “mp3”, // mp3 格式

“codec_long_name”: “MP3 (MPEG audio layer 3)”,

“codec_type”: “audio”,

“codec_time_base”: “1/16000”,

“codec_tag_string”: “[0][0][0][0]”,

“codec_tag”: “0x0000”,

“sample_fmt”: “s16p”,

“sample_rate”: “16000”, // 16000采样率

“channels”: 1, // 单声道

“channel_layout”: “mono”,

“bits_per_sample”: 0,

“r_frame_rate”: “0/0”,

“avg_frame_rate”: “0/0”,

“time_base”: “1/14112000”,

“start_pts”: 0,

“start_time”: “0.000000”,

“duration_ts”: 259096320,

“duration”: “18.360000”,

“bit_rate”: “16000”,

“disposition”: {

“default”: 0,

“dub”: 0,

“original”: 0,

“comment”: 0,

“lyrics”: 0,

“karaoke”: 0,

“forced”: 0,

“hearing_impaired”: 0,

“visual_impaired”: 0,

“clean_effects”: 0,

“attached_pic”: 0,

“timed_thumbnails”: 0

}

]

}

pcm文件音频时长计算

同图像bmp文件一样，pcm文件保存的是未压缩的音频信息。 16bits 编码是指，每次采样的音频信息用2个字节保存。可以对比下bmp文件用分别用2个字节保存RGB颜色的信息。 16000采样率是指 1秒钟采样 16000次。常见的音频是44100HZ，即一秒采样44100次。单声道：只有一个声道。

根据这些信息，我们可以计算： 1秒的16000采样率音频文件大小是 2*16000 = 32000字节，约为32K 1秒的8000采样率音频文件大小是 2*8000 = 16000字节，约为 16K

如果已知录音时长，可以根据文件的大小计算采样率是否正常。