WirelessLink – Just link it | 无线技术解决方案 | 无线技术探讨

okass 在版块人工智能AI 中发起了话题 Azure custom voice 服务 4年前
Azure custom voice 的服务模型如下:
azure custom voice 提供的模块如下，一共有三个:
Data：用于数据集的上传，支持单音频用于测试，或者音频+人工标注的文本用于训练
Model：可直接用 Azure 自带的模型，或者 customized 的模型进行测试
Endpoint：将训练好的模型进行部署，以便调用

1> Data
支持的数据类型：
Custom Voice 支持三种类型的数据，详情可查看（Link）：
i. 短音频（≤ 15s）和对应的文本
ii. 长音频（≥ 20s）和对应的文本
iii.单独的音频文件
- 对于第二种数据类型，Custom Voice 会在后台自动对其进行切分，将其变成第一种类型
- 对于第三种数据类型，Custom Voice 会在后台自动进行转录生成对应的文本，若音频太长，还会自动进行分割，将其变成第一种类型
- 以上几种类型都要求将所有的音频打包成一个zip文件，所有的转录文本打包成一个zip文件，通过文件名来进行音频和文本的配对。
如下图所示，我们将一个 44s 长度的音频按照第二种方式上传后，Custom Voice 会将其自动分成合适长度的 4 段短音频，并会计算相应的指标，用作对于该数据集质量的评估：
各指标如下：
- Pronunciation score：发音得分，用来评判发音是否标准，越高越好，尽量需要保证 ≥ 70
- Signal-noise ratio (SNR)：信噪比，声音信号与噪声的比值，越大越好，尽量需要保证 ≥ 20
- Duration：音频时长，尽量需要保证 ≤ 15s
2> Model
Model 模块包含如下三个阶段：
i. Training
对于 en-US 和 zh-CN 语言，可以使用任意数量的样本来训练模型；对于其他语言，至少需要 2000 个样本才能训练。
ii. Testing
训练完后，系统会自动生成100个随机样本进行测试，可以点进去听一下效果。
iii. deployment
如果效果合适，则可将模型部署，便于代码中进行调用

3> Endpoint
模型部署完后会生成一个 endpoint 节点，参照下图所示的指引即可使用该模型生成语音。