• okass 在版块 人工智能AI 中发起了话题 Azure custom voice 服务 2年, 10个月前

    Azure custom voice 的服务模型如下:

    动态

    azure custom voice 提供的模块如下,一共有三个:

    Data:用于数据集的上传,支持单音频用于测试,或者音频+人工标注的文本用于训练
    Model:可直接用 Azure 自带的模型,或者 customized 的模型进行测试
    Endpoint:将训练好的模型进行部署,以便调用

     

    1> Data
    支持的数据类型:

    Custom Voice 支持三种类型的数据,详情可查看(Link):

    i.  短音频(≤ 15s)和对应的文本
    ii. 长音频(≥ 20s)和对应的文本
    iii.单独的音频文件

    • 对于第二种数据类型,Custom Voice 会在后台自动对其进行切分,将其变成第一种类型
    • 对于第三种数据类型,Custom Voice 会在后台自动进行转录生成对应的文本,若音频太长,还会自动进行分割,将其变成第一种类型
    • 以上几种类型都要求将所有的音频打包成一个zip文件,所有的转录文本打包成一个zip文件,通过文件名来进行音频和文本的配对。

    如下图所示,我们将一个 44s 长度的音频按照第二种方式上传后,Custom Voice 会将其自动分成合适长度的 4 段短音频,并会计算相应的指标,用作对于该数据集质量的评估:

    动态

    各指标如下:

    • Pronunciation score:发音得分,用来评判发音是否标准,越高越好,尽量需要保证 ≥ 70
    • Signal-noise ratio (SNR):信噪比,声音信号与噪声的比值,越大越好,尽量需要保证 ≥ 20
    • Duration:音频时长,尽量需要保证 ≤ 15s

     

    2> Model
    Model 模块包含如下三个阶段:

    i. Training
    对于 en-US 和 zh-CN 语言,可以使用任意数量的样本来训练模型;对于其他语言,至少需要 2000 个样本才能训练。

    ii. Testing
    训练完后,系统会自动生成100个随机样本进行测试,可以点进去听一下效果。

    iii. deployment
    如果效果合适,则可将模型部署,便于代码中进行调用

     

    3> Endpoint
    模型部署完后会生成一个 endpoint 节点,参照下图所示的指引即可使用该模型生成语音。

    动态

WirelessLink
Logo