如果没有发生事故,控制台输出如下:

由于项目经常更新,请参阅项目下的详细信息

10层卷积无法解决任何问题。

如果是,我们将再添加十层,添加一个剩余层,然后添加另一个

再加一颗星星!

一个完整的语音识别框架,包括从数据清理界面、数据读取界面、语音模型声学模型到最终模型集成和用户界面的一整套过程

目前,语音识别在声学部分的准确率已经相对较高,但在语言模型方面仍有许多问题有待解决。因此,我们希望我们能够共同努力,提高开源项目的效果。

数据接口易于使用。几个常用的数据集实现了这个接口。只需下载并解压缩。更改配置文件中的路径后,可以运行清理方法并自动获取所有音频和注释

将模型集成到几个当前的开源项目中,并训练相应的模型文件

更详细的注释和清晰的代码,易于学习和修改

识别率仍然是一个很大的痛点。从语音到拼音的识别率可以超过80%,但正确识别的可能性为100%。从拼音到汉字的识别率可能很低,但也有100%的正确识别可能性。这与环境语言速度的形而上学有关

包装有点太硬了。取出模型单独使用可能会很麻烦

蟒蛇

距离

化解霸权

凯拉斯

藏红花

努米

拼音

Python语音函数

毛茸茸的

张量流

闷闷不乐

帕杜布

打开网页链接后,仅下载链接名称对应的文件

超过10000个语音文件,大约40小时。内容主要由文章和诗歌组成,都是女性的声音。出版

超过100000个语音文件,约100小时。内容主要是在线语音聊天和智能语音控制句子。

[行业资讯]

共有855名不同的演讲者同时拥有男性和女性的声音。它适用于各种场景。

包括大约100小时的中文语音数据。语料库由296部英语母语智能手机记录。转录准确率大于98%,置信水平为95%。转录本和话语之间的映射以JSON格式给出。

维基数据集

1043224份,104万份;原始文件大小为1.6g,压缩文件大小为519m;数据更新时间:2019年2月7日

在config下,配置相应的语料库路径。根路径就足够了

数据集的格式不同,因此需要稍微清理一下。该过程包括在WAV文件下生成相应的注释文件

等待数据清理完成。如果只保存了数据集的一部分,则可以有选择地对其进行清理

拼音用空格分隔,所有汉字中的空格、英文字母和数字都被忽略

您将获得以下格式的输出:

由于时间限制,我没有找到更多的语料库,所以我只编写了清理维基的方法:

清洁将需要两天以上的时间才能产生约2000W的样品

对下载的数据集进行统计,并输出相应的信息和图片。如果没有发生事故,控制台输出如下:

确保在清理数据后运行:检查文件并取消注释要训练的模型的代码

在运行之前,打开文件并更改模型的名称

该项目构建了一个简单的UI并封装了标识函数

为了更好地理解项目架构,这里有一些介绍

Reader是一个用于读取各种数据集和数据生成器的类

CTC,包括损耗封装和解码方法

谷氨酸盐

multi_据说GPU可以实现多个GPU的并行操作。我还没试过

base_ Model是基类。如果您根据基类的规范编写自己的模型,这是非常容易的。您只需构建模型,数据集和训练过程就可以完美封装

模型训练

实际使用测试

一个简单的卷积网络效果很差,因此被放弃

MapMap:提供拼音索引、字母索引和汉字索引三种类型的字典,可以相互转换,并支持单词listbatch的三级转换

其他:一些小工具通常是临时使用的……我写不出来

可读性可能有点差,但函数实际上相当完整

在发音清晰、语速正常和普通话标记你的情况下,一些识别效果还可以。大多数拼音都可以正确识别,但语言模型仍然很差

开源中文语音识别项目介绍:ASRFrame_第1张图片 如果没有发生事故,控制台输出如下: 热门话题

坦率地说,我没想到我的模型会这么好用。一开始我真的很惊讶。

这是一个完美的情况。如果实际使用该模型,效果将非常差。毕竟,清华大学数据集的同质性太高

开源中文语音识别项目介绍:ASRFrame_第2张图片 如果没有发生事故,控制台输出如下: 热门话题

开源中文语音识别项目介绍:ASRFrame_第3张图片 如果没有发生事故,控制台输出如下: 热门话题

开源中文语音识别项目介绍:ASRFrame_第4张图片 如果没有发生事故,控制台输出如下: 热门话题

截至2019年7月13日13:30:11,它仍在运行。所有数据集的损失减少到约15,准确率稳定在75%

这是一个反向应用程序。在发现somiao输入法的结构非常有用后,我将其移至声学模型部分,以构建这样的模型

未运行,正在等待更新

目前,模型的维护已停止,相关培训代码无法保证运行

该模型实际上是指somio输入法的keras版本及其网络结构。原始版本有700多万个参数。我删除了Gru并减少了拼接层的数量,将参数数量减少到300万以下。我发现它仍然运作良好。

开源中文语音识别项目介绍:ASRFrame_第5张图片 如果没有发生事故,控制台输出如下: 热门话题

开源中文语音识别项目介绍:ASRFrame_第6张图片 如果没有发生事故,控制台输出如下: 热门话题

同时,如果声学模型识别的错误语音的噪声系统性地增加,则联合模型的效果可能更好。我还没试过

拼音词典是从ASRT获得的词典。它删除了所有汉字,并在五个选定的数据集中进行了测试。它添加了一些与竹子声音无关的声音,包括:

此外,在培训期间删除了以下语料库:

除了剧本中提到的语料库外,他们中的大多数都有一些罕见的词。如果未删除,则可能会报告错误。建议更改脚本中的路径并运行以删除这些语料库

这些语料库中的大多数都是不寻常的词,味道很淡,扔掉也很可惜。我认为最好删除它们

由于未知原因,SOMM模型将在训练约50000批时报告错误停止。因为没有错误代码提示,所以问题的具体原因不清楚。因此,这里提供的解决方案是基于预先训练的模型继续训练

然而,存在一个问题,因为语言模型的训练是从大型语料库文件中读取的,因此重新训练需要从头读取,这可能会导致后续语料库训练的失败

因此,建议将语料库划分为小语料库,以训练整个语料库。在Linux中,split命令可用于分段,这里将不详细描述

音素词典的建立以音素为粒度训练模型

根据声学模型,将随机噪声添加到语言模型的语料库中

对其他模型的尝试

UI代码可读性增强

语言识别服务器部署

这个项目开始于2019年5月22日。我开始间歇性地检查一些信息。2019年6月19日正式开始,2019年7月13日结束。这个项目仍然存在一些问题,也就是说,我在待办事项列表中写道,但我仍然认为它是我所有项目中最好的。

目前,语音识别的开源环境非常糟糕,尤其是在Python中。因此,我希望我的项目能够为语音识别的开源环境做出一些细微的贡献,并为那些需要帮助的人提供一些帮助。如果这个目标能够实现,我将非常高兴。


发表评论

Copyright 2002-2022 by 思创留学网(琼ICP备2022001899号-3).All Rights Reserved.