如果没有发生事故,控制台输出如下:
由于项目经常更新,请参阅项目下的详细信息
10层卷积无法解决任何问题。
如果是,我们将再添加十层,添加一个剩余层,然后添加另一个
再加一颗星星!
一个完整的语音识别框架,包括从数据清理界面、数据读取界面、语音模型声学模型到最终模型集成和用户界面的一整套过程
目前,语音识别在声学部分的准确率已经相对较高,但在语言模型方面仍有许多问题有待解决。因此,我们希望我们能够共同努力,提高开源项目的效果。
数据接口易于使用。几个常用的数据集实现了这个接口。只需下载并解压缩。更改配置文件中的路径后,可以运行清理方法并自动获取所有音频和注释
将模型集成到几个当前的开源项目中,并训练相应的模型文件
更详细的注释和清晰的代码,易于学习和修改
识别率仍然是一个很大的痛点。从语音到拼音的识别率可以超过80%,但正确识别的可能性为100%。从拼音到汉字的识别率可能很低,但也有100%的正确识别可能性。这与环境语言速度的形而上学有关
包装有点太硬了。取出模型单独使用可能会很麻烦
蟒蛇
距离
化解霸权
凯拉斯
藏红花
努米
拼音
Python语音函数
毛茸茸的
张量流
闷闷不乐
帕杜布
打开网页链接后,仅下载链接名称对应的文件
超过10000个语音文件,大约40小时。内容主要由文章和诗歌组成,都是女性的声音。出版
超过100000个语音文件,约100小时。内容主要是在线语音聊天和智能语音控制句子。
[行业资讯]
共有855名不同的演讲者同时拥有男性和女性的声音。它适用于各种场景。包括大约100小时的中文语音数据。语料库由296部英语母语智能手机记录。转录准确率大于98%,置信水平为95%。转录本和话语之间的映射以JSON格式给出。
维基数据集
1043224份,104万份;原始文件大小为1.6g,压缩文件大小为519m;数据更新时间:2019年2月7日
在config下,配置相应的语料库路径。根路径就足够了
数据集的格式不同,因此需要稍微清理一下。该过程包括在WAV文件下生成相应的注释文件
等待数据清理完成。如果只保存了数据集的一部分,则可以有选择地对其进行清理
拼音用空格分隔,所有汉字中的空格、英文字母和数字都被忽略
您将获得以下格式的输出:
由于时间限制,我没有找到更多的语料库,所以我只编写了清理维基的方法:
清洁将需要两天以上的时间才能产生约2000W的样品
对下载的数据集进行统计,并输出相应的信息和图片。如果没有发生事故,控制台输出如下:
确保在清理数据后运行:检查文件并取消注释要训练的模型的代码
在运行之前,打开文件并更改模型的名称
该项目构建了一个简单的UI并封装了标识函数
为了更好地理解项目架构,这里有一些介绍
Reader是一个用于读取各种数据集和数据生成器的类
CTC,包括损耗封装和解码方法
谷氨酸盐
multi_据说GPU可以实现多个GPU的并行操作。我还没试过
base_ Model是基类。如果您根据基类的规范编写自己的模型,这是非常容易的。您只需构建模型,数据集和训练过程就可以完美封装
模型训练
实际使用测试
一个简单的卷积网络效果很差,因此被放弃
MapMap:提供拼音索引、字母索引和汉字索引三种类型的字典,可以相互转换,并支持单词listbatch的三级转换
其他:一些小工具通常是临时使用的……我写不出来
可读性可能有点差,但函数实际上相当完整
在发音清晰、语速正常和普通话标记你的情况下,一些识别效果还可以。大多数拼音都可以正确识别,但语言模型仍然很差
坦率地说,我没想到我的模型会这么好用。一开始我真的很惊讶。
这是一个完美的情况。如果实际使用该模型,效果将非常差。毕竟,清华大学数据集的同质性太高
截至2019年7月13日13:30:11,它仍在运行。所有数据集的损失减少到约15,准确率稳定在75%
这是一个反向应用程序。在发现somiao输入法的结构非常有用后,我将其移至声学模型部分,以构建这样的模型
未运行,正在等待更新
目前,模型的维护已停止,相关培训代码无法保证运行
该模型实际上是指somio输入法的keras版本及其网络结构。原始版本有700多万个参数。我删除了Gru并减少了拼接层的数量,将参数数量减少到300万以下。我发现它仍然运作良好。
同时,如果声学模型识别的错误语音的噪声系统性地增加,则联合模型的效果可能更好。我还没试过
拼音词典是从ASRT获得的词典。它删除了所有汉字,并在五个选定的数据集中进行了测试。它添加了一些与竹子声音无关的声音,包括:
此外,在培训期间删除了以下语料库:
除了剧本中提到的语料库外,他们中的大多数都有一些罕见的词。如果未删除,则可能会报告错误。建议更改脚本中的路径并运行以删除这些语料库
这些语料库中的大多数都是不寻常的词,味道很淡,扔掉也很可惜。我认为最好删除它们
由于未知原因,SOMM模型将在训练约50000批时报告错误停止。因为没有错误代码提示,所以问题的具体原因不清楚。因此,这里提供的解决方案是基于预先训练的模型继续训练
然而,存在一个问题,因为语言模型的训练是从大型语料库文件中读取的,因此重新训练需要从头读取,这可能会导致后续语料库训练的失败
因此,建议将语料库划分为小语料库,以训练整个语料库。在Linux中,split命令可用于分段,这里将不详细描述
音素词典的建立以音素为粒度训练模型
根据声学模型,将随机噪声添加到语言模型的语料库中
对其他模型的尝试
UI代码可读性增强
语言识别服务器部署
这个项目开始于2019年5月22日。我开始间歇性地检查一些信息。2019年6月19日正式开始,2019年7月13日结束。这个项目仍然存在一些问题,也就是说,我在待办事项列表中写道,但我仍然认为它是我所有项目中最好的。
目前,语音识别的开源环境非常糟糕,尤其是在Python中。因此,我希望我的项目能够为语音识别的开源环境做出一些细微的贡献,并为那些需要帮助的人提供一些帮助。如果这个目标能够实现,我将非常高兴。
发表评论