项目描述
自然语音交互是人机交互的重要形式之一,但由于高精度的 ASR 模型的运算量巨大,导致 ASR 通常在云端执行,降低了人机交互的体验感。
本次竞赛旨在算能 SG2002 处理器上移植高精度的流式 ASR,可选汉语或者英语的 ASR 识别模型,目标是在受限内存 (256MByte)、实时流式识别 (RTF<1) 的要求下,实现尽可能低的 WER。
参赛者可以参考新一代 Kaldi,Wenet 等开源语音识别项目进行移植。
产出及评分要求
- 使用 SG2002 的板载麦克风进行实时离线语音识别
- 参赛者可以使用 RVV0.7,TPU 或 SG2002 上其它可用的计算资源进行计算
- 评审标准将对 内存占用,实时率,错误率 三方面指标进行综合打分
- 内存占用:SG2002 上总共有 256MByte 的内存,需要在这个内存限制下实现 ASR 功能。
- 实时率:模型需要支持实时流式识别,即 RTF<1,RTF 越低越优秀
- 错误率:模型在上述限制下需要实现优秀的 WER,WER 至少要在 10% 以内才能实现基础的实用性,最好在 5% 以内
- 最终,组委会将根据参赛作品的正确性和性能的综合表现进行评分,两者将按照赛题评审委员会设定的加权比例计算出最终得分,得分最高的参赛者将获得胜利
提交说明
- 提交仓库链接为 https://github.com/plctlab/rvspoc-s2312-asr-sg2002
- 请以 Pull Request 的形式,将结果提交到上述仓库中。
- 提交时,请详细说明复现所需要的软件环境,可以参照「验收说明」内默认软件环境做修改。
- 在比赛期间,所有经过优化过的内容的提交方式可以有:
- 二进制的形式
- 加密源码的形式(加密信息需通过邮件发送至 rvspoc@cyberlimes.cn)
- 源码形式
- 最终结果公布后,需对提交内容进行完整开源。
- 组委会会在比赛结束后(即 2024 年
2 月 16 日2 月 29 日以后),关闭赛题仓库的 Pull Request 通道,并开始对结果进行验收。
验收说明
- 验证平台为 SG2002(LicheeRV Nano/Milk-V duo 256 1),固定的硬件规格。
- 组委会会在条件 1 的基础上,使用如下软件环境,将经过多次跑分所产生的平均值作为基线,与选手优化过后的数据进行比较:
- 待定
- 满足「产出及评分要求」所列出 7 条项目。
- 根据赛题的实际优化进展,针对未考虑到的方面,随着比赛进程的推进可能会有调整,请保持对赛事网站的关注,最终解释权归属于比赛的赛题评审委员会。
知识产权及开源协议说明
所有参赛结果要求开源,并提交至主办方指定仓库。参赛者(作者)持有作品的所有权。主办方鼓励参赛者将结果回馈贡献至 upstream。
-
LicheeRV Nano/Milk-V duo 256 购买链接:
- LicheeRV Nano: https://sipeed.com/licheerv-nano
- Milk-V duo 256: https://milkv.io/duo (请选择 256M 版本)