SG2002에서의 스트리밍 ASR 이식 최적화

색인:S2312

어워드:15000중국 위안

프로젝트 설명：

자연어 음성 대화는 인간과 컴퓨터 간의 중요한 상호 작용 형태 중 하나이지만, 고정밀 ASR 모델의 계산량이 방대하여 일반적으로 클라우드에서 ASR이 실행되고, 이로 인해 인간과 컴퓨터의 인터랙션 체험이 저하됩니다.

이번 대회에서는 SG2002 프로세서 상에서 고정밀 스트리밍 ASR을 이식하는 것을 목표로 하며, 중국어 또는 영어 ASR 인식 모델을 선택할 수 있습니다. 목표는 제한된 메모리(256MB), 실시간 스트리밍 인식(RTF < 1) 요구 사항 하에서 가능한 한 낮은 WER(Word Error Rate)을 달성하는 것입니다.

참가자들은 새로운 세대의 Kaldi, Wenet 등 오픈소스 음성 인식 프로젝트를 참고하여 이식 작업을 수행할 수 있습니다.

결과물 및 평가 요건：

SG2002의 온보드 마이크를 사용하여 실시간 오프라인 음성 인식을 수행합니다.
참가자는 RVV0.7, TPU 또는 SG2002상의 기타 사용 가능한 계산 리소스를 사용하여 계산을 수행할 수 있습니다.
심사 기준은 메모리 사용량, 실시간성, 오류율의 세 가지 지표를 기반으로 종합적으로 평가됩니다.
메모리 사용량: SG2002에는 총 256MB의 메모리가 있으며, 이 메모리 제한 내에서 ASR 기능을 구현해야 합니다.
실시간성: 모델은 실시간 스트리밍 인식을 지원해야 하며, 즉 RTF < 1, RTF는 낮을수록 좋습니다.
오류율: 위의 제한 하에서 모델은 우수한 WER을 달성해야 하며, WER은 적어도 10% 이하로 기본적인 실용성을 달성하고, 가능하다면 5% 이하가 바람직합니다.
최종적으로, 조직위원회는 참가 작품의 정확성과 성능의 종합적인 표현을 기반으로 평가를 수행하며, 이는 대회 심사위원회가 설정한 가중 비율에 따라 최종 점수가 계산됩니다. 점수가 가장 높은 참가자가 승리를 차지합니다.

제출 설명

제출 리포지토리 링크는 https://github.com/plctlab/rvspoc-s2312-asr-sg2002 입니다.
결과는 위의 리포지토리에 Pull Request 형태로 제출해 주세요.
제출 시, 재현에 필요한 소프트웨어 환경을 자세히 설명해 주세요. ‘검수 설명’에 기재된 기본 소프트웨어 환경을 참고하되, 필요에 따라 변경사항을 추가해 주세요.
대회 기간 중 최적화된 내용의 제출 방법은 다음과 같습니다:
1. 바이너리 형식
2. 암호화된 소스 코드 형식 (암호화 정보는 rvspoc@cyberlimes.cn으로 이메일을 통해 제출해야 합니다)
3. 소스 코드 형식
최종 결과가 공개된 후, 제출된 내용은 완전히 오픈 소스화되어야 합니다.
주최자는 대회 종료 후 (즉, 2024년 ~~2월 16일~~ 2월 29일 이후) 대회 과제의 리포지토리 Pull Request 채널을 닫고 결과의 검수를 시작할 것입니다.

검수 설명

검증 플랫폼은 SG2002（LicheeRV Nano/Milk-V duo 256 ¹）로, 고정된 하드웨어 사양을 사용합니다.
주최자는 조건 1의 기반 위에서 다음과 같은 소프트웨어 환경을 사용하고, 여러 번의 스코어링을 진행한 결과의 평균값을 기준선으로 하여, 참가자의 최적화 후 데이터와 비교할 것입니다:

아직 결정되지 않았어요.
‘성과 및 평가 요구 사항’에 기재된 7가지 항목을 만족해야 합니다.
대회의 실제 최적화 진행 상황에 따라 고려되지 않은 측면이 있을 수 있으므로, 대회의 진행에 따라 조정될 수 있습니다. 계속해서 대회 웹사이트를 주시하시기 바랍니다. 최종 해석권은 대회 과제 심사위원회에 있습니다.

지적 재산권 및 오픈 소스 라이선스에 관한 설명：

모든 참가 작품은 오픈 소스로 공개되어야 하며, 주최자가 지정하는 저장소에 제출해야 합니다. 참가자(저자)는 작품의 모든 권리를 보유합니다. 주최자는 참가자가 결과물을 업스트림에 피드백하여 기여하는 것을 권장합니다.

LicheeRV Nano/Milk-V duo 256 구매 링크：
- LicheeRV Nano： https://sipeed.com/licheerv-nano
- Milk-V duo 256： https://milkv.io/duo （256M 버전을 선택하십시오）
↩︎