SG2002上での流式ASRの移植最適化

索引:S2312

アワード:15000中国元

プロジェクト説明

自然言語の音声対話は人間とコンピュータの対話の重要な形態の一つですが、高精度なASRモデルの計算量が膨大であるため、通常はクラウドでASRが実行され、人間とコンピュータのインタラクション体験が低下します。

本コンテストでは、SG2002プロセッサ上で高精度な流式ASRを移植することを目指し、中国語または英語のASR認識モデルを選択できます。目標は、限られたメモリ（256Mバイト）、リアルタイムストリーミング認識（RTF < 1）の要件の下で、できるだけ低いWERを実現することです。

参加者は、新世代のKaldi、Wenetなどのオープンソース音声認識プロジェクトを参考にして移植することができます。

成果物および評価要件：

SG2002のオンボードマイクを使用してリアルタイムオフライン音声認識を行います。
参加者は、RVV0.7、TPU、またはSG2002上の他の利用可能な計算リソースを使用して計算を行うことができます。
審査基準は、メモリの使用量、リアルタイム性、誤り率の3つの指標に基づいて総合的に評価されます。
メモリ使用量：SG2002には合計で256Mバイトのメモリがあり、このメモリ制限内でASR機能を実現する必要があります。
リアルタイム性：モデルはリアルタイムストリーミング認識をサポートする必要があり、即ちRTF<1、RTFは低いほど良い。
誤り率：上記の制限下でモデルは優れたWERを実現する必要があり、WERは少なくとも10%以下で基本的な実用性を実現し、できれば5%以下が望ましい。
最終的に、組織委員会は参加作品の正確性と性能の総合的な表現に基づいて評価を行い、これらはコンテスト審査委員会が設定した加重比率に基づいて最終得点が計算されます。得点が最も高い参加者が勝利を収めます。

**検証プラットフォーム：

提出説明

提出リポジトリのリンクは https://github.com/plctlab/rvspoc-s2312-asr-sg2002 です。
Pull Requestの形式で結果を上記のリポジトリに提出してください。
提出時には、再現に必要なソフトウェア環境を詳細に説明してください。「検受説明」に記載されているデフォルトのソフトウェア環境を参考に、必要に応じて変更を加えてください。
コンテスト期間中、最適化された内容の提出方法は以下の通りです：
バイナリ形式
暗号化されたソースコード形式（暗号化情報はrvspoc@cyberlimes.cnにメールで送信する必要があります）
ソースコード形式
最終結果の公開後、提出内容を完全にオープンソース化する必要があります。
主催者は、競技終了後（つまり2024年~~2月16日~~2月29日以降）、競技課題のリポジトリのPull Requestチャネルを閉鎖し、結果の検受を開始します。

検受説明

検証プラットフォームは SG2002（LicheeRV Nano/Milk-V duo 256** ¹）で、固定されたハードウェア仕様になります。
主催者は、条件1の基盤の上で、以下のようなソフトウェア環境を使用し、複数回のスコアリングを行った結果の平均値をベースラインとして、参加者の最適化後のデータと比較します：

待定

「成果及び評価要件」に記載された7つの項目を満たす必要があります。
競技の実際の最適化進行状況に応じて、未考慮の側面については、競技の進行に伴い調整される可能性がありますので、競技ウェブサイトに注目し続けてください。最終的な解釈権は競技の課題審査委員会に帰属します。

知的財産権およびオープンソースライセンスに関する説明：

すべての参加成果はオープンソースとして公開し、主催者が指定するリポジトリに提出する必要があります。参加者（著者）は作品の全ての権利を保有します。主催者は、参加者が成果をアップストリームにフィードバックして貢献することを奨励します。

LicheeRV Nano/Milk-V duo 256 購入リンク：
- LicheeRV Nano： https://sipeed.com/licheerv-nano
- Milk-V duo 256： https://milkv.io/duo （256Mバージョンを選択してください）
↩︎