Описание задачи:
Естественное голосовое взаимодействие является одной из важных форм взаимодействия человека с компьютером, однако из-за огромной вычислительной нагрузки высокоточных моделей ASR, ASR обычно выполняется в облаке, что снижает ощущение взаимодействия человека с компьютером.
Цель этого конкурса - получить возможность портировать высокоточный потоковый ASR на процессор SG2002 с дополнительными моделями распознавания ASR на китайском или английском языках. Цель состоит в достижении минимально возможного WER при требованиях ограниченной памяти (256 Мбайт) и потокового распознавания в реальном времени (RTF <1).
Участники могут обратиться к новому поколению Kaldi, Wenet и другим проектам распознавания речи с открытым исходным кодом для портирования.
Требования:
- Используйте встроенный микрофон SG2002 для автономного распознавания речи в реальном времени.
- Участники могут использовать для вычислений RVV0.7, TPU или другие доступные вычислительные ресурсы на SG2002.
- Критерии оценки будут комплексно оценивать три показателя: использование памяти, скорость работы в реальном времени и частоту ошибок.
- Использование памяти: общий объем памяти SG2002 составляет 256 МБ, и функция ASR должна быть реализована в пределах этого ограничения памяти.
- Скорость в реальном времени: модель должна поддерживать распознавание потоковой передачи в реальном времени, то есть RTF<1, чем ниже RTF, тем лучше.
- Частота ошибок: модель должна иметь превосходный WER при вышеуказанных ограничениях. WER должен находиться как минимум в пределах 10% для достижения базовой практичности, а лучше — в пределах 5%.
- В конце концов, оргкомитет выставляет оценки на основании правильности и полноты выполнения заявок. Итоговый балл рассчитывается в соответствии с взвешенным соотношением, установленным конкурсной комиссией. Победителем становится участник, набравший наибольшее количество баллов.
Инструкции по предоставлению
- Ссылка на репозиторий для отправки: https://github.com/plctlab/rvspoc-s2312-asr-sg2002.
- Пожалуйста, отправьте результат в вышеуказанный репозиторий в форме Pull Request.
- При отправке, пожалуйста, укажите программное окружение, необходимое для воспроизведения, для внесения изменений вы можете обратиться к программному окружению по умолчанию, указанному в “Инструкциях по приему”.
- В период проведения конкурса весь оптимизированный контент может быть представлен следующими способами:
- в бинарном виде
- в виде зашифрованного исходного кода (зашифрованная информация должна быть отправлена по электронной почте на адрес rvspoc@cyberlimes.cn)
- исходный код
- После объявления окончательных результатов поданные заявки должны быть полностью открыты.
- Оргкомитет закроет канал Pull Request в репозитории конкурса после окончания конкурса (т.е. после
16 февраля29 февраля 2024 года) и начнет принимать результаты.
Инструкции по приемке
- валидационной платформой является SG2002 (LicheeRV Nano/Milk-V duo 256 1) с фиксированными аппаратными характеристиками.
- Оргкомитет будет использовать следующую программную среду, основанную на Условии 1, для сравнения среднего значения, полученного после нескольких прогонов очков в качестве базового уровня, с данными, оптимизированными участниками:
- TBD
- выполнить 7 пунктов, перечисленных в “Требованиях к выходу и подсчету очков”.
- **В соответствии с фактическим ходом оптимизации вопросов, по мере проведения конкурса могут быть внесены корректировки по аспектам, которые не были учтены, поэтому, пожалуйста, следите за сайтом конкурса, а окончательная интерпретация принадлежит комитету по оценке вопросов конкурса. **
Описание прав интеллектуальной собственности и соглашений с открытым исходным кодом:
Все результаты конкурса должны быть с открытым исходным кодом и опубликуется по указанному репозитория организатора. Право собственности на работу принадлежит участнику (автору). Организатор призывает участников внести код обратно в сообщество апстрима.
-
Ссылка на покупку LicheeRV Nano/Milk-V duo 256:
- LicheeRV Nano: https://sipeed.com/licheerv-nano
- Milk-V duo 256: https://milkv.io/duo (Пожалуйста, выберите версию 256M)