SaraKIT PCB Set - плата для Raspberry Pi CM4
Товар
- 0 раз купили
- 0 оценка
- 10 осталось
- 0 отзывов
Доставка
Характеристики
Описание
SaraKIT to płytka rozszerzająca dla Raspberry Pi CM4. Wyposażona jest w 3 mikrofony z funkcją lokalizacji dźwięku i wyjściem stereo do realizacji projektów związanych ze sztuczną inteligencją i głosem. Dwa niezależne sterowniki BLDC pozwalają na ciche i precyzyjne sterowanie silnikami w projektach urządzeń. Jest wyposażona w interfejs CSI z dwiema kamerami oraz dwa akcelerometry, żyroskop i czujnik temperatury.
Twórz nowoczesne, wydajne i elastyczne produkty głosowe za pomocą Raspberry Pi, zintegrowane z Amazon Alexa, Google Assistant, ChatGPT itp.
Twórz roboty sterowane głosem. Komunikuj się z urządzeniami domowymi, biurowymi lub innymi rzeczami w życiu codziennym, a wszystko to za pomocą głosu.
Zastosowanie
- Inteligentny głośnik
- Inteligentne systemy asystentów głosowych
- Rejestratory głosu
- System konferencji głosowych
- Spotkanie ze sprzętem komunikacyjnym
- Robot interaktywny głosowo
- Samochodowy asystent głosowy
- Inne scenariusze wymagają poleceń głosowych
- Inne scenariusze wymagające cichych i precyzyjnych silników
Rozpoznawanie mowy za pomocą SaraKIT
SaraKIT jest wyposażony w trzy mikrofony i wyspecjalizowany procesor dźwięku, który oczyszcza głos i obsługuje rozpoznawanie mowy na Raspberry Pi, oferując znaczący krok w udostępnianiu funkcji poleceń głosowych w trybie offline, niezależnych od chmury. Chociaż wiele narzędzi do rozpoznawania mowy jest dostępnych online, a oparte na chmurze narzędzia do analizy danych, takie jak Google Speech to Text, należą do najlepszych i najbardziej wydajnych, jak omówiono w innym moim przewodniku, w tym artykule skupiono się na rozpoznawaniu mowy w trybie offline — bez konieczności korzystania z połączenie internetowe.
W poszukiwaniu najlepszego i najprostszego w konfiguracji narzędzia trafiłem na godne uwagi rozwiązanie, obecnie polecane do rozpoznawania mowy offline - Vosk API:
Zestaw narzędzi do rozpoznawania mowy Vosk
Vosk to zestaw narzędzi do rozpoznawania mowy typu open source w trybie offline, ułatwiający rozpoznawanie mowy w ponad 20 językach i dialektach, w tym angielskim, niemieckim, francuskim, hiszpańskim i wielu innych. Jej modele są kompaktowe (około 50 Mb), ale obsługują ciągłą transkrypcję dużego słownictwa, oferują reakcję bez opóźnień dzięki interfejsowi API przesyłania strumieniowego, oferują rekonfigurowalne słownictwo i identyfikują mówców. Vosk obsługuje szereg aplikacji, od chatbotów i inteligentnych urządzeń domowych po wirtualnych asystentów i tworzenie napisów, skalując od małych urządzeń, takich jak Raspberry Pi lub smartfony z systemem Android, po duże klastry.
Strona główna Vosk: https://alphacephei.com/vosk/
GitHub Vosk: https://github.com/alphacep/vosk-api
Instalacja na SaraKIT:
Zakładając, że podstawowe sterowniki SaraKIT są już zainstalowane https://sarakit.saraai.com/getting-started/software , wykonaj następujące kroki, aby zainstalować:
sudo apt-get install pip sudo apt-get install -y python3-pyaudio sudo pip3 install vosk git clone https://github.com/SaraEye/SaraKIT-Speech-Recognition-Vosk-Raspberry-Pi SpeechRecognition cd SpeechRecognition
Aby używać języka innego niż angielski, pobierz wymagany model języka ze strony https://alphacephei.com/vosk/models i umieść go w katalogu „models”.
Rozpocznij rozpoznawanie mowy, uruchamiając:
python SpeechRecognition.py
Poniżej znajduje się skrypt do rozpoznawania mowy w wybranym przez Ciebie języku, dostępny na
https://github.com/SaraEye/SaraKIT-Speech-Recognition-Vosk-Raspberry-Pi :
Może się zdarzyć, że wykorzystujesz całą moc Raspberry Pi na przykład do analizy obrazu, a wtedy może okazać się, że brakuje Ci mocy obliczeniowej do rozpoznawania mowy. W takich przypadkach konieczne będzie skorzystanie z analizy w chmurze na mocniejszym komputerze. Możesz skonfigurować własny serwer i nadal korzystać z Vosk lub możesz zdecydować się na inne narzędzia, takie jak Google Speech to Text.
Tekst na mowę za pomocą SaraKIT
SaraKIT jest wyposażony w trzy mikrofony i wyspecjalizowany procesor dźwięku, który oczyszcza dźwięk głosu i obsługuje rozpoznawanie mowy na Raspberry Pi z odległości do 5 metrów, zgodnie z opisem w naszym dziale „Rozpoznawanie mowy”. Jednak aby dokończyć konfigurację, zwracamy teraz uwagę na przetwarzanie tekstu na mowę (TTS), które może być niezwykle przydatne przy tworzeniu asystentów głosowych, urządzeń mówiących lub integracji z systemami automatyki domowej (HA). Chociaż najlepszymi obecnie dostępnymi systemami TTS są usługi online, takie jak ElevenLabs (płatne), które oferują najwyższą jakość głosu, lub Google Text to Speech (szczegóły w osobnej sekcji), tutaj skupiamy się na przetwarzaniu tekstu na mowę w trybie offline.
Po przeszukaniu Internetu w poszukiwaniu najlepszej, szybkiej i łatwej w instalacji opcji offline, Piper wyróżnia się jako najlepszy wybór (jeśli znajdziesz coś lepszego, daj nam znać).
Piper jest szybki, generuje wysokiej jakości głos w czasie rzeczywistym i jest zoptymalizowany pod kątem Raspberry Pi 4. Chociaż jego instalacja jest prosta, dodatkowo ją dla Ciebie uprościłem, a demonstrację z opisem znajdziesz poniżej.
Możesz przetestować Piper pod adresem:
https://rhasspy.github.io/piper-samples/
Piper na GitHubie:
https://github.com/rhasspy/piper
https://github.com/rhasspy/piper-phonemize (komponent dodatkowy)
Głosy dla Piper:
https://huggingface.co/rhasspy/piper-voices/tree/main
GitHub:
https://github.com/SaraEye (C++, Python examples)
YouTube SaraKIT Playlist:
https://www.youtube.com/playlist?list=PLOJbQ7GTI25qS3W62p32KOe1jh8DDpwMb
Гарантии
Гарантии
Мы работаем по договору оферты и предоставляем все необходимые документы.
Лёгкий возврат
Если товар не подошёл или не соответсвует описанию, мы поможем вернуть его.
Безопасная оплата
Банковской картой, электронными деньгами, наличными в офисе или на расчётный счёт.