Transkrypcja na żywo: Google ułatwia rozmowy w 70 językach
Zaprezentowana pod koniec styczna aplikacja Transkrypcja na żywo (Live Transcribe) może mocno odmienić życie osób niedosłyszących, usprawnić realizację notatek na studiach oraz nieco uprościć życie reporterom i dziennikarzom (poza jednym aspektem, dotyczącym interpunkcji). Transkrypcja na żywo dostępna jest obecnie w wersji z wczesnym dostępem, jednak jak na próbną, demonstracyjną wersję technologii sprawdzi się w roli dyktafonu, wyposażonego w opcję cyfrowego przekładu mowy na zapis tekstowy. Jak na razie można potraktować nową aplikację Googla jako ciekawostkę, transkrypcji mowy nie da się skopiować do innego programu. Za to Live Transcribe wyposażono w możliwość równoległego wprowadzania notatek tekstowych, uzupełniających lub komentujących wypowiedzi.
Transkrypcja na żywo umożliwia mi bardziej elastyczną i skuteczną komunikację z osobami słyszącymi. Uwielbiam ją za to, w jaki rozwiązuje mój problem z komunikacją. - Dr Mohammad Obiedat, Gallaudet Univeristy
Na razie możemy więc wypróbować technologię stojącą za Asystentem Google’a i rozpoznawaniem mowy do celów nieco innych niż głosowe dyktowanie adresu nawigacji, czy wyszukiwanie fraz w internecie. Transkrypcja na żywo powstała przy współpracy z Uniwersytetem Gallaudeta, pierwszą uczelnią która uwzględnia wykłady prowadzone dla osób niesłyszących (na terenie kampusu studenci nie używają klasycznych form komunikacji głosowej). W aplikacji Google’a za podstawowy cel jej twórcy postawili sobie wsparcie dla osób niesłyszących i niedosłyszących. Zgodnie z szacunkami WHO w 2050 roku nawet 900 ludzi może dotyczyć problem uszkodzenia słuch, obecnie ponad miliard młodych ludzi jest narażonych na hałas przyczyniający się do utraty słuchu. Live Transcribe to standardowe wyposażenie telefonów Google Pixel 3, opcję aktywacji transkrypcji mowy można znaleźć w ustawieniach tego telefonu.
Nad systemem rozpoznawania mowy pracował w Google Dimitri Kanevski, wcześniejszy twórca urządzenia Artificial Passenger dla IBM, symulującego rozmowę z kierowcą podczas jazdy. Live Transcribe oferuje kilka ciekawych opcji, uwzględniających m.in. możliwość przełączenia pomiędzy dwoma językami rozpoznawanymi podczas transkrypcji, narzędzia do zastępowania wulgaryzmów symbolami gwiazdek (sprawdziliśmy, nie są w pełni skuteczne), monitoring poziomu szumu tła oraz sygnalizację przerwania i wznowienia wypowiedzi przez rozmówcę. W obecnej wersji dla języka polskiego nie została uwzględniona interpunkcja. Oprogramowanie nieźle radzi sobie z kontekstem, dostosowując fragmenty wypowiedzi do kolejnych, zarejestrowanych słów. Oprócz wbudowanego w smartfon mikrofonu, do rejestrowania wypowiedzi można wykorzystać zewnętrzne urządzenia (mikrofony podłączone do gniazda mini jack lub komunikujące się przez Bluetooth). Google zaleca wspomaganie rejestracji nagrań aplikacją Sound Amplifier, umożliwiającą redukcję szumów otoczenia.
Powiązane publikacje

ARM ma już 40 lat. Architektura, która zasila smartfony, serwery i roboty, trafiła do ponad 250 miliardów urządzeń
27
Anthropic chce zajrzeć do wnętrza AI. Czy do 2027 roku odkryjemy, jak naprawdę myślą modele językowe?
22
Firma Elona Muska xAI chce pozyskać 25 miliardów dolarów na budowę superkomputera Colossus 2 z milionem GPU NVIDIA
60
Nowatorski interfejs mózg-komputer od Georgia Tech może zmienić sposób, w jaki ludzie komunikują się z technologią i otoczeniem
4