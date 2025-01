Nagrania audio i wideo są bardzo przyjemną w odbiorze formą przekazywania informacji i prezentowania produktów lub usług. Jedną z najważniejszych zalet jest choćby to, że w zasadzie nie trzeba się na nich skupiać w stu procentach. Na swoim przykładzie, a także znajomych i rodziny zauważyłem, że relatywnie często zdarza się, że jakiś film odtwarzany jest w tle, a w tym czasie odbiorca tego materiału, zamiast oglądać, korzysta ze smartfonu, czyta książkę, gotuje obiad, sprząta lub po prostu leży i odpoczywa. Z tego względu powstają choćby podcasty, które publikowane są nie tylko w formie audio, ale też wideo. Trzeba jednak przyznać, że filmy i nagrania dźwiękowe mają też pewne wady. Przykładem może być trudność z wyszukiwaniem w nich konkretnych wyrazów czy zdań, a także kopiowanie fragmentów treści i przesyłanie ich dalej lub dodawanie do notatek. A ręczne wykonanie pełnego zapisu wideokonferencji online między kilkoma osobami, jest jeszcze trudniejszym zadaniem.

Autor: Tomasz Duda

Na szczęście można znaleźć narzędzia, które to zadanie ułatwią, a we współczesnych czasach nikogo chyba nie zdziwi fakt, że coraz więcej tych narzędzi korzysta ze sztucznej inteligencji w celu szybkiego przetworzenia mówionych słów na tekst. Jednym z nich jest usługa Notta.AI. Pierwsze pytanie brzmi: po co w ogóle przetwarzać mowę na tekst? Odpowiedzi jest oczywiście wiele, ale jedną z nich może być chęć archiwizacji treści. Osoby, które regularnie rozmawiają online ze współpracownikami lub prowadzą rozmowy biznesowe, wiedzą, że jeśli tej rozmowy nie zarejestrują, to część informacji może zostać zapomniana. Nawet jeśli taka rozmowa zostanie nagrana, to jej ponowne przesłuchanie wymaga czasu, bo nie koniecznie będziemy pamiętać, o czym rozmawialiśmy w danej minucie i sekundzie. Zamiast więc ręcznie notować to, o czym rozmawialiśmy, lepiej jest użyć narzędzia, które zrobi to automatycznie.

Chcesz zapisać treść wideokonferencji na żywo w postaci tekstu? Musisz szybko stworzyć napisy do wideo? A może masz nagrany wywiad lub rozmowę głosową i potrzebujesz zapisać je w dokumencie, lub wstawić do artykułu? W takim przypadku potrzebujesz odpowiedniego narzędzia do transkrypcji. Notta.AI posługuje się sztuczną inteligencją i rozpoznaje język polski. Pytanie tylko, czy zapewnia odpowiednią jakość?

Oprócz tego słowa przepisane do postaci tekstu mogą zostać szybko skopiowane i wklejone do jakiegoś dokumentu, e-maila, artykułu (np. jako cytat) lub wiadomości na czacie. Zresztą dotyczy to nie tylko rozmów na żywo, ale również zapisanych już nagrań. Może przecież zdarzyć się tak, że nagramy rozmowę z kimś na smartfonie czy dyktafonie (np. wywiad) i chcemy ją możliwie jak najszybciej przetworzyć do postaci edytowalnego tekstu cyfrowego, aby mogła być użyta w konkretnej publikacji. Ewentualnie nagramy wideo za pomocą aparatu i chcemy szybko wygenerować i edytować napisy. Tutaj zdecydowanie przydatne będzie narzędzie, które nie tylko dokona transkrypcji mowy na tekst, ale też podzieli go na konkretne osoby oraz do każdej części wypowiedzi doda znacznik czasu. Wspomniane narzędzie Notta.AI służy właśnie do tego. W dodatku pozwala od razu edytować błędy, oznaczać konkretne części wypowiedzi, dodawać grafiki do tekstu, wyszukiwać słowa lub sformułowania (włącznie z ich szybką zmianą na inne), przeskakiwać do wybranych znaczników na linii czasu, tłumaczyć tekst na inne języki, tworzyć automatyczne podsumowanie i eksportować do plików tekstowych lub MP3. Ma nawet asystenta bazującego na GPT-4, który może za nas wysłać choćby e-mail z kluczowymi informacjami pochodzącymi z danego nagrania.

Transkrypcja mowy do tekstu dzięki Notta.AI

Zaznaczę na początek, że ta publikacja nie ma być pełną recenzją narzędzia Notta.AI, lecz ma poinformować zainteresowanych o jej istnieniu, krótko opisać jej główne cechy i zachęcić do samodzielnego przetestowania usługi. Przy okazji chciałem sprawdzić, czy Notta.AI w ogóle nadaje się do transkrypcji po polsku. W żadnej mierze nie jest to tekst sponsorowany. Po prostu niedawno musiałem przetworzyć mowę na tekst i dlatego trafiłem na tę usługę. Warto tez wspomnieć o kilku ważnych sprawach. Po pierwsze: narzędzie Notta.AI na komputerach działa online i nie wymaga instalowania żadnego programu. Po drugie: w przeglądarkach internetowych można używać wtyczki / rozszerzenia, które wspomaga funkcjonalność narzędzia. Po trzecie: dostępna jest też wersja na smartfony z systemami Android oraz iOS i tutaj aplikacja oczywiście jest zalecana ze względu na łatwość obsługi. Po czwarte: Notta.AI obsługuje aż 104 języki, w tym język polski.

Niestety, jak można się zapewne domyślić, nie wszystkie funkcje są dostępne za darmo. Ta najważniejsza, podstawowa funkcjonalność, czyli transkrypcja mowy do tekstu z plików wideo lub audio jest bezpłatna, wraz z podziałem tekstu na rozmówców i oznaczaniem konkretnych sygnatur czasowych. Jednak za darmo mamy możliwość transkrypcji do 2 godzin materiałów miesięcznie. Usługa potrafi też wykonywać transkrypcję mowy w czasie rzeczywistym, choćby z mikrofonu w laptopie lub telefonie, choć tutaj ograniczenia czasowe są drastyczne, bo wynoszą zaledwie 3 minuty. Możliwe jest też nagrywanie obrazu z wyświetlacza, wraz z przetwarzaniem mowy na tekst w czasie rzeczywistym (przydatne podczas wideokonferencji lub nagrywania tzw. screencastów). Oczywiście w ramach bezpłatnej usługi dostajemy też edycję przetworzonego tekstu, łączenie bloków wypowiedzi danej osoby, kopiowanie, wyszukiwanie, szybką zmianę wyszukanych fraz, dodawanie zakładek (znaczników) i udostępnianie. Twórcy nie ograniczyli również możliwości automatycznego podziału wypowiedzi na osoby.

Niedostępne jest np. tworzenie automatycznego podsumowania przez AI, eksportowanie do konkretnych typów dokumentów (ale można to obejść poprzez kopiowanie tekstu), tłumaczenie na inne języki, pomijanie ciszy w nagraniach, dodawanie własnych słów do słownika, co może być bardzo przydatne, bo niektóre techniczne sformułowania lub nazwy własne nie zawsze będą prawidłowo rozpoznane (a niektóre produkty potrafią nazywać się bardzo dziwnie). Jednak jak zapewne możecie się domyślić, największym ograniczeniem jest właśnie dostępny czas transkrypcji oraz liczba urządzeń, które mogą jednocześnie używać usługi na tym samym profilu użytkownika. Jeśli ktoś ma zamiar używać Notta.AI regularnie i konwertować długie nagrania lub połączenia głosowe, to w zasadzie nie ma innego wyboru, niż kupno jednego z kilku planów subskrypcji. Najtańszy plan “Pro” kosztuje w przeliczeniu około 33 zł miesięcznie. Dostajemy za to 1800 minut miesięcznie, do 5 godzin pojedynczej transkrypcji, możliwość eksportowania nagrań i tekstu, podsumowanie transkrypcji wykonane automatyczne przez AI, tłumaczenie tekstu na inne języki i własny słownik. Każdy powinien sam ocenić, czy taka funkcjonalność mu wystarcza za lekko ponad “trzy dychy”.

Jak używać transkrypcji mowy w Notta.AI?

Po stworzeniu konta użytkownika logujesz się i widzisz ekran główny usługi, czyli Dashboard (interfejs nie jest przetłumaczony na język polski, ale dostępny jest np. język angielski). Tutaj najważniejsze funkcje widoczne są po prawej stronie, czyli nagrywanie i transkrypcja głosu na żywo (Record na Audio), importowanie plików z nagraniami audio lub wideo przeznaczonymi do transkrypcji (Import Files), kolejna transkrypcja, ale tym razem rozmów wideokonferencyjnych (Transcribe Live Meetings) oraz rejestrowanie filmów nagrywanych na urządzeniu (Record a Video), która dostępna jest obecnie w fazie Beta.

Jeśli chcesz zacząć od transkrypcji gotowego już nagrania głosowego lub rozmów zarejestrowanych na filmie, to wybierasz opcję Import Files, a następnie po prostu przeciągasz i upuszczasz plik w odpowiednie pole w oknie przeglądarki internetowej. Wspierane formaty to: wav, mp3, m4a, caf, aiff, avi, rmvb, flv, mp4, mov, wmv i wma. Możesz od razu wybrać język i zaznaczyć opcję “Enable speaker identification”, aby algorytmy AI samoczynnie rozpoznały głosy wszystkich osób rozpoznanych na nagraniu i odpowiednio podzieliły tekst transkrypcji. Warto dodać, że zaznaczenie tej opcji wydłuży trochę czas potrzebny na wykonanie tego zadania, ale warto z tego skorzystać jeśli słychać więcej niż jedną osobę, bo wtedy łatwiej jest zapanować nad gotowym tekstem. Uspokajam jednak, że trwa to całkiem krótko. Przykładowo 4-minutowe wideo było transkrybowane w około 12 sekund (świetny wynik moim zdaniem), a z włączoną funkcją identyfikacji rozmówców trwało to około 35 sekund, co też jest dobrym wynikiem.

Dla mnie najważniejszą rzeczą było jednak sprawdzenie, jak realnie wypada jakość transkrypcji mowy do tekstu w języku polskim. Nie wiem, jakie są Wasze doświadczenia, ale moje są takie, że nasz język często jest dość przeciętnie wspierany przez wiele podobnych usług oferowanych przez inne firmy niż polskie. Dlatego głównym założeniem było właśnie sprawdzenie jak algorytmy sztucznej inteligencji od Notta.AI spiszą się pod tym względem. W tym celu posłużyłem się tym filmem, nagranym kiedyś przez naszą redaktorkę Ewelinę. Specjalnie wybrałem nagranie, w którym osoba nie jest świadoma, że nagrywa głos do transkrypcji, żeby nieświadomie (lub świadomie) nie wypowiadała słów nadmiernie wyraźnie. Chodziło mi o w miarę naturalną mowę, nagraną niezbyt wyrafinowanym sprzętem. Mówi tutaj tylko jedna osoba, ale tyle wystarczy, by sprawdzić jakość rozpoznawania polskiej mowy, zwłaszcza że dźwięk był nagrany przez kamerę internetową, a nie profesjonalny mikrofon, co stanowi dodatkowe utrudnienie dla AI. Głosu na filmie możecie posłuchać sami, a poniżej umieszczam zrzut ekranu z fragmentem przetworzonym do postaci tekstowej.

Jakość transkrypcji w języku polskim

Jak widać, większość słów została rozpoznana prawidłowo, ale nie wszystkie. Nie będę przytaczał wielu przykładów, bo możecie je “wyłowić” sami ze zrzutów ekranowych, ale nie da się ukryć, że pewna część jest błędna. W filmie była opisywana kamera internetowa Jabra PanaCast 20, której nazwa nie koniecznie została rozpoznana prawidłowo. Powód jest prosty. Jest to nazwa własna produktu, a nie popularne polskie słowo, więc taką nazwę należałoby umieścić w słowniku, z którego algorytmy AI mogłyby ją wyciągnąć w prawidłowej formie. Tylko że ten słownik dostępny jest dopiero po wykupieniu choćby najprostszej subskrypcji (lekko ponad 30 zł). Problemy nie dotyczą jednak tylko nazw własnych. Przykład: słowo “laptopa” zostało rozpoznane jako “latowo”, a słowo “internetowych” jako “implementowych”.

Polak z całą pewnością usłyszy w filmie to, co trzeba, ale dla algorytmu AI wcale nie jest to takie oczywiste, zwłaszcza że dźwięk nagrany był kamerą internetową, więc nie jest wybitnie czysty, plus słychać lekki pogłos. Pochwalić warto jednak to, że zdania zbudowane są w miarę prawidłowo, czyli użyte są przecinki i kropki w mniej więcej odpowiednich miejscach. Ponadto wypowiedzi podzielone zostały na sekcje i oznaczone sygnaturami czasowymi. Rzecz jasna algorytm AI nie zna imion osób, które mówią, więc jeśli nie użyjesz podziału na osoby, to oznaczy je jako “Unknown speaker” (nieznany rozmówca), ale jeśli skorzystasz z tej opcji, to przy odpowiednich osobach będzie widoczne oznaczenie Speaker 1, Speaker 2 itd. Ważne jest jednak to, że jeśli pozycję Speaker 1 oznaczysz ręcznie jako np. Piotr, to niniejsze imię będzie widniało w każdym miejscu, w którym ten Piotr się wypowiada.

Przydatne opcje

Widać też szereg innych małych, ale przydatnych funkcji. Po najechaniu kursorem na konkretną część wypowiedzi pojawi się przycisk Play (odtwarzaj), który jak sama nazwa wskazuje, pozwala usłyszeć oryginalne audio z danego fragmentu. To ważne, bo dzięki temu możemy szybko sprawdzić, czy w tym wycinku transkrybowanego tekstu nie ma błędów. W miarę odtwarzania podświetlany jest aktualnie wypowiadany tekst. Oprócz tego po prawej stronie przy danym fragmencie wyświetla się małe menu kontekstowe, umożliwiające udostępnienie fragmentu, dodanie zakładek / znaczników, wstawienie pasującej grafiki, skopiowanie tekstu lub jego usunięcie. Kopiowanie może być przydatne choćby do tego, żeby za darmo przenieść treść do jakiegoś dokumentu, bo należy pamiętać, że opcja szybkiego zapisu do konkretnego formatu jest płatna. Ponadto można zaznaczyć też kilka fragmentów wypowiedzi tej samej osoby i połączyć je w jedną. W prawym górnym narożniku okna jest też ikona szkła powiększającego, czyli funkcja wyszukiwania. Można więc znaleźć błyskawicznie jakieś słowa czy całe sformułowania w tekście, a także zmienić je na inne.

Jeśli chodzi o pozostałe funkcje, to warto wspomnieć o tym, że jeśli chcesz wykonać transkrypcję spotkania na żywo (np. wideokonferencji), to masz do wyboru choćby Zoom, Teams, Google Meet czy Webex. Wybierasz język, podajesz usłudze Notta.AI link do spotkania online i pozwalasz botowi (Notta Bot) dołączyć do tego spotkania. Staje się więc on czymś w rodzaju cichego uczestnika połączenia wideo, który po prostu przekształca rozmowę głosową w tekst z podziałem na osoby. Można nawet połączyć Notta.AI z Microsoft Outlook lub Kalendarzem Google, by automatycznie aktywować usługę w zaplanowanych już wydarzeniach. W mojej opinii to bardzo przydatna opcja, dzięki której można częściowo zautomatyzować używanie tej usługi.

Nagrywanie i transkrypcja audio na żywo też wygląda banalnie. Zwyczajnie uruchamiasz odpowiednią opcję, upewniasz się, że rejestrowanie jest aktywne (przyciski i pasek na dole) i po prostu mówisz. Twój głos będzie rozpoznawany i po sekundzie lub dwóch pojawi się na wyświetlaczu. Przydatna opcja zwłaszcza podczas wywiadu itp. Rzecz jasna do tych nagrań i transkrypcji można później wrócić, bo są zapisywane na koncie użytkownika. Tutaj problem jest tylko taki, że podczas transkrypcji na żywo nie są wstawiane przecinki i kropki (są tylko spacje). Kończysz więc z dość jednorodnym bokiem tekstu. Można też nagrać wideo z ekranu, pamiętając, żeby wybrać odpowiednią opcję (np. konkretne okno programu lub cały ekran).

Jak to wszystko podsumować? Moim zdaniem podstawowa funkcjonalność niektórym osobom może wystarczyć, zwłaszcza jeśli ktoś chce korzystać z transkrypcji głosu na tekst z gotowych, nagranych już plików audio i wideo. Te 120 minut miesięcznie to nie jest dużo, ale części osób wystarczy. Dużym plusem jest łatwość obsługi i przejrzystość interfejsu. Ergonomia korzystania z Notta.AI jest bardzo dobra. Najważniejsza jest jednak kwestia jakości transkrypcji. Tutaj jest w miarę dobrze, ale z pewnością nie idealnie. Błędy pojawiają się regularnie i, mimo że stanowią one relatywnie niewielki procent całości tekstu, to wciąż wymagają jego przejrzenia, sprawdzenia i wprowadzenia poprawek. Przynajmniej na razie, bo Notta.AI jest rozwijana, więc można mieć nadzieję, że język polski będzie wspierany jeszcze lepiej niż teraz. Czy taka transkrypcja mowy do tekstu spełnia Twoje oczekiwania za darmo? Daj znać w komentarzu co sądzisz o Notta.AI.