Meta zaprezentowała właśnie AudioCraft, licencjonowaną platformę open-source do tworzenia wysokiej jakości realistycznej muzyki oraz dźwięku. Technologia ta została opracowana w celu wypełnienia luki na rynku generatywnej sztucznej inteligencji, ponieważ twórcy sztucznej inteligencji częściej oferują narzędzia do tworzenia tekstu lub obrazów. Mimo że poczyniono pewne postępy w dziedzinie audio to Meta słusznie zauważa, że istniejące rozwiązania są skomplikowane, płatne i niezbyt intuicyjne dla przeciętnego użytkownika.

Framework AudioCraft to nic innego, jak otwarta biblioteka PyTorch do maszynowego uczenia się, wykorzystywana także przy przetwarzaniu języka naturalnego. Składa się z takich komponentów takich jak MusicGen, AudioGen oraz EnCodec. Jak zauważa Meta, MusicGen generuje muzykę na podstawie danych wejściowych wprowadzonych przez użytkownika, podczas gdy AudioGen ma na celu tworzenie efektów dźwiękowych. EnCodec to z kolei roczna już technologia kodowania zdolna do „hiperkompresji” strumieni audio.

Innymi słowy wszystkie te trzy narzędzia umożliwiają przygotowanie od podstaw melodii / całych utworów, do tego przygotowanie środowiskowych efektów dźwiękowych, a na koniec wygenerowanie tego wszystkiego w możliwie wysokiej jakości i przy jak najmniejszej liczbie artefaktów. Twórcy AudioCraft podkreślają, że jest ono pierwszym tak prostym, a przy okazji otwartym narzędziem. Co więcej, idzie za tym także jakość, ponieważ model przeszkolony został ponoć na 400 tysiącach nagrań i 20 tysiącach godzin muzyki. To jak się spisuje można sprawdzić (odsłuchać) na oficjalnej stronie projektu - klik.

Źródło: Meta