/

2 August 2023

Audiocraft: Hoogwaardige audio en muziek genereren met generatieve AI-modellen

Meta heeft aangekondigd Audiocraft te lanceren, een raamwerk dat hoogwaardige audio en muziek genereert op basis van korte tekstbeschrijvingen. Audiocraft biedt een nieuwe benadering van de manier waarop generatieve modellen voor audio worden gebruikt, door het bieden van een verzameling geluids- en muziekgeneratoren.

Audiocraft bestaat uit drie generatieve AI-modellen: MusicGen, AudioGen en EnCodec. Elk van deze modellen bedient een specifiek aspect van het audioproductieproces, waardoor gebruikers in staat zijn om een breed scala aan audio-output te creëren.

Van de drie is MusicGen niet nieuw. Wat wel nieuw is, is dat Meta de trainingscode heeft vrijgegeven, zodat gebruikers het model kunnen trainen op hun eigen muziekdataset. Door de unieke muzikale smaak van elke gebruiker te leren, kan MusicGen een gepersonaliseerde muziekervaring bieden.

Hoewel het gebruik van MusicGen veel potentieel biedt, zijn er ook potentiële ethische en juridische problemen aan verbonden. MusicGen leert immers van bestaande muziek om soortgelijke effecten te produceren. Dit roept vragen op over auteursrecht en intellectueel eigendom, aangezien de gegenereerde muziek mogelijk elementen van de originele muziek bevat.

AudioGen richt zich specifiek op het genereren van omgevingsgeluiden en geluidseffecten, maar het kan ook spraak genereren. Dit laatste punt is bijzonder belangrijk in de huidige digitale wereld, waarin spraakherkenning en spraaksynthese centrale rollen spelen in veel technologieën.

EnCodec, het derde model, is een verbetering van een vorig model van Meta voor het genereren van muziek met minder artefacten. Dit betekent dat de door EnCodec geproduceerde muziek helderder en natuurlijker zal klinken dan die van de vorige modellen.

Meta erkent dat Audiocraft mogelijk misbruikt kan worden om iemands stem te deepfaken. Dit is een belangrijk aandachtspunt, gezien de toenemende bezorgdheid over de ethische implicaties van deepfake-technologie.

Toekomstplannen van Meta voor Audiocraft omvatten het onderzoeken van betere controleerbaarheid en prestatieverbeteringen voor generatieve audiomodellen. Dit betekent dat gebruikers in de toekomst mogelijk nog meer controle zullen hebben over de audio die ze produceren, en dat de kwaliteit van de gegenereerde audio verder zal verbeteren.

MusicGen is niet perfect en vertoont vooringenomenheid in zijn trainingsdata. Het presteert in het bijzonder slecht bij niet-Engelse beschrijvingen en niet-westerse muzikale stijlen en culturen. Dit toont aan dat er nog steeds ruimte is voor verbetering, vooral als het gaat om het waarborgen van diversiteit en inclusiviteit in AI-gestuurde technologieën.

Afsluitend kan worden gezegd dat Audiocraft een belangrijke stap voorwaarts is in de wereld van generatieve audio. Het biedt gebruikers een nieuw niveau van controle en maatwerk bij het creëren van audio, en het zal interessant zijn om te zien hoe deze technologie zich in de toekomst verder ontwikkelt.