/

6 April 2023

Een onderzoek naar de gebruikte datasets van ChatGPT

Datasets

De afgelopen maanden is de populariteit van AI-chatbots enorm toegenomen. Hoewel deze chatbots niet kunnen denken als mensen en menselijke teksten slechts imiteren door enorme hoeveelheden tekst te verwerken, blijven techbedrijven vaak geheimzinnig over de informatie die ze aan hun AI voeren. In dit bespreken we de websites die in deze dataset zijn opgenomen en de mogelijke gevolgen daarvan.

 

Onderzoeksjournalisten bij The Washington Post hebben onlangs onderzocht welke websites worden gebruikt bij het trainen van AI-chatbots. Onder andere word de C4-dataset van Google gebruikt deze dataset bevat 15 miljoen websites, waaronder Google’s T5 en Facebook’s LLaMA. De meest voorkomende industrieën in de dataset zijn journalistiek, entertainment, softwareontwikkeling, geneeskunde en contentcreatie.

 

De drie grootste sites in de C4-dataset zijn patents.google.com, wikipedia.org en scribd.com. Daarnaast zijn er 27 sites opgenomen die door de Amerikaanse overheid zijn geïdentificeerd als markten voor piraterij en vervalsingen. Enkele andere opmerkelijke websites lijken willekeurig te zijn gekozen, zoals een World of Warcraft-forum en een site voor het bestrijden van burn-out.

 

Twee van de top 100 websites bevatten privé gehoste kopieën van staatskiesregisters, wat privacyproblemen met zich meebrengt. Kunstenaars ontvangen geen compensatie wanneer hun werk wordt opgenomen in AI-trainingsgegevens. Bovendien verschijnt het auteursrechtsymbool meer dan 200 miljoen keer in de C4-dataset, wat suggereert dat er meer juridische uitdagingen kunnen volgen.

 

De helft van de top 10 websites in de dataset waren nieuwsuitzendingen. Daarnaast bevat de dataset meer dan een half miljoen persoonlijke blogs. Google heeft op haar dataset filters toegepast om enkele problematische inhoud, zoals pornografische websites en hakenkruizen, uit de dataset te verwijderen. Desondanks slaagden de filters er niet in om enkele verontrustende inhoud te verwijderen, zoals een white supremacy-site en een anti-trans site.

 

Veel bedrijven documenteren de inhoud van hun trainingsgegevens niet vanwege de angst voor het vinden van persoonlijke informatie en auteursrechtelijk beschermd materiaal. Dit roept vragen op over de transparantie en verantwoordelijkheid van deze bedrijven bij het ontwikkelen van AI-chatbots.

 

Het onderzoek van The Washington Post naar de C4-dataset van Google onthult interessante en soms verontrustende informatie over de websites die worden gebruikt om AI-chatbots te trainen. Dit roept vragen op over de verantwoordelijkheid van techbedrijven, de bescherming van privacy en auteursrechten, en de noodzaak van transparantie bij het ontwikkelen van AI-technologieën.

 

bron: https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/