“Meta” lanceert robots die gegevens van internet verzamelen op manieren die moeilijk te voorkomen zijn
24-08-2024T08:45:10+00:00
Shafaq News/Meta Company heeft softwarerobots gelanceerd die gegevens van internet verzamelen ter ondersteuning van de kunstmatige-intelligentiemodellen en aanverwante producten, maar ze zijn uitgerust met mogelijkheden die het voor website-eigenaren moeilijk maken om te voorkomen dat ze hun inhoud verzamelen.
Meta zei dat de nieuwe robot, Meta-External Agent, is ontworpen “voor toepassingen zoals het trainen van kunstmatige intelligentiemodellen of het verbeteren van producten door het direct indexeren van inhoud.” Een andere robot, Meta-ExternalFetcher, is gekoppeld aan het slimme assistent-aanbod van het bedrijf en verzamelt links om specifieke productfuncties te ondersteunen.
Deze bots verschenen afgelopen juli voor het eerst, volgens gearchiveerde metapagina’s die zijn geanalyseerd door Originality.ai, een startup die gespecialiseerd is in het ontdekken van inhoud die is gemaakt met behulp van kunstmatige intelligentie, aldus Business Insider.
In de race om de krachtigste modellen voor kunstmatige intelligentie te bouwen, concurreren startups en technologiegiganten om hoogwaardige trainingsgegevens te verkrijgen, en een van de basismethoden om dit te bereiken is het sturen van softwarerobots naar websites om inhoud te verzamelen via ‘data scraping’-technologie. , dat door veel bedrijven, waaronder Google, OpenAI en Anthropic, wordt gebruikt om hun intelligente modellen te trainen.
Als inhoudseigenaren willen voorkomen dat deze robots inhoud verzamelen die op hun websitepagina’s is gepubliceerd, vertrouwen ze op een oude regel die bekend staat als het ‘robots.txt’-bestand, waarin sites een reeks opdrachten en instructies schrijven die verduidelijken wat deze robots mogen. en dat is verboden. Dit bestand is een essentieel onderdeel van de onofficiële regels die de architectuur van het internet sinds eind jaren negentig ondersteunen.
De wanhopige behoefte aan AI-trainingsgegevens heeft dit systeem echter ondermijnd, en afgelopen juni werd onthuld dat OpenAI en Anthropic de regels negeerden die vermeld staan in het ‘robots.txt’-bestand op websites.
Het lijkt erop dat Meta een vergelijkbare aanpak volgt, aangezien het bedrijf waarschuwde dat zijn nieuwe robot, Meta-External Fetcher, “de regels van het robots.txt-bestand zou kunnen omzeilen”, naast dat zijn robot, Meta-External Agent, presteert twee verschillende taken, waarvan er één het verzamelen van trainingsgegevens voor kunstmatige intelligentie is, en de andere het indexeren van inhoud op websites, wat het proces van het blokkeren ervan bemoeilijkt.
Website-eigenaren willen misschien voorkomen dat Meta hun gegevens gebruikt om modellen voor kunstmatige intelligentie te trainen, maar tegelijkertijd zijn ze misschien blij met het indexeren van hun sites om het aantal bezoekers te vergroten, en dus neemt Meta zijn toevlucht tot het combineren van de twee functies in één robot, waardoor het is moeilijk te blokkeren.
Volgens het rapport ‘Originality.ai’ blokkeert slechts 1,5% van de grote sites de nieuwe Meta-ExternalAgent-bot.
Daarentegen is Meta’s oudere Facebook Bot, die al jaren gegevens verzamelt om grote taalmodellen en stemherkenningstechnieken te trainen, geblokkeerd door ongeveer 10% van de grote sites, waaronder X en Yahoo, meldde Originality “.ai”.
De andere nieuwe bot, Meta-External Fetcher, wordt geblokkeerd door minder dan 1% van de grote sites.
“Bedrijven moeten sites de mogelijkheid bieden om te voorkomen dat hun gegevens worden gebruikt in trainingen, zonder de zichtbaarheid van hun inhoud in hun producten te verminderen”, zegt John Yelham, CEO van Originality.ai.
Een onderzoek uitgevoerd door onderzoekers van de Universiteit van Massachusetts heeft een model ontwikkeld voor het programmeren van robots waarmee ze ‘werkteams’ kunnen vormen en vrijwillig op hun teamgenoten kunnen wachten totdat de taken zijn voltooid.
Gillham wees erop dat Meta eerdere beslissingen van site-eigenaren die oudere bots hebben geblokkeerd niet respecteert. Als een site bijvoorbeeld een ‘Facebook Bot’ blokkeert om te voorkomen dat zijn gegevens worden gebruikt om ‘taalmodellen voor stemherkenningstechnologie’ te trainen, zal deze site dat doen. zal het waarschijnlijk ook willen verbieden Meta-External Agent om te voorkomen dat zijn gegevens worden gebruikt om “AI-modellen te trainen”, dus het was duidelijk dat het verbod automatisch zou worden toegepast.
Een woordvoerder van Meta gaf commentaar op deze kritiek en legde uit dat het bedrijf ‘het voor uitgevers gemakkelijker probeert te maken om hun voorkeuren te specificeren’.
“Wij trainen, net als andere bedrijven, onze generatieve AI-modellen op inhoud die publiekelijk online beschikbaar is, en we realiseren ons dat sommige uitgevers en site-eigenaren keuzes willen als het gaat om hun sites en generatieve AI”, voegde hij eraan toe in een e-mail aan Business Insider. .
De woordvoerder voegde eraan toe dat Meta verschillende robots heeft om gegevens van internet te verzamelen, om te voorkomen dat “alle toepassingen onder één agent worden verzameld, wat meer flexibiliteit biedt voor uitgevers op internet.”