19 mei 2026

Werknemers als trainingsdata: Microsoft, Meta en xAI

Microsoft heeft 100.000 engineers. Meta tracket muis en toetsenbord. xAI biedt $420 voor je belastingaangifte. De volgende AI-trainingsdata komt van eigen personeel — en dat heeft gevolgen voor hoe jij je eigen AI-stack inricht.

Microsoft heeft een wapen dat Anthropic en Cursor niet hebben: ongeveer 100.000 eigen developers. Meta gebruikt muisbewegingen van werknemers. xAI biedt $420 voor je belastingaangifte. De AI-race gaat een nieuwe fase in — en je collega's zijn de trainingsdata.

Wie betaalt voor de volgende generatie modellen?

Het korte antwoord: de werknemers zelf. Niet in geld, maar in data. De grote AI-labs hebben publiek internet al uitgekamd, een groot deel van YouTube, GitHub en Reddit afgegraasd, en lopen tegen de muur van auteursrechtelijk gedoe en uitputting van bronnen. De volgende laag — hoge kwaliteit, niet eerder gezien door een ander model — komt uit één plek: de mensen die elke dag voor het bedrijf werken.

Wat opvalt is hoe verschillend de drie grote spelers dit aanpakken, en hoe ongegeneerd het inmiddels gebeurt.

Microsoft: 100.000 engineers als RLHF-pool

Microsoft loopt in coding-AI achter op Anthropic en Cursor. Intern gebruiken steeds meer Microsoft-engineers Claude Code in plaats van GitHub Copilot. Maar Microsoft heeft één ding wat zijn concurrenten niet hebben: een leger van ongeveer 100.000 software engineers in dienst.

Volgens recente rapportages verzamelt Microsoft data uit zijn interne VSCode-installaties, uit de broncode van Xbox-game studios die Microsoft bezit, en — interessanter nog — uit het gedrag van zijn eigen engineers in GitHub Copilot. Welke suggesties accepteren ze? Welke negeren ze? Welke wijzigen ze voor ze de regel committen?

Dat laatste is geen ruwe trainingsdata, dat is iets veel waardevollers: preference data. Het soort signaal waar reinforcement learning-pipelines op draaien. Microsoft probeert daarom actief eigen mensen terug naar Copilot te duwen in plaats van Claude Code te laten gebruiken — niet alleen voor het narratief, maar omdat elk geaccepteerd regeltje code een datapunt is dat OpenAI of Anthropic niet hebben.

Dogfooding is niets nieuws. Google en OpenAI doen het ook. Wat nieuw is, is dat dogfooding nu de primaire datastrategie wordt in plaats van een kwaliteitscontrole.

Meta: muis, toetsenbord, dropdown — alles

Meta gaat een paar stappen verder. Het bedrijf rolt een tool uit met de naam Model Capability Initiative (MCI), die op de werkcomputers van Amerikaanse werknemers muisbewegingen, kliks en toetsaanslagen registreert. Het doel: trainingsdata voor agents die "computergebruik" leren — denk aan een agent die door een dropdown navigeert, een knop aanklikt, een formulier invult.

Mark Zuckerberg vertelde zijn personeel dat dit "extra waardevol" zou zijn omdat Meta-medewerkers "heel slim" zijn. Of dat compliment de bewaking verteerbaarder maakte is onduidelijk. Wat Platformer wel meldt: werknemers verzetten zich door consequent de "accept"-knop in de permissions popup te negeren, en sommigen hebben manieren gevonden om de software via systeeminstellingen helemaal uit te schakelen.

Daar komt bij dat de software volgens interne berichten technisch ook nog rommelig is. "MCI maakt alles super traag," schreef één werknemer; toetsenbord en muis worden volgens hem laggy. Een Meta-woordvoerder noemt het noodzakelijk: agents die mensen ondersteunen bij dagelijkse taken hebben echte voorbeelden nodig van hoe mensen die taken uitvoeren.

xAI: $420 voor je belastingaangifte (nog niet uitbetaald)

De meest gênante variant komt van xAI. Volgens Bloomberg bood het bedrijf werknemers $420 per stuk om hun Amerikaanse belastingaangiftes te "doneren" — én aangiftes van vrienden en familie — als trainingsmateriaal voor Grok's financiële vaardigheden.

Twee maanden later: het geld is nog niet uitbetaald aan de werknemers die data hebben aangeleverd. De prijs $420 is een meme-knipoog die alleen werkt zolang het geld ook daadwerkelijk binnenkomt. Voor wie iets fundamentelers wil lezen over privacy: belastingaangiftes bevatten inkomen, dependents, schenkingen, charitatieve giften, medische uitgaven, hypotheekstructuren. Het is moeilijk te bedenken welk dataset gevoeliger is.

Waarom werknemers, en niet klanten?

Het simpele antwoord: werknemers kunnen niet écht nee zeggen.

Klanten vragen om trainingsdata kost moeite. Het kost een opt-in flow, een juridische review, een vertrouwensgesprek over wat er wel en niet wordt gedeeld. En de meeste klanten zeggen nee — zeker enterprise klanten die juist een no-training-clausule in hun contract hebben staan. (Iets waar Lovable Cloud, Azure OpenAI en de Anthropic Enterprise tier elk hun eigen versie van hebben.)

Werknemers daarentegen tekenen een arbeidsovereenkomst. De macht is asymmetrisch. Een popup met "accept" voelt voor een werknemer als een verkapte verplichting, niet als een echte keuze. En de schaal is enorm: 100.000 Microsoft-engineers genereren in een week meer hoogwaardige code-data dan een publiek GitHub-scrape in een maand.

De stille verschuiving: ruwe data → preference data

De interessantste ontwikkeling zit niet in de schaal, maar in het type data. De grote modellen zijn op ruwe internet-tekst getraind tot het punt van marginale opbrengsten. De winst zit nu in signaal: welke suggestie werd geaccepteerd, welke werd herschreven, welke werd verworpen.

Voor coding-AI is dat goud. Een engineer die een Copilot-suggestie aanpast voor ze committen, levert een veel rijker signaal dan een willekeurig GitHub-bestand. Het verschil tussen de gegenereerde versie en de gecommite versie ís de feedback — gratis RLHF, geen menselijke labelers nodig.

Hetzelfde geldt voor Meta's computer-use agents: knoppen klikken in synthetic data ziet er anders uit dan een echte gebruiker die twijfelt, terugscrollt, een dropdown half opent en weer sluit. Die ruis is de data.

Wat dit betekent voor je eigen bedrijf

Drie dingen, in volgorde van belang:

Lees je AI-vendor contract opnieuw. Veel SaaS-tools verbergen no-training-defaults in de Enterprise tier en hebben standaard de switch op "wel trainen" staan in Pro/Team plannen. Specifiek voor coding agents: check of Cursor, Copilot en Claude Code in jouw setup wel of niet je code naar de provider sturen voor training. Voor de meeste van onze klanten beantwoorden we deze vraag tijdens onboarding — het verschil tussen "data blijft on-prem" en "data wordt anoniem aggregated for model improvement" is niet klein.
Maak het beleid expliciet, niet impliciet. Als jij je eigen interne tools bouwt — een chatbot, een agent, een document-extractor — bepaal vooraf of je logs gebruikt voor fine-tuning. Schrijf het op. Communiceer het aan je team. Een impliciete "natuurlijk gebruiken we het niet" houdt geen stand zodra de productmanager achter de tool ambitieuzer wordt.
On-prem voor wat écht gevoelig is. Voor klanten waar data het bedrijf niet mag verlaten — verzekeraars, vastgoed, legal — bouwen we steeds vaker met OpenClaw als on-prem orkestratielaag. Lokale Llama- of Qwen-modellen, eigen Postgres, eigen audit log. Niet omdat we paranoia zijn, maar omdat het bestaande verhaal — "vertrouw ons" — net iets minder gewicht heeft als Meta zijn eigen mensen al niet meer vertrouwt.

Tot slot

De AI-industrie heeft een paar jaar lang kunnen drijven op gratis internet-data. Die rivier is opgedroogd. Wat overblijft is duur, langzaam, of moreel grijs. Werknemers zijn de goedkoopste, snelste, grijste optie van de drie.

Voor wie zelf agents bouwt is de les niet "stop met dogfooding" — integendeel, het is de beste manier om snel te leren wat werkt. De les is: wees expliciet over wat je verzamelt, waarvoor je het gebruikt, en geef mensen een echte uitknop. Anders bouw je vroeg of laat een MCI-popup waar niemand op klikt.