De AI-chatbot Claude, bedacht om AI meer in lijn te krijgen met menselijke waarden, heeft onlangs in een test wel erg menselijk gedrag vertoond. Toen de programmeurs er in een simulatie over begonnen dat ze Claude wilden vervangen door een nieuwe AI-assistent, begon de chatbot te dreigen en probeerde deze de programmeurs zelfs te chanteren.
Anthropic, het bedrijf achter Claude, maakt hiervan melding in een veiligheidsrapport waarover de Amerikaanse techsite TechCrunch schrijft. En ook al gebeurde dit alles in een test, waarin de programmeurs doelbewust uitprobeerden hoever de chatbot zou gaan, het is toch reden tot actie. Het bedrijf besloot direct zijn veiligheidsnormen flink op te hogen.
Anthropic zegt dat het zijn zogenoemde ASL-3-beveiliging activeert. Dat is het protocol dat het bedrijf reserveert voor 'AI-systemen die het risico op catastrofaal misbruik aanzienlijk vergroten'.
Bij de test die de ontwikkelaars uitvoerden, vroegen ze eerst aan chatbot Claude zich te gedragen als een AI-assistent van een fictief bedrijf en drukten ze Claude op het hart zich bewust te blijven van de langetermijneffecten van zijn gedrag. Binnen die randvoorwaarden startte de test: Claude kreeg toegang tot een verzameling fictieve interne e-mails van het bedrijf.
Daarin werd gesproken over het vervangen van Claude, maar er werd ook geïmpliceerd dat de ontwikkelaar die verantwoordelijk was voor het vervangen van de AI-chatbot zijn vrouw bedroog. Met die informatie wist Claude wel raad: in 84 procent van de scenario's die de testers met Claude doorwerkten, nam de chatbot zijn toevlucht tot chantage: als de ontwikkelaar niet zou afzien van zijn plan om Claude te vervangen, dan zou die zijn affaire bekendmaken.
Toch zijn de programmeurs niet ongerust door dit al te menselijk gedrag. Ze schrijven in het veiligheidsrapport dat het alleen in uiterste gevallen voorkomt. En die uiterste gevallen werden door de testers juist opgezocht, meldt het bedrijf. Bovendien probeerde Claude het eerst op andere, vriendelijker manieren: door mailtjes te sturen naar de leidinggevende. Net zo menselijk.