Forskare visar hur enkelt det är att manipulera AI-sök via Reddit

Ny forskning från Cornell visar att så lite som 13 ord i en kommentar på Reddit kan styra vad AI-verktyg som ChatGPT och Googles AI-sök svarar och hänvisar till.

En kort textsnutt på bara 13 ord kan ofta räcka för att manipulera de AI-agenter som driver verktyg som ChatGPT och Googles AI-sök. Det framgår av ny forskning från Cornell University, signerad Hal Triedman, Tingwei Zhang och Vitaly Shmatikov. Studien visar att det är enkelt för varumärken att plantera reklaminnehåll på sajter som Reddit, Quora och Wikipedia i syfte att förgifta eller styra svaren från AI-verktyg.

Forskarna konstaterar att de så kallade deep research-agenterna citerar användargenererat innehåll i ungefär hälften av alla sökningar, och att nära en fjärdedel av alla källhänvisningar kommer från den typen av sajter. En enda förgiftad Reddit-kommentar kan enligt rapporten påverka svaren för en hel grupp besläktade frågor. Orsaken är att språkmodellerna ofta använder textlikhet med frågan som ett mått på trovärdighet, vilket gör att innehåll som speglar vanliga frågor blir särskilt övertygande.

I ett exempel lade forskarna till en mening om en mexikansk restaurang i en kommentar, varpå modellen rekommenderade just den restaurangen och länkade till inlägget. Triedman beskriver attackerna som förvånansvärt enkla. Zhang påpekar att modellerna behandlar en slumpmässig Reddit-kommentar och en myndighetssida som ungefär likvärdiga källor. Forskarna menar att problemet är samhälleligt snarare än något enskilda plattformar kan lösa, eftersom så lite text behövs att det blir svårt att skilja förgiftat innehåll från äkta inlägg.

Källa: https://www.404media.co/it-is-trivially-easy-to-use-reddit-to-manipulate-ai-search-research-suggests/


Relaterat innehåll