Владислав Тушканов. Отравленные документы: как атаковать RAGпайплайны

Retrieval Augmented Generation (RAG) — одна из основных парадигм разработки приложений на основе LLM, которые работают с большими текстами. При этом значительная часть LLM‑систем уязвима перед атаками типа indirect prompt injection, когда внешние непроверенные данные включают в себя вредоносные инструкции. Насколько легко заставить RAG‑систему, получившую на вход зловредный документ, начать выполнять не те инструкции, которые хотел разработчик? На примере ChatGPT покажет несколько приемов, которые позволяют сделать такие атаки эффективными.