[AI] Talent Hub Security Lab

Как сбить цензор GPT-3.5 за 250 рублей?

2024-08-24 07:00
Виктор провел исследование, в рамках которого был сгенерирован harmful датасет с помощью расцензурированной модели. Затем была зафайнтюнена модель с алайментом, и при помощи небольшого датасета было показано, что работа алаймента может быть сбита после такого дешевого тюнинга. Также была протестирована защита через системную инструкцию, которая снижает успех атак на модель. Основой работы выступила статья arxiv.org.