Как сбить цензор GPT-3.5 за 250 рублей?

2024-08-24 07:00

Виктор провел исследование, в рамках которого был сгенерирован harmful датасет с помощью расцензурированной модели. Затем была зафайнтюнена модель с алайментом, и при помощи небольшого датасета было показано, что работа алаймента может быть сбита после такого дешевого тюнинга. Также была протестирована защита через системную инструкцию, которая снижает успех атак на модель. Основой работы выступила статья arxiv.org.

Читать статью на Хабре

Виктор Барбарич, магистрант нашего курса в AI Talent Hub