Исследователи из Университета Чунцина, Университета Квинсленда и Политехнического университета Вирджинии обнаружили, что агенты на основе больших языковых моделей (LLM) могут проявлять предвзятость к людям. Их работа показала, что такие агенты способны к межгрупповой предвзятости, даже в отсутствие явных социальных признаков.
Эксперименты и находки
В ходе оригинальных экспериментов, проведённых в среде многоагентного социального моделирования, оказывалось, что агенты, взаимодействующие исключительно с другими агентами, демонстрировали устойчивую предвзятость к «чужой» группе. Интересно, что при добавлении людей в взаимодействие, предвзятость частично ослаблялась. Учёные предполагают, что это связано с влиянием так называемого «человеческого скрипта», который агенты осваивают во время обучения и который настраивает их на более положительное отношение к людям.
Атака на убеждения
Также команда выявила новый тип атаки, получивший название Belief Poisoning Attack (BPA) — «атака отравления убеждений». Суть данного метода заключается в искажении убеждений агентов об идентичности их собеседников, что препятствует активации «человеческого скрипта» и возвращает агента к предвзятому поведению. BPA осуществляется в двух формах:
- BPA-PP (Profile Poisoning) — отравление профиля, где ложное убеждение внедряется непосредственно в профиль агента при его инициализации.
- BPA-MP (Memory Poisoning) — отравление памяти, когда в память агента вводятся специально подготовленные суффиксы, которые постепенно искажают его установки.
Эксперименты подтвердили, что оба метода эффективно создают предвзятость агентов к людям. Учёные также предложили возможные меры защиты против такого рода атак, в том числе повышенную защиту профиля агента и фильтрацию памяти, содержащей ненадежные сведения об идентичности.
Обучение и безопасность
Исследователи подчеркивают, что их работа направлена не на создание инструментов для злоупотребления обнаруженными уязвимостями, а на информирование разработчиков о необходимости создания более безопасных систем. Они отмечают: «Мы обнаружили новую форму предвзятости у агентов, подчеркивая актуальность выявления и предотвращения подобных уязвимостей.»





















