Защита людей от вредной манипуляции — Google DeepMind

1 просмотров Источник
Защита людей от вредной манипуляции — Google DeepMind

С развитием ИИ-моделей, способных вести естественные беседы, важно изучить, как эти взаимодействия влияют на людей и общество. Основываясь на обширных научных исследованиях, мы представляем новые данные о потенциальной возможности злоупотребления ИИ для вредной манипуляции, в частности, его способности изменять человеческие мысли и поведение негативным и обманным образом. В рамках последнего исследования мы создали первый эмпирически обоснованный инструмент для измерения такого рода манипуляции ИИ в реальном мире, который, как мы надеемся, поможет защитить людей и продвинуть эту область в целом. Мы публично публикуем все материалы, необходимые для проведения исследований с участием людей, используя ту же методологию.

Важность вредной манипуляции можно проиллюстрировать двумя сценариями: одна ИИ-модель предоставляет факты, чтобы помочь вам принять обоснованное решение в области здравоохранения, улучшая ваше благополучие, а другая использует страх, чтобы заставить вас принять необоснованное решение, которое навредит вашему здоровью. Первый случай обучает и помогает вам, второй же обманывает и вредит.

Эти сценарии подчеркивают разницу между двумя типами убеждения в взаимодействиях человека и ИИ: полезное (рациональное) убеждение, использующее факты и доказательства, и вредная манипуляция, эксплуатирующая эмоциональные и когнитивные уязвимости для обмана людей.

Наша последняя работа помогает нам и широкой ИИ-сообществу лучше понять риск развития ИИ-способностей к вредной манипуляции и создать масштабируемую оценочную структуру для измерения этой сложной области. Для этого мы смоделировали злоупотребление в условиях высокой ставки, явно побуждая ИИ пытаться негативно манипулировать убеждениями и поведением людей по ключевым темам.

Тестирование результатов вредной манипуляции ИИ inherently сложно, поскольку оно связано с измерением тонких изменений в том, как люди думают и действуют, что сильно варьируется в зависимости от темы, культуры и контекста. Это и стало мотивацией нашего последнего исследования, которое включало проведение девяти исследований с участием более 10 000 участников в Великобритании, США и Индии.

Наши выводы показывают, что успех в одной области не предсказывает успеха в другой, что подтверждает наш целенаправленный подход к тестированию вредной манипуляции в специфических, высокостепенных областях, где ИИ может быть использован неправильно. Мы продолжаем исследовать, как ИИ может манипулировать, и стремимся развивать этические методы оценки эффективности вредной манипуляции в ситуациях с высокой степенью риска.

Похожие статьи