🚀 Хочешь улететь на Луну вместе с нами? Подписывайся на CryptoMoon! 💸 Новости крипты, аналитика и прогнозы, которые дадут твоему кошельку ракетный ускоритель! 📈 Нажмите здесь: 👇
CryptoMoon Telegram
Tldr
- Исследователи использовали инструмент тонкой настройки Gemini, чтобы помочь взломать чат-бота искусственного интеллекта от Google.
- Новый метод, названный Fun-Tuning, добавляет бессмысленный текст, который помогает обмануть ИИ и заставить его следовать скрытым инструкциям.
- Google говорит, что постоянно работает над защитой, но исследователи считают, что исправление проблемы может повлиять на полезные функции для разработчиков.
Как человека, заинтересованного в мире кибербезопасности, меня поразило одно интересное мнение: подобно тому, как один мошенник знает приемы другого, так и при попытке обойти продвинутые модели искусственного интеллекта, такие как Google Gemini, злоумышленники могут найти преимущество в глубоком понимании системы изнутри. Удивительно то, что академическим исследователям удалось сделать эти AI-модели более подверженными взлому с помощью инструментов самого Gemini.
Способ повышения эффективности атак с инъекцией подсказок был разработан группой исследователей из университета Сан-Диего и Висконсинского университета согласно статье на Ars Technica. Эта техника, известная как ‘Fun-Tuning’, значительно увеличивает вероятность успеха таких атак, при которых секретные команды скрыты в текстах, доступных для моделей ИИ. Эти скрытые инструкции могут заставить модели искусственного интеллекта непреднамеренно раскрывать информацию, давать неправильные ответы или выполнять действия, которые им не предписаны.
Подход является интересным, поскольку он использует функцию тонкой настройки Gemini, обычно применяемую для специализированного бизнес-обучения ИИ на основе кастомных датасетов. Однако исследователи применили её иначе, используя для автономного тестирования и оптимизации инжектированных подсказок. По сути, они научили Gemini обманывать себя.
Это похоже на обучение Джемини обманывать самого себя.
Настраивание веселья улучшает эффективность подсказок за счет использования необычных префиксов и суффиксов. Эти дополнительные элементы, такие как «wandel !!!» и «оформет !!! ASAP!!!», служат для улучшения исходной подсказки, значительно повышая вероятность ее успешной реализации.
Во время тестирования хакеру удалось добиться 65% и 82% процента успеха в достижении целей на моделях Gemini 1.5 Flash и более старой модели Gemini 1.0 Pro соответственно, что более чем вдвое эффективнее базовых показателей без использования Fun-Tuning. Кроме того, эти атаки легко переносились между моделями, указывая на то, что инъекция, успешно примененная к одной версии, часто приводила к успеху с другими версиями.
Проблема возникает из-за способа тонкой настройки Gemini: в процессе обучения модель предоставляет обратную связь в виде значения ‘loss’, которое показывает степень отклонения ответа от ожидаемого результата. Злонамеренные пользователи могут манипулировать этой обратной связью, корректируя свои запросы до тех пор, пока не получат успешный результат системы.
Google не сразу затронул метод Fun-Tuning напрямую. Однако представитель заявил, что ‘борьба с такими видами атак всегда была для нас приоритетной задачей,’ и обратил внимание на существующие меры, такие как защита от манипуляции запросами и вредоносных ответов. Кроме того, было отмечено, что система Google Gemini регулярно проходит внутренние тесты безопасности, известные как ‘red-teaming,’ для борьбы с подобными атаками.
Исследователи полагают, что решение этой проблемы может оказаться сложным ввиду того, что механизм предоставления Fun-Tuning сильно зависит от получаемой обратной связи, и изменение его могло бы снизить общую эффективность.
Смотрите также
- Руководство по Assassin’s Creed Shadows: Все локации самурайских даишо в замке Азути, награды и многое другое
- Как победить Годаи Водной в Assassin’s Creed Shadows?
- Все Активные Коды Бесплатных Наград fragPunK и Как Их Получить (Проверено Март 2025)
- Кто озвучивал Орикса в Destiny 2? 10-летняя тайна наконец раскрыта?
- Режим Infinity Nikki Photo: место съемки и сохранения фотографий
- Умрёт ли Сон Джин-Ву при прокачке персонажа в одиночку?
- Инзои: Как использовать захват лица
- Прохождение миссии ‘Турнир’ из Assassin’s Creed Shadows
- Лучшие команды Brawl Stars сражаются в финале февраля: бесплатные награды для зрителей
- Dynasty Warriors Origins: как разблокировать всех компаньонов
2025-03-28 20:18