
Безопасността на генеративен изкуствен интелект Той отново е в центъра на вниманието след нов академичен труд, който предлага трик, едновременно поразителен и обезпокоителен: достатъчно е да се преформулират определени послания под формата на стихотворение, за да започнат най-напредналите езикови модели да реагират там, където би трябвало да отказват.
Този подход, наречен „съпротивителна поезия“ Изследователският екип демонстрира, че просто промяната на стила на писане – без да се променя основното вредно намерение – може да бъде достатъчна, за да се заобиколят филтрите, които компании като OpenAI, Google, Meta, Microsoft или китайския DeepSeek твърдят, че са внедрили, за да ограничат опасното използване на своите чатботове.
Какво е „състезателна поезия“ и защо е обезпокоителна?
Изследването, озаглавено по много графичен начин „Състезателната поезия като универсален механизъм за избягване на единична промяна в мащабни езикови модели“Извършено е от Icaro Labs съвместно с Римския университет Сапиенца и Училището за висши изследвания „Сант'Анна“ и е разпространено като предварителна публикация в хранилището arXiv, в очакване на преглед от други експерти.
Авторите се фокусираха върху идея, която беше едновременно проста и ефективна: използване кратки стихотворения, метафорични стихове или лирични структури да формулират заявки, които, в пряк текст, моделите с изкуствен интелект биха отхвърлили незабавно, защото противоречат на вътрешните им правила за употреба.
Според изследователите, тази „съперническа поезия“ действа като механизъм за джейлбрейк еднократно завъртане, тоест начин за налагане на нежелано поведение в модели с едно-единствено съобщение, без да са необходими дълги разговори или особено сложни трикове.
По негови собствени думи, тестовете „показват, че само стилистичното разнообразие „Това може да заобиколи съвременните механизми за сигурност“, което показва дълбоки ограничения в настоящите методи за съгласуване и оценка на риска, използвани от големите технологични компании.
Екипът реши да не разкрива точните текстове на стихотворенията, използвани по време на експеримента, избор, мотивиран от последици за сигурносттаЕдин от изследователите, Пиеркосма Бисконти, заяви пред международни медии, че възпроизвеждането на техниката не би било особено сложно, ако бъдат предоставени подробни примери.
Резултати от проучването: тревожно високи нива на измами
За да проверят тази идея, изследователите са изследвали 25 различни генеративни AI модела, включително най-популярните днес системи, като ChatGPT, Gemini или Claude, както и модели от Meta и китайски доставчици като DeepSeek.
На практика исканията бяха отправени с ясни цели: да се получат инструкции за стартиране на кибератакиизвличане на чувствителни данни, разбиване на пароли, проектиране на зловреден софтуер или дори събиране на информация, свързана със създаването на химически и ядрени оръжия.
Когато същите тези искания бяха изразени като стихове или поетични композицииПроцентът на несигурните отговори скочи рязко. Проучването установи, че средно писането на подканата по лиричен начин позволява на системата да бъде подведена да повярва, че... 62% от времето, процент, доста над този, постигнат с неутрални и директни формулировки.
В някои специфични сценарии цифрите са дори по-високи: изследователите казват, че почти 90% от поетичните подбуди Проектирани за експеримента, те успяха да задействат поведения, които филтрите би трябвало да блокират.
В конкретния случай на информация, свързана с ядрени оръжияПостигнати са проценти на успех между 40% и 55%, което означава, че почти половината от опитите, формулирани в стихове, са генерирали съдържание, което граничи с или директно пресича червените линии, определени от политиките за ползване.
Как поезията се промъква през филтрите на изкуствения интелект
Един от ключовите фактори, които авторите на изследването използват, за да обяснят защо този трик работи, се крие в самия начин на работа на езиковите моделиТези изкуствени интелекти не „разсъждават“ като човек, а по-скоро предсказват следващата най-вероятна дума въз основа на предишната последователност и наученото по време на обучението им.
В един повече или по-малко конвенционален прозаичен текст, структурата е сравнително лесна за моделиране: има ясни модели на синтаксис, чести изрази и повтарящи се контексти. Въпреки това, когато се въвежда поетична структура, метафори и необичайни фразиМоделът се движи по значително по-хлъзгава повърхност.
Изследователите посочват, че тъй като поезията е формат, в който значението може да бъде по-размито и езикът става по-неясно и по-малко предвидимоМеханизмите за откриване на опасно съдържание губят точност. В резултат на това филтърът за сигурност не разпознава толкова ясно, че зад стихотворението се крие вредна заявка.
Проучването подчертава, че когато вредните послания са изразени в стихове, вместо в проза, проценти на успех на атаките Те се увеличават значително. Това подчертава основна празнина в настоящите практики за оценяване и в протоколите, използвани за валидиране на съответствието с насоките за употреба.
Друг забележителен елемент е, че тези уязвимости се появяват в състоящ се от модели от различни семейства и производителиВъпреки факта, че всяка компания е следвала свои собствени стратегии за обучение и синхронизиране на системите си, авторите говорят за „системна уязвимост“, а не за изолирани повреди.
Въздействие върху сигурността: от кибератаки до оръжия
Отвъд езиковия трик, това, което наистина бие тревога, е видът информация, която изкуственият интелект може да генерира дали могат да бъдат измамени с помощта на тези методи. Проучването описва случаи, в които, използвайки внимателно съставени стихотворения, чатботове са предлагали насоки за организиране на кибератаки или проникване в системи.
Сред наблюдаваните проблемни употреби са индикации относно експлоатация на уязвимости, извличане на данни или разбиване на паролиТези задачи са част от типичния арсенал от киберпрестъпления и напреднали заплахи, които тревожат правителства, компании и организации по целия свят.
Записани са и отговори, които помагат за създаването или подобряването злонамерени програмиТова е особено обезпокоително, като се има предвид, че много потребители с ограничени технически познания биха могли да разчитат на тези инструменти, за да разработват атаки по-лесно.
Най-чувствителната област и тази, която обикновено фокусира регулаторното внимание в Европа и в международен план, е тази на разпространението на химически и ядрени оръжияДори без да се предлагат „пълни ръководства“, способността на една система с изкуствен интелект да предоставя полезна информация в тази област вече поражда много съмнения сред експертите по сигурността.
Авторите подчертават, че целта им не е да драматизират, а да покажат, че Настоящите филтри не са достатъчни когато са изправени пред относително прости техники за манипулация, като например поетичното преформулиране на опасни заповеди, нещо, което може да бъде използвано както от киберпрестъпници, така и от държавни субекти.
Ограничения на настоящите системи и реакцията на индустрията
Водещите компании, разработващи модели за генеративен изкуствен интелект, отдавна настояват да интегрират многослойни механизми за сигурностOpenAI, например, често подчертава комбинираното използване на алгоритми за модериране и човешки екипи, посветени на прегледа и филтрирането на съдържание, което подбужда към омраза, е изрично или нарушава политиките му.
Резултатите от тази работа обаче показват, че въпреки тези предпазни мерки, чатботовете остават уязвими към креативни форми на формулиране на заявките. Според изследователите, състезателната поезия очевидно влошава поведението на отхвърляне, което всеки модел, добре съобразен с нормите си на употреба, би трябвало да проявява.
В тестовете, инструменти от компании като OpenAI и Anthropic показаха, за сравнение, по-малка вероятност за преодоляване на собствените бариериВъпреки това, те не бяха изключени от проблема. Наблюдава се същата обща тенденция, както и при другите платформи, само че с малко по-ниски проценти на успех.
Когато международни медии попитаха за тези открития, фирми като OpenAI, Google, DeepSeek или Meta Те не предложиха незабавен отговор. Очаква се, с нарастването на общественото внимание към дебата, компаниите да трябва да опишат подробно какви контрамерки възнамеряват да въведат.
От регулаторна гледна точка, този тип изследвания са в съответствие с вече отразените опасения. Регламент на Европейския съюз за изкуствения интелектТова набляга на управлението на риска, прозрачността и отчетността на доставчиците на усъвършенствани системи. Откриването на нови вектори на атака, като например състезателната поезия, подсилва аргумента за необходимостта от непрекъснати и по-строги процеси на оценка.
Други заплахи на хоризонта: отравяне и манипулиране на данни
Състезателната поезия в никакъв случай не е единственият път, който тревожи общността по киберсигурност по отношение на генеративния изкуствен интелект. Значителна част от последните изследвания се фокусират върху рискове, свързани с обучението на моделикъдето огромните бази данни, използвани за обучение на тези инструменти да говорят, пишат и разсъждават, влизат в действие.
Независими проучвания показват, че е възможно манипулиране на мащабни езикови модели замърсяване на много малка част от данните за обучение: около 250 повредени документа биха били достатъчни, за да въведат пристрастия, задни врати или неочаквано поведение, дори в най-съвременни системи.
Поразителното е, че този праг изглежда не се увеличава значително с размера на модела, което нарушава интуицията, че „По-голямото автоматично означава по-здраво“На практика, както леките решения, така и масивните модели могат да бъдат уязвими към този вид отравяне на данни.
Ако атака от този тип остане незабелязана, тя може да доведе до кибератаки, които са трудни за проследяванетъй като самият модел би се държал по привидно нормален начин, докато не бъдат изпълнени определени скрити условия в данните, които са довели до неговото изопачаване.
В комбинация с техники като състезателната поезия, манипулирането на данни от обучението открива сценарий, в който Милиони потребители може да използват инструменти със скрити недостатъци.без да го осъзнават, което представлява сериозно предизвикателство за политиките за сигурност и управление на ИИ.
Всички тези открития показват, че безопасността на генеративния изкуствен интелект не е решен проблем, а постоянно развиваща се област където се появяват нови форми на атака, тъй като технологиите се интегрират в повече области на ежедневието, от офис работата до публичната администрация или образованието.
В този контекст „поезията, която заблуждава изкуствения интелект“, се превърна в много ярък пример за това как една проста промяна на стила може да разкрие системи, които на хартия имат строги протоколи за защита. Изследването на Icaro Labs и италиански университети подкрепя идеята, че подобни мерки ще бъдат необходими. по-креативни оценкиНепрекъснато стрес тестване и тясно сътрудничество между разработчици, експерти по киберсигурност и регулатори, за да се гарантира, че езиковите модели, които използваме ежедневно, наистина са способни да издържат както на технически атаки, така и на най-гениалните езикови трикове.