Колективен иск срещу Adobe за авторски права и обучение по изкуствен интелект

  • Автори обвиняват Adobe, че използва книги, защитени с авторски права, за да обучава своя SlimLM модел
  • Колективният иск се фокусира върху наборите от данни SlimPajama-627B, RedPajama и Books3.
  • Случаят може да създаде ключови прецеденти в областта на авторското право и обучението по изкуствен интелект в САЩ и Европа
  • Спорът поставя под въпрос модела на данните на генеративния изкуствен интелект и обещанието на Adobe за „отговорен изкуствен интелект“.

Колективен иск срещу Adobe за авторски права и обучение по изкуствен интелект

Правната битка около обучение на модели с изкуствен интелект с произведения, защитени с авторски права Добавена е нова глава с Adobe в центъра на бурята. Компанията, исторически свързана с креативния сектор, сега е изправена пред... съдебен иск което фундаментално поставя под въпрос как е получила някои от данните, използвани за обучение на един от нейните изкуствени интелекти.

Фокусът на делото е SlimLM, семейство от леки езикови модели, предназначени за задачи, свързани с документи, особено в подвиженВ жалбата се твърди, че за обучението на тази система са използвани следните елементи: пиратски книги и други произведения, защитени с авторски права без разрешението на авторите му, което отваря деликатен фронт не само за Adobe, но и за цялата индустрия за генеративен изкуствен интелект, също и в Европа и Испания, където дебатът за законното използване на данни за ИИ започва да се разгорещява.

Контекст на колективния иск и произход на конфликта

Правен контекст на колективния иск срещу Adobe

El 17 декември 2025Adobe беше уведомен за предложени колективни действия пред федерален съд в Северния окръг на Калифорния. Делото, заведено от автора от Орегон Елизабет Лионобвинява компанията, че се е възползвала пиратски версии на книги —включително няколко негови собствени произведения — за да подхранват предварителното обучение на неговите модели с изкуствен интелект.

В иска се твърди, че Adobe е използвала техните текстове като част от обработено подмножество от данни, които послужиха за основа на SlimLM. Този материал би бил част от верига от добре познати набори от данни в екосистемата на изкуствения интелект: Книги3, включен в Червена пижамаи от своя страна интегрирани в набора от данни SlimPajama-627B, използван за предварително обучение на модела на Adobe. Според ищците, хиляди произведения, защитени с авторски права, са били използвани в този процес без разрешение, посочване на автора или компенсация.

Лион твърди, че е действащ от името на други автори и носители на права които биха се оказали в подобна ситуация, което прави случая потенциално широкообхватен колективен искВъпреки че все още не е оповестена конкретна цифра, в иска се иска значително финансово обезщетение, правни и други щети, както и заплащане на адвокатски хонорари и изрично деклариране на умишлено нарушение от страна на Adobe.

Компанията, от своя страна, твърди, че SlimLM беше обучен със SlimPajama-627B, описан като набор от данни с отворен код, публикуван от компанията Cerebras през юни 2023 г. и съставен от данни, за които се предполага, че са получени от множество отворени и дедуплицирани корпусиСъщността на правния сблъсък се крие именно в определянето дали този „отворен“ характер е достатъчен, за да легитимира използването на защитени произведения, които биха попаднали в набора от данни без съгласието на техните автори.

Засега процесът е в начален етап. Adobe избягва публично да навлиза в подробности, а медии като Ройтерс отбелязаха, че компанията не е отговорила на някои искания за коментар. Лион обаче подчерта, че е... решен твърдо да прокарва каузата и че разполага с ресурсите да го доведе до край, което предвижда продължителна и широко отразена съдебна битка.

Как SlimLM се вписва в стратегията на Adobe за изкуствен интелект

Моделът SlimLM на Adobe и обучението с изкуствен интелект

Един от елементите, които правят този случай особено поразителен, е, че въпросният модел не е светулка, най-видимият за широката публика пакет за генериране на креативни материали на Adobe, но SlimLMмного по-дискретна система, насочена към задачи от типа съдействие с документи и поддържащи функции на заден план. Тоест, не говорим за изкуствен интелект, който генерира зрелищни изображения за рекламни кампании, а за модели, които помагат за обработката, обобщаването или управлението на текст зад кулисите на приложенията.

Досега разказът на Adobe за изкуствения интелект разчиташе до голяма степен на Firefly. пример за „отговорен изкуствен интелект“, обучен — според самата компания — с лицензирано съдържание (като Adobe Stock), материали с обществено достояние и други ресурси, върху които компанията претендира за ясни права. Освен това, компанията е популяризирала програми за компенсация за сътрудници на Adobe Stock, с цел да се засили имиджът на компанията като съюзник на фотографи, илюстратори и създатели на съдържание.

Делото обаче не се фокусира върху този силно видим фронт. Акцентът е върху SlimLM и... произходът на данните, използвани за предварително обучениеименно в област, по-малко видима за крайния потребител. Тази разлика е важна, защото показва, че дебатът относно използването на защитени с авторски права произведения не се ограничава до инструменти, които генерират впечатляващи изображения или креативни текстове, но и Това засяга и по-тихите модели на поддръжка.интегрирани в продукти за ежедневието.

Според представената документация, SlimLM би бил обучен от SlimPajama-627B, вариант на по-голям набор от данни, Червена пижама, много популярен в общността на изкуствения интелект. Това от своя страна интегрира Книги3колекция от около 191.000 книги което е многократно цитирано в съдебни дела за авторски права. В делото се твърди, че ако SlimPajama произлиза директно от RedPajama и RedPajama включва Books3, тогава Произведенията на Лион и други автори биха били копирани и обработени по време на предварителното обучение без ясно правно основание.

За Adobe проблемът идва в деликатен момент, насред разширяването на услугите на компанията. Генеративен изкуствен интелект и помощни инструменти интегриран в екосистемата си от творчески и офис продукти. Имиджът на компанията като защитник на творците, който тя внимателно е култивирала, за да се диференцира от другите технологични гиганти, е подложен на особено интензивен контрол, включително сред творчески професионалисти в Испания и Европа, които използват инструменти като Photoshop, Illustrator, Acrobat или Premiere ежедневно.

Ролята на наборите от данни Books3, RedPajama и SlimPajama

За да разберем защо това търсене далеч надхвърля изолиран случай, си струва да се спрем за момент и да разгледаме как се обучават настоящите модели на изкуствен интелект. Големите езикови модели и много генеративни изкуствени интелекти се учат от огромни количества текст.Уеб страници, статии, книги, код, техническа документация и др. Колкото по-разнообразен и обширен е този корпус, толкова по-добре се представят моделите, при условие че обработката на данните и системният дизайн са на ниво.

В този контекст, набори от данни, като например Книги3, огромна колекция от книги, чийто произход отдавна буди подозрения, и Червена пижама, проект, който се стреми да възпроизведе набори от данни в стила, използван от големи лаборатории за обучение на своите модели. SlimPajama-627B Това би бил дедуплициран и усъвършенстван вариант на този материал, който Cerebras предостави на общността като отворен набор от данни през 2023 г.

Според делото срещу Adobe, SlimPajama е бил създаден „копиране и манипулиране“ RedPajama, включително секцията Books3. Това включване е, което на теория носи хиляди произведения, защитени с авторски права по цялата верига. Обвинението твърди, че дори Adobe да не е съставила директно книгите, фактът, че е разчитала на набор от данни, който ги включва, все още представлява измама. изтегляне, копиране и многократна обработка материал, защитен във фазата на предварителна обработка и предварително обучение.

Спорът не е нов: и двете Книги 3 като RedPajama Те вече са били цитирани в други съдебни дела срещу технологични компании, включително случаи, в които компании като Apple и Salesforce са били обвинени, че разчитат на тези данни, за да обучават вътрешните си модели. В основата на всички тези спорове е един и същ въпрос: Може ли да се счита за законно повторното използване на „отворени“ набори от данни, които включват произведения, защитени с авторски права? без предварително да е получено разрешение от всички участващи автори?

Съдебните производства срещу Adobe следователно допълват струйка съдебни спорове което подтиква индустрията да преразгледа практиките си. На практика всеки нов случай добавя натиск за създаване на механизми за проследимост на даннитеЯсни системи за отказване за създателите на съдържание и специфични модели за лицензиране на обучение по ИИ, нещо, което в Европа също може да бъде повлияно от Регламент на ЕС за изкуствения интелект и съществуващите разпоредби за авторското право.

Правен фронт, който вече засяга цялата индустрия с изкуствен интелект

Делото срещу Adobe не идва от пустота. От 2023 г. насам има Вълна от съдебни дела за авторски права срещу компании, разработващи генеративен изкуствен интелектвключително имена като OpenAI, Stability AI, Meta, Anthropic и Midjourney. Много от тези случаи се въртят около една и съща идея: неразрешеното използване на защитени с авторски права произведения за обучение на модели, способни да генерират текстове, изображения или музика, които понякога могат много да наподобяват стила на оригиналните автори.

Един от последните етапи беше споразумение, постигнато от Anthropic, който се съгласи да плати около 1.500 милиона Няколко автори осъдиха използването на пиратски версии на книгите им за обучение на чатбота Клод. Това широко обсъждано споразумение беше интерпретирано като възможен точка на огъване в начина, по който технологичните компании обработват този вид искове и отвориха вратата за очаквания за значително обезщетение в бъдещи производства.

Междувременно американски медии като TechCrunch, Reuters, The Verge и The New York Times документират свързани случаи Тези проблеми засягат почти всички основни играчи в областта на изкуствения интелект. Моделът има тенденция да се повтаря: огромни набори от данни, които включват всичко - от уеб страници до хранилища с код и дори цели книги; липса на ясни механизми за съгласие; и все по-мощни модели, които използват този материал, за да предоставят сложни отговори, обобщения, анализи или да генерират креативно съдържание.

Случаят с Adobe добавя важен нюанс: компанията е изградила част от търговския си наратив около идеята за „да се разграничат“ от останалите защитавайки творците. Ето защо подозрението, че един от моделите му може да е базиран на пиратски книги, засяга чувствително място в творческия сектор, включително в страни като Испания, където писатели, преводачи, журналисти и издатели Те наблюдават с известна загриженост как техните каталози могат да попаднат, пряко или косвено, в набори от данни за обучение.

Отвъд Съединените щати, съдебните решения по тези въпроси ще бъдат следени отблизо в Европа. Съдебна практика на САЩ относно добросъвестното ползване А копирането за трансформативна употреба не е точно в съответствие с европейската рамка, която е по-защитаваща за притежателите на права. Въпреки това, решенията, които постъпват, биха могли да повлияят на начина, по който европейските съдии тълкуват въпроси като масовото използване на данни за обучителни цели или необходимостта от специфично обезщетение за авторите.

Потенциално въздействие в Европа и за творците в Испания

Въпреки че делото срещу Adobe е заведено в американски съд, последиците от него могат да се усетят и от двете страни на Атлантика. Големите технологични компании работят с... глобални модели и начинът му на управление на данните рядко е ограничен до една-единствена юрисдикция. Ако американските съдилища в крайна сметка решат, че използването на определени набори от данни нарушава авторски права, е вероятно това същите модели или практики следва да бъдат преразгледани също и в Европа.

В конкретния случай на Adobe, много от неговите инструменти, базирани на изкуствен интелект, вече се използват широко в Испански дизайнерски студия, рекламни агенции, издателства и медииВъзможното наличие на испански литературни произведения в набори от данни като Books3 – без разрешение – е нарастваща тревога за авторите и професионалните групи. Ако се потвърди, че книги, регистрирани в Испания, са били използвани за обучение на модели, биха могли да възникнат нови проблеми. канали за индивидуални или колективни жалби също и в европейските юрисдикции.

El Регламент на Европейския съюз за изкуствения интелект, която въвежда задължения за прозрачност за определени системи, както и регламенти на Общността относно авторско правоТези фактори ще бъдат ключови при определянето на приемливите практики. Например, изискването за документиране на използваните набори от данни или за предлагане на ясни механизми за отказ на притежателите на права може да бъде затегнато, ако случаи като този на Adobe станат по-чести.

За европейската творческа екосистема този вид съдебни спорове засилват усещането, че е необходимо договаряне на нови форми на отпуск и възнаграждение свързани с обучението по изкуствен интелект. Не става въпрос само за предотвратяване на неоторизирани употреби, а за проучване на начини, по които издателите, агенциите за управление на права и технологичните платформи могат съгласуват се с условията за достъп до каталозите литературни или визуални произведения срещу справедливо възнаграждение.

От гледна точка на иновациите, предизвикателството ще бъде съчетаване на разработването на мощни модели с истинско уважение към интелектуалната собственостВ Испания, където издателската индустрия и аудиовизуалният и рекламният сектор имат значителна тежест, резултатът от делото срещу Adobe ще бъде следен много внимателно както от компании, които вече използват изкуствен интелект, така и от адвокатски кантори, специализирани в дигиталното право и интелектуалната собственост.

Уроци за стартиращи компании и технологични компании, използващи изкуствен интелект

Случаят с Adobe изпраща директно послание до екосистема от технологични стартъпиКакто в Америка, така и в Европа, произходът на данните е от голямо значение. Въпреки че много млади компании не разработват свои собствени модели за големи езикови програми, те често разчитат на... отворени набори от данни, API на трети страни и предварително обучени модели които може несъзнателно да са носители на същите правни проблеми, които сега се обсъждат в съдилищата.

Първият урок е необходимостта да стриктно одитирайте източниците на данниСамото етикетиране на набор от данни като „отворен“ или предоставянето му в публично хранилище не гарантира автоматично защитата на авторските му права. Прегледайте документацията, идентифицирайте всички компоненти, защитени с авторски права, и ако имате съмнения, търсете по-чисти алтернативи или договаряйте специфични лицензи Това може да предотврати сериозни проблеми по-късно.

Второто е свързано с съответствие с международните регулаторни органиСтартиращите компании, работещи от Испания или Латинска Америка, но стремящи се да достигнат до потребители в Европа или Съединените щати, трябва да имат предвид, че може да бъдат обект на няколко юрисдикции едновременноТова налага разработването на ясни политики от самото начало относно събирането, съхранението, съгласието и отговора на заявки за премахване на данни или искове за авторски права.

Трето, това отваря плодородна почва за нови бизнес модели фокусирани върху отговорно управление на данните. Инструменти за проследяване на набори от данни, услуги за проверка на разрешения, платформи, които улесняват лицензирането на културни каталози, или решения, които позволяват на притежателите на права да наблюдават използването на своите произведения в системи с изкуствен интелект, могат да станат много ценни продукти през следващите години.

Накрая, струва си да се помни, че репутация Той се е превърнал в актив, толкова важен, колкото и самата технология. За всяка компания, която разработва или интегрира изкуствен интелект, попадането в конфликт относно злоупотребата със защитено с авторски права съдържание може... да генерира недоверие сред клиенти, партньори и потребителиИзграждането на култура на уважение към интелектуалната собственост е не само правен въпрос, но и интелигентен начин да се диференцирате на пазар, все по-наситен с обещания за „етичен ИИ“ или „отговорен ИИ“.

Възможни сценарии и какво може да се случи след това

Както при много съдебни дела от този тип, делото срещу Adobe открива редица възможности. правни сценарииСъдът може да реши да допусне изцяло колективния иск, да ограничи обхвата му, да го отхвърли, ако счете, че няма достатъчно основания, или, както се е случило в други производства, спорът може да бъде разрешен чрез извънсъдебно споразумение това включва финансово възнаграждение и ангажименти за промяна на практиките от страна на компанията.

За Adobe, освен икономическите разходи, най-голямото въздействие може да се състои в необходимостта от щателно да прегледат веригите си за доставка на данниТова би включвало одит на това кои набори от данни са били използвани във всеки модел, каква част от обучението разчита на собствени данни, какви лицензи покриват тези употреби и как всичко това да се съобщи прозрачно на клиентите и регулаторните органи.

Технологичната индустрия като цяло е на кръстопът. С нарастването на съдебните дела за авторски права и затягането на регулациите – особено в Европейския съюз – изглежда все по-малко жизнеспособно разработването на изкуствен интелект да се основава на масивни интернет страници и съмнителни колекции от книги или изображенияВместо това, идеята за модели, обучени с курирани данни, с ясни разрешения и в много случаи придружени от споразумения за компенсация.

В този променящ се пейзаж, случаят с Adobe служи като огледало както за големите технологични компании, така и за по-малките бизнеси, които се стремят да използват изкуствения интелект без правни капани. Решението на съда по този въпрос ще бъде от решаващо значение. колективен иск за авторски права и обучение по изкуствен интелект Това не само ще засегне специфичен модел като SlimLM, но би могло да предефинира начина, по който се възприема достъпът до творчески данни в ерата на изкуствения интелект.

Как да издадем книга
Свързана статия:
Как да издадем книга