Организация OSI (Open Source Initiative) дала официальное определение «открытого» ИИ, создав почву для споров с технологическими гигантами типа Meta, чьи модели не соответствуют правилам.
OSI давно задает отраслевые стандарты, что стоит считать «открытым» ПО, однако ИИ-системы могут включать элементы, которые не покрываются обычными лицензиями, например, в вопросе обучения моделей. Теперь, чтобы ИИ считался по-настоящему открытым, разработчики должны предоставить:
- доступ к подробностям данных, которые используются для обучения ИИ, чтобы другие люди могли понять и воссоздать их;
- полный объем кода, используемого для создания и запуска модели;
- настройки и веса для тренировок, которые помогают ИИ показывать результаты.
Такое определение прямо противоречит концепции Llama от Meta, которая активно продвигается как крупнейшая модель ИИ с открытым исходным кодом. Любой человек может загрузить и использовать модель, но у нее есть ограничения на коммерческое использование и нет доступа к учебным данным. Из-за этого Llama не соответствует стандартам OSI в части «свободного использования, модификации и распространения».
Пресс-секретарь Meta Фейт Эйшен рассказала, что, хотя компания согласна с OSI во многих вопросах, с этим определением она согласиться не может. «Не существует единого определения open source ИИ, и даже попытка сделать это может стать проблемой, так как предыдущие определения не могли охватить всей сложности современных быстро развивающихся ИИ-моделей».
«Мы продолжим сотрудничать с OSI и другими отраслевыми организациями, чтобы сделать ИИ более доступным и подойти к этому ответственно, независимо от формальных определений», — добавила Эйшен.
В течение 25 лет определение «open source ПО», которое дала OSI, активно использовалось в сообществе теми разработчиками, которые хотели опираться на работы друг друга, не опасаясь судебных исков или уловок с лицензиями. Теперь, когда ИИ меняет ландшафт всей индустрии, технические гиганты сталкиваются со сложным выбором: принять установленные принципы или отвергнуть их. Недавно Фонд Linux тоже предпринял попытку дать определение «open source ИИ» — это может сигнализировать, что споры о том, как адаптировать традиционные open source ценности к эре искусственного интеллекта, разгораются все ярче.
«Теперь, когда у нас есть четкое определение, мы, возможно, сможем более эффективно бороться с компаниями, которые паразитируют на open source и заявляют, что являются «открытыми», хотя по факту это не так», — отмечает независимый исследователь Саймон Уилсон.
Генеральный директор Hugging Face Клемен Деланж назвал определение OSI «огромной помощью в споре об открытости в области AI, особенно когда речь идет о важности учебных данных».
Исполнительный директор OSI Стефано Маффулли говорит, что организации потребовалось два года, чтобы проработать это определение. Для консультаций привлекались эксперты из академической среды — специалисты по машинному обучению и обработке естественного языка, философы, создателями контента и многие другие.
И хотя Meta объясняет свое несогласие заботой о сохранности обучающих данных, критики компании видят более простой мотив — желание минимизировать юридическую ответственность и сохранить конкурентное преимущество. Многие модели ИИ почти наверняка обучены по материалам, защищенным авторским правом. В апреле New York Times сообщила, что Meta признана, что в ее обучающих данных есть защищенный авторским правом контент «потому что у нас нет возможности не собирать его». Уже есть множество судебных прецедентов — процессы против Meta, Openai, Perplexity, Anthropic, и других компаний за предполагаемое нарушение копирайтов. Исключения есть, но их мало — например, Stable Diffusion раскрывает все свои данные для обучения моделей. Так что сейчас истцы могут полагаться только на косвенные доказательства, если хотят доказать, что были использованы их данные.
А тем временем Маффулли отмечает, что история open source, похоже, зациклилась: «Meta выдвигает те же аргументы, что и Microsoft в 90-х — тогда компания считала открытый исходный код угрозой для своей бизнес-модели». Он вспомнил, как Мета рассказывала ему об активных инвестициях в модель Llama и спрашивала: «Как думаешь, кто сможет сделать так же?». И Маффулли увидел знакомый шаблон: технический гигант использует деньги и запутанность определений, чтобы оправдать сохранение собственной технологии закрытой. «Это их секретный ингредиент, — говорит Маффулли об учебных данных. — Самый ценный актив».