Включите исполнение JavaScript в браузере, чтобы запустить приложение.
Open source8 ноября, 2024

Что такое open source AI? OSI дала определение, но примет ли его комьюнити?

OSI сформулировала первое определение свободного AI, однако крупные игроки рынка не согласны с решением. Разбираемся, в чем суть.

Организация OSI (Open Source Initiative) дала официальное определение «открытого» ИИ, создав почву для споров с технологическими гигантами типа Meta, чьи модели не соответствуют правилам.

OSI давно задает отраслевые стандарты, что стоит считать «открытым» ПО, однако ИИ-системы могут включать элементы, которые не покрываются обычными лицензиями, например, в вопросе обучения моделей. Теперь, чтобы ИИ считался по-настоящему открытым, разработчики должны предоставить:

  • доступ к подробностям данных, которые используются для обучения ИИ, чтобы другие люди могли понять и воссоздать их;
  • полный объем кода, используемого для создания и запуска модели;
  • настройки и веса для тренировок, которые помогают ИИ показывать результаты.

Такое определение прямо противоречит концепции Llama от Meta, которая активно продвигается как крупнейшая модель ИИ с открытым исходным кодом. Любой человек может загрузить и использовать модель, но у нее есть ограничения на коммерческое использование и нет доступа к учебным данным. Из-за этого Llama не соответствует стандартам OSI в части «свободного использования, модификации и распространения».

Пресс-секретарь Meta Фейт Эйшен рассказала, что, хотя компания согласна с OSI во многих вопросах, с этим определением она согласиться не может. «Не существует единого определения open source ИИ, и даже попытка сделать это может стать проблемой, так как предыдущие определения не могли охватить всей сложности современных быстро развивающихся ИИ-моделей».

«Мы продолжим сотрудничать с OSI и другими отраслевыми организациями, чтобы сделать ИИ более доступным и подойти к этому ответственно, независимо от формальных определений», — добавила Эйшен.

В течение 25 лет определение «open source ПО», которое дала OSI, активно использовалось в сообществе теми разработчиками, которые хотели опираться на работы друг друга, не опасаясь судебных исков или уловок с лицензиями. Теперь, когда ИИ меняет ландшафт всей индустрии, технические гиганты сталкиваются со сложным выбором: принять установленные принципы или отвергнуть их. Недавно Фонд Linux тоже предпринял попытку дать определение «open source ИИ» — это может сигнализировать, что споры о том, как адаптировать традиционные open source ценности к эре искусственного интеллекта, разгораются все ярче.

«Теперь, когда у нас есть четкое определение, мы, возможно, сможем более эффективно бороться с компаниями, которые паразитируют на open source и заявляют, что являются «открытыми», хотя по факту это не так», — отмечает независимый исследователь Саймон Уилсон.

Генеральный директор Hugging Face Клемен Деланж назвал определение OSI «огромной помощью в споре об открытости в области AI, особенно когда речь идет о важности учебных данных».

Исполнительный директор OSI Стефано Маффулли говорит, что организации потребовалось два года, чтобы проработать это определение. Для консультаций привлекались эксперты из академической среды — специалисты по машинному обучению и обработке естественного языка, философы, создателями контента и многие другие.

И хотя Meta объясняет свое несогласие заботой о сохранности обучающих данных, критики компании видят более простой мотив — желание минимизировать юридическую ответственность и сохранить конкурентное преимущество. Многие модели ИИ почти наверняка обучены по материалам, защищенным авторским правом. В апреле New York Times сообщила, что Meta признана, что в ее обучающих данных есть защищенный авторским правом контент «потому что у нас нет возможности не собирать его». Уже есть множество судебных прецедентов — процессы против Meta, Openai, Perplexity, Anthropic, и других компаний за предполагаемое нарушение копирайтов. Исключения есть, но их мало — например, Stable Diffusion раскрывает все свои данные для обучения моделей. Так что сейчас истцы могут полагаться только на косвенные доказательства, если хотят доказать, что были использованы их данные.

А тем временем Маффулли отмечает, что история open source, похоже, зациклилась: «Meta выдвигает те же аргументы, что и Microsoft в 90-х — тогда компания считала открытый исходный код угрозой для своей бизнес-модели». Он вспомнил, как Мета рассказывала ему об активных инвестициях в модель Llama и спрашивала: «Как думаешь, кто сможет сделать так же?». И Маффулли увидел знакомый шаблон: технический гигант использует деньги и запутанность определений, чтобы оправдать сохранение собственной технологии закрытой. «Это их секретный ингредиент, — говорит Маффулли об учебных данных. — Самый ценный актив».