Что такое OpenAI
OpenAI создавалась как некоммерческая организация, занимающаяся исследованиями в области искусственного интеллекта (non-profit artificial intelligence research company).
В 2019 OpenAI перешла из статуса non-profit в статус capped for-profit — коммерческой организации с ограниченным доходом. Прибыль с любых ее инвестиций не может превышать стократного значения. Переход в capped for-profit позволял не только привлекать инвестиции от венчурных фондов, но и предоставлять сотрудникам доли в компании. В феврале 2024 года стало известно, что OpenAI договорилась о продаже акций в рамках тендерного предложения фонду Thrive Capital.
Организационная структура выглядит таким образом:
- некоммерческая OpenAI, Inc. (Делавер);
- коммерческая дочерняя OpenAI Global LLC (Сан-Франциско).
Около 49% акций организации принадлежат Microsoft: корпорация инвестировала в OpenAI 13 млрд долларов.
Среди экспертов, которые принимали участие в разработке нейросетей и программных продуктов бренда:
- Илья Суцкевер;
- Тревор Блэквелл;
- Вики Чунг;
- Андрей Карпати;
- Дерк Кингма;
- Джон Шульман;
- Памела Вагата;
- Войцех Заремба.
На сайте организации подчеркивается некоммерческий характер деятельности и задача «создавать ценности для всех, а не для акционеров». Источниками финансирования являются венчурные инвестиции. В OpenAI вкладывались Microsoft, Khosla Ventures, Infosys, Thrive Capital, Y Combinator. Среди индивидуальных инвесторов — Рейд Хоффман, Питер Зиель, Джессика Ливингстон, Илон Маск. Также технологический стартап зарабатывает на продаже доступов к созданным сервисам.
По данным исследования cbinsights.com, в 2024 году OpenAI был одним из самых ценных технологических стартапов («единорогов»). Организация уступает только китайской ByteDance (225 млрд долларов) и американской SpaceX (150 млрд долларов.
История создания OpenAI
Некоммерческая организация зарегистрирована 11 декабря 2015 года. Она основана группой исследователей — Сэмом Олтманом, Илоном Маском, Ильей Суцкевером, Грегом Брокманом, Тревором Блэквеллом, Вики Чунг, Андреем Карпати, Дурком Кингмой, Джоном Шульманом, Памелой Вагатой и Войцехом Зарембой.
Планировалось, что на старте OpenAI получит 1 млрд долларов. Эти средства обещали выделить Amazon Web Services (AWS), Infosys, YC Research, а также частные лица (Сэм Альтман, Грег Брокман, Илон Маск, Рид Хоффман, Джессика Ливингстон, Питер Тиль). Но в реальности удалось привлечь только 130 млн долларов. Согласно исследованию TechCrunch, основную часть средств внес Илон Маск. Штаб-квартира расположена в небольшом здании Pioneer Building в Сан-Франциско.
По данным Wired, основатели некоммерческой организации не могли предложить исследователям заработную плату, сопоставимую со ставками крупными корпорациями вроде Google. Но OpenAI старались привлечь разработчиков интересными проектами и перспективами развития.
В апреле 2016 года вышла бета-версия платформы для машинного обучения с подкреплением (Reinforcement learning, RL) — OpenAI Gym. В феврале 2019 анонсировали GPT-2 — нейросеть генерировала текст, похожий на созданный человеком.
Почему ушел Илон Маск?
20 февраля 2018 года в блоге компании появилась короткая заметка о том, что компания открыта для новых инвестиций. Из новости также стало известно, что американский предприниматель Илон Маск покидает пост в Совете директоров, но при этом продолжит финансировать и консультировать OpenAI.
Официальная причина ухода — «конфликт интересов в будущем». На тот момент инженер занимал пост генерального директора Tesla и начал исследования в области искусственного интеллекта для самоуправляемых авто.
Сэм Альтман называет другие причины. Исследователь указывал, что Илон Маск был недоволен темпами развития OpenAI и предлагал передать ему все полномочия по управлению организацией. Но инициативу не одобрил Совет директоров.
Илон Маск начал критиковать OpenAI. После ухода из НКО миллиардер обвинял стартап в ряде нарушений. 12 июля 2023 года он заявил о создании xAI — собственной фирмы, которая будет заниматься исследованиями в области нейросетей и искусственного интеллекта.
Контракт с Microsoft
В январе 2023 года в блоге OpenAI появилась заметка о расширении сотрудничества с Microsoft. Заявлялось о том, что корпорации имеют успешный опыт взаимодействия (2019, 2021), а сейчас совместно работают над GitHub Copilot и Microsoft Designer. Объем новых инвестиций в проекты компании составил 10 млрд долларов США. Эти средства нужны не только для исследований в области искусственного интеллекта, но и для сервиса облачных вычислений Microsoft Azure.
По разным слухам, представители Microsoft заинтересованы получить 75% прибыли ОpenAI и 49% акций компании. С технологической точки зрения инвестиции требовались для интеграции ChatGPT в поисковую систему Bing. 7 февраля 2023 года было объявлено о внедрении искусственного интеллекта в ряд продуктов, в том числе Microsoft Bing, Edge, Microsoft 365.
29 февраля 2024 года Илон Маск подал в суд на Сэма Альтмана. В иске указывалось, что партнерство с «Майкрософт» привело к изменению политики стартапа (отказ от открытого исходного кода, проблемы этики). Стороны обменялись взаимными обвинениями, которые активно освещали западные СМИ. 11 июня 2024 года американский миллиардер неожиданно отозвал иск.
Сферы деятельности компании
Стартап работает в области artificial intelligence и всего, что связано с AI:
- Computer science;
- Machine Learning;
- Neural Networks;
- Machine Perception;
- Cloud Computing;
- Computer Vision;
- Deep Reinforcement Learning;
- Generative Models;
- Natural Language Processing;
- Deep Learning.
Специалисты компании ведут научные исследования, создают прикладные инструменты для бизнеса и частных пользователей, заключают партнерские соглашения с государственными и негосударственными институтами.
Научные исследования
На официальном сайте есть специальный раздел Research, где публикуют данные об исследованиях и разработках. OpenAI сотрудничает с рядом учреждений, среди которых Los Alamos National Laboratory — национальная лаборатория Министерства энергетики США и некоторые другие.
В фирме работали выдающиеся ученые в области математики, информатики, физики:
- Илья Суцкевер — член Лондонского Королевского общества, доктор в области компьютерных наук (Университет Торонто);
- Джон Шульман — доктор компьютерных наук UC Berkeley;
- Войтек Заремба — двукратный магистр математики Университета Варшавы, доктор наук New York University (NYU)
- Джош Тобин — доктор компьютерных наук Калифорнийского университета Беркли.
Ученые участвуют в конференциях, делают доклады, публикуют работы в СМИ и научных изданиях. Одним из направлений деятельности являются исследования в области безопасности интернета и использования ИИ.
В 2024 году стало известно о том, что компания работает над секретным проектом Strawberry. Его цель — создание ИИ, способного отвечать на сложные научные/математические вопросы и мыслить.
Создание инструментов
Разработчики предлагают набор инструментов не только для частных пользователей, но и для бизнеса. Корпоративным клиентам предоставляют доступ к API. Основные продукты для коммерческого и некоммерческого использования:
- нейросеть GPT-4;
- DALL-E 3;
- Sora;
- Whisper.
В ассортименте разработчиков представлены и другие проекты — RoboSumo, Five, MuseNet, Jukebox, Dactyl.
Прикладные инструменты организации используют и планируют использовать известные платформы:
- Apple — внедрение искусственного интеллекта в iOS, iPadOS, macOS;
- Reddit — технологии ИИ для формирования текстовых и визуальных элементов;
- Shutterstock — создание картинки с помощью ИИ;
- Stack Overflow — использование разработок в OverflowAI;
- BuzzFeed — ИИ для разработки части контента;
- The Atlantic — формирование и улучшение новостной ленты, помощь журналистам и редакторам, автоматизация части рутины;
- Salesforce — развитие проекта EinsteinGPT на базе технологий OpenAI;
- Atlassian — автоматизация части рутины в Jira Service Management и Confluence (фильтрация входящих запросов, распознавание текста и т.д.) с помощью GPT-4.
Технологии ИИ внедряют и в России. Например, генеративная языковая модель GigaChat доступна в пакете «МойОфис». ИИ внедрили в контакт-центре Сбера, «Сколково», Forbes Russia.
Образовательная деятельность
Некоммерческая организация сотрудничает с учебными заведениями. Например, в 2024 году было анонсировано первое партнерство с Университетом штата Аризона (США). Учреждение получит доступ к корпоративной версии ChatGPT Enterprise.
В 2024 представили ChatGPT Edu — версию для учреждений образования. В пресс-релизе указывалось, что использовать AI смогут ведущие университеты: Оксфорд, Уортонская школа Пенсильванского университета, Университет Техаса в Аустине, Университет Аризоны, Колумбийский Университет и другие.
Организация проводит хакатоны и научно-практические конференции.
Основные продукты компании
Разработчик создает и продвигает решения в области Artificial Intelligence. В обзоре представлены проекты известной торговой марки с датой релиза и основной информацией.
Сфера ИИ | Название проекта/нейросети | Дата релиза | Для чего используется, дополнительная информация |
Reinforcement learning (обучение с подкреплением) | Gym | Анонс в 2016, доступен с 2017 | Тестирование general-intelligence benchmark в разных средах |
Gym Retro | 2018 | Платформа Reinforcement learning в области видеоигр | |
RoboSumo | 2018 | Среда для обучения и тренировки ИИ на примере роботов | |
Five | 2017 | Компьютерная программа, которая играет в видеоигры (например, Dota 2 «пять на пять») | |
Dactyl | 2018 | ИИ-система, обученная управлению роботизированной рукой | |
Text generation (генерация текста) | GPT-1 | 2018 | |
GPT-2 | 2019 | Языковая модель обучена на корпусе данных WebText (около 40 Гб) текста | |
GPT-3 | 2020 | Нейросеть содержит 175 млрд параметров, умеет генерировать текст, делать переводы | |
Codex | 2021 | Обучен на 54 млн репозиториев на GitHub для генерации кода. С весны 2023 Codex API не поддерживается | |
GPT-4 | 2023 | Умеет анализировать или генерировать текст объемом до 25 000 слов, писать код на всех основных языках программирования | |
Image classification (классификация изображений) | CLIP (Contrastive Language–Image Pre-training) | 2021 | Анализирует семантическое сходство между текстом и изображениями, используется для классификации картинок |
Text-to-image (генерация изображений) | DALL-E | 2021 | Создание картинок на основе текстовых описаний. Может генерировать изображения как существующих, так и несуществующих в реальности объектов |
DALL-E 2 | 2022 | Обновление возможностей, Point-E с опцией генерации трехмерных изображений | |
DALL-E 3 | 2023 | ИИ с поддержкой сложных описаний и детализированных картинок | |
Text-to-video (генерация видео) | Sora | 2024 | Создавать видео 1920x1080, 1080x1920 и других разрешениях по текстовым описаниям |
Speech-to-text (распознавание речи) | Whisper | 2022 | Распознавание речи (speech recognition system), распознавание языка, перевод |
Music generation (генерация музыки) | MuseNet | 2019 | Способен предсказывать последующие музыкальные ноты в MIDI-файлах. Это позволяет генерировать композиции в 15 стилях с использованием более 10 инструментов |
Jukebox | 2020 | Алгоритм для создания музыкальных композиций с вокалом | |
User interfaces (пользовательские интерфейсы) | Debate Game | 2018 | Игра, которая учит ИИ принимать решения |
Microscope | 2020 | Библиотека электронных визуализаций популярных нейросетей |
В России доступна генеративная нейросетевая модель GigaChat, которая умеет писать код, создавать изображения и тексты, а также делать многое другое. Пользователям доступны:
- SaluteSpeech — синтез и распознавание речи;
- SymFormer — генератор музыки;
- GigaCode — умный AI-ассистент для написания кода;
- Kandinsky 3.0 — генерация картинок.
AI-детектор GigaCheck поможет проверить, кто создал материал — человек или искусственный интеллект.
Разработка не стоит на месте. Появляются новые инструменты и программы для автогенерации статей, кода, видео, изображений и других форматов контента.
ChatGPT
GPT (Generative pre-trained transformers) — разновидность больших языковых моделей. Первую такую large language model (LLM) в OpenAI анонсировали в 2018 году.
GPT — искусственные нейросети. Они обучены на больших объемах данных и способны генерировать текст, похожий на написанный человеком. Для подготовки ИНС нужны тысячи GPU и петабайты исходных данных (книги, публикации в интернете, форумы, научные статьи, репозитории). Например, GigaChat обучали в несколько этапов:
- предобучение (Pre-Training);
- Alignment: Supervised-Finetuning (дообучение);
- Alignment: обучение с подкреплением.
В 2024 году GigaChat от Сбера обошел ChatGPT-3.5 по качеству ответов на русском и английском языках.
DALL-E
DALL-E — это модели преобразования текста в изображения (text-to-image models) по заданным пользователям подсказкам, т.е. промптам (prompts).
Первая версия DALL-E анонсирована в 2021 году и использовала GPT-3 для генерации картинок. Весной 2022 года разработчики представили DALL-E. Нейронная сеть умела создавать картинки с высоким разрешением, сочетать различные концепции и стили. С февраля 2024 года OpenAI начал добавлять водяные знаки к изображениям, созданным с помощью ИИ.
Для обучения нейросети использовали корпус данных WebImageText, в котором свыше 400 млн пар подписей к изображениям.
Возможности DALL-E:
- генерация картинок в различных стилях (в том числе эмодзи);
- перемещение и правильное размещение элементов дизайна;
- модификация картинок (создание вариаций на основе предоставленного исходника), а также другие.
Российский Kandinsky 3.1 умеет генерировать изображения и создавать короткие видео. Он доступен на платформе Fusion Brain, в Телеграм-боте, в мобильном приложении СберБанк Онлайн, виртуальном ассистенте в Android-приложении «Салют», на умном устройстве под управлением Салют ТВ по команде «Включи художника».
Whisper
Whisper — нейросеть OpenAPI для распознавания речи (speech recognition and transcription). Продукт представлен как ПО с открытым кодом в 2022 году.
Для обучения Whisper использовали более 680 000 часов данных на разных языках и на различные тематики. Около 20% (117 000 часов) — не на английском.
Основные особенности нейросетевой модели:
- транскрибация речи на английском и других языках;
- перевод с иностранных на английский;
- распознавание акцентов и интонаций.
В России доступен аналог Whisper — SaluteSpeech. Нейросеть предоставляет возможности распознавания и синтеза (озвучивания).
Основные особенности распознавания речи SaluteSpeech:
- игнорирование посторонних шумов;
- расстановка знаков препинания;
- определение эмоций и интонаций;
- возможность дообучения под конкретную предметную сферу (медицина, банковская сфера, юриспруденция).
Синтез речи с SaluteSpeech позволяет озвучивать статьи на русском и английском. Выбор мужского или женского голоса, расстановка ударений, правильные интонации и корректные паузы — основные преимущества сервиса text-to-speech.
Перспективы развития компании
Для OpenAI искусственный интеллект стал основным направлением деятельности. По мере развития технологии проекты не раз подвергались критике. Организация сталкивается с внешними и внутренними вызовами: уход ключевых сотрудников, изменения в структуре, появление конкурентов на рынке, уязвимость финансовой модели.
Основные аргументы противников инновационных технологий:
- ограничения по данным, необходимым для обучения ИИ;
- утечки конфиденциальных сведений;
- нарушение авторских прав ученых, журналистов, художников;
- отсутствие прозрачности и открытости технологии;
- ошибки, неточности;
- проблемы с распознаванием запросов;
- нарушения конфиденциальности при сборе данных для обучения ИИ.
Появляются законодательные инициативы, направленные на регулирование ИИ: Artificial intelligence act в Евросоюзе, Executive Order on Safe, Secure, and Trustworthy Artificial Intelligence в США, Правила безопасного интернета в Китае. Несмотря на ограничения и критику (вплоть до временного запрета в отдельных странах, например, в Италии), Open AI продолжает развиваться. Во многом этот рост связан с поддержкой технологических гигантов: Apple, Nvidia, Oracle, Salesforce, Amazon, Alphabet.
Рынок Artificial intelligence растет, и это влияет на компанию. По данным Statista, к 2030 году объем рынка превысит 826 млрд долларов США.
В 2024 году стартап занимал девятую строку рейтинга «Самые инновационные компании мира» (World’s 50 Most Innovative Companies of 2024), уступая Nvidia, Microsoft, YouTube. Дважды подряд OpenAI попал на первое место в рейтинге прорывных компаний CNBC Disruptor 50 (2023 и 2024). Ранее это удавалось сделать только SpaceX.
С 2024 наблюдается ориентация предприятия на корпоративный сегмент рынка. В январе 2024 запустили GPT Store для пользователей ChatGPT Plus, Team и Enterprise. По данным OpenAI, чат-бот ChatGPT применяют 92% компаний из списка Fortune 500. Ранее организация приняла участие в создании Copilot AI work suite от Майкрософт.
Одним из направлений работы может стать инвестирование в производство чипов. При этом стартап продолжает разрабатывать и совершенствовать свои программы, ставшие популярными на рынке.