Многие до сих пор воспринимают ИИ-решения Microsoft исключительно через призму партнерства с OpenAI. Но новые релизы компании показывают: Microsoft активно развивает и собственные ИИ-технологии.
В апреле 2026 года Microsoft представила сразу три новые модели искусственного интеллекта:
MAI‑Transcribe‑1 — для распознавания речи;
MAI‑Voice‑1 — для генерации голоса;
MAI‑Image‑2 — для создания изображений.
Все модели уже доступны в Azure AI Foundry и MAI Playground и стали важным этапом развертывания серии MAI‑моделей новой команды Microsoft AI под руководством Мустафы Сулеймана — соучредителя DeepMind и CEO Microsoft AI.
Это часть более широкой стратегии Microsoft по созданию полноценной собственной AI-экосистемы и уменьшению зависимости от внешних провайдеров, оставаясь при этом стратегическим партнером OpenAI.
MAI Transcribe 1: новая модель для распознавания речи
Наибольшее внимание привлекла модель MAI-Transcribe-1 — AI-инструмент для преобразования речи в текст. По данным Microsoft, она демонстрирует чрезвычайно низкий уровень ошибок в международном тесте качества FLEURS, что делает ее одной из самых точных в своем классе.
Компания заявляет, что модель превосходит Whisper‑large‑v3 от OpenAI во всех 25 тестируемых языках, Gemini Flash Lite — в 22 языках, а GPT‑Transcribe — в 15 языках. MAI‑Transcribe‑1 поддерживает файлы объемом до 200 МБ и работает примерно в 2,5 раза быстрее, чем предыдущее решение Azure AI Speech Fast Transcription. В настоящее время модель тестируется в голосовых функциях Copilot и Microsoft Teams для транскрипции встреч.
MAI Voice 1: генерация голоса из текста
Вторая модель — MAI‑Voice‑1 — предназначена для генерации речи на основе текста. Она может создавать аудио продолжительностью до 60 секунд, а также формировать новые голоса на основе коротких записей.
Microsoft уже использует эту технологию в Copilot Daily и Podcasts, позиционируя ее как решение для:
- интеллектуальных AI-ассистентов;
- автоматического озвучивания контента;
- многоязычных сервисов поддержки.
Стоимость использования модели составляет 22 доллара за миллион символов.
MAI Image 2: генерация изображений для сервисов Microsoft
Третья модель — MAI‑Image‑2 — отвечает за визуальный контент. Новая версия работает примерно в два раза быстрее, чем предыдущие модели Microsoft в этом направлении. Компания уже подтвердила ее поэтапное развертывание в Bing и PowerPoint, что позволит пользователям создавать иллюстрации к презентациям мгновенно.
MAI‑Image‑2 предлагает две ставки: 5 долларов за миллион токенов текста и 33 доллара за миллион токенов изображений, что делает ее экономически выгодным вариантом для многих сценариев.
Что это означает для Microsoft и бизнеса?
Microsoft остается стратегическим партнером OpenAI, однако компания уверенно строит собственную независимую инфраструктуру. Помимо вышеупомянутых моделей, в Copilot уже постепенно появляется MAI‑1‑preview — универсальная языковая модель для сложных текстовых запросов.
Для бизнеса и пользователей Microsoft 365 это означает следующее:
- Copilot становится еще более эффективным «под капотом»: если раньше он воспринимался как интерфейс для технологий OpenAI, то теперь — это решение, сочетающее лучшие собственные модели серии MAI и мощных внешних AI-провайдеров.
- Azure AI Foundry как новый стандарт: платформа становится ключевым местом, где компании могут развертывать собственные AI-решения на базе проверенных моделей Microsoft.
- Скорость и экосистемность: собственные модели (in-house) позволяют Microsoft быстрее внедрять обновления непосредственно в Teams и PowerPoint, повышая стабильность и производительность сервисов.
- Гибкость выбора: бизнес получает возможность выбирать между мощностью моделей OpenAI и скоростью и специализацией моделей серии MAI в зависимости от конкретных задач.
Похоже, следующий этап конкуренции в сфере искусственного интеллекта — это полноценные AI-экосистемы. Крупные технологические компании создают собственные модели, облачную инфраструктуру, AI-сервисы и интегрируют их в повседневные рабочие инструменты. И новые релизы Microsoft показывают, что компания все активнее движется именно в этом направлении.