Багато хто досі сприймає AI‑рішення Microsoft виключно через призму партнерства з OpenAI. Але нові релізи компанії показують: Microsoft активно розвиває і власні AI‑технології.
У квітні 2026 року Microsoft представила одразу три нові моделі штучного інтелекту:
MAI‑Transcribe‑1 — для розпізнавання мовлення;
MAI‑Voice‑1 — для генерації голосу;
MAI‑Image‑2 — для створення зображень.
Усі моделі вже доступні в Azure AI Foundry та MAI Playground і стали важливим етапом розгортання серії MAI‑моделей нової команди Microsoft AI під керівництвом Мустафи Сулеймана — співзасновника DeepMind та CEO Microsoft AI.
Це частина ширшої стратегії Microsoft створити повноцінну власну AI‑екосистему та зменшити залежність від зовнішніх провайдерів, залишаючись при цьому стратегічним партнером OpenAI.
MAI Transcribe 1: нова модель для розпізнавання мовлення
Найбільше уваги привернула модель MAI‑Transcribe‑1 — AI‑інструмент для перетворення мовлення на текст. За даними Microsoft, вона демонструє екстремально низький рівень помилок у міжнародному тесті якості FLEURS, що робить її однією з найточніших у своєму класі.
Компанія заявляє, що модель перевершує Whisper‑large‑v3 від OpenAI у всіх 25 протестованих мовах, Gemini Flash Lite — у 22 мовах, а GPT‑Transcribe — у 15 мовах. MAI‑Transcribe‑1 підтримує файли обсягом до 200 МБ і працює приблизно у 2,5 раза швидше, ніж попередній рішення Azure AI Speech Fast Transcription. Наразі модель тестується у голосових функціях Copilot та Microsoft Teams для транскрипції зустрічей.
MAI Voice 1: генерація голосу з тексту
Друга модель — MAI‑Voice‑1 — призначена для генерації мовлення на основі тексту. Вона може створювати аудіо тривалістю до 60 секунд, а також формувати нові голоси на основі коротких записів.
Microsoft уже використовує цю технологію в Copilot Daily та Podcasts, позиціонуючи її як рішення для:
- інтелектуальних AI‑асистентів;
- автоматичного озвучення контенту;
- мультимовних сервісів підтримки.
Вартість використання моделі становить 22 долари за мільйон символів.
MAI Image 2: генерація зображень для сервісів Microsoft
Третя модель — MAI‑Image‑2 — відповідає за візуальний контент. Нова версія працює приблизно вдвічі швидше, ніж попередні моделі Microsoft у цьому напрямку. Компанія вже підтвердила її поетапне розгортання в Bing та PowerPoint, що дозволить користувачам створювати ілюстрації до презентацій миттєво.
MAI‑Image‑2 пропонує дві ставки: 5 доларів за мільйон токенів тексту та 33 долари за мільйон токенів зображень, що робить її економічно вигідним варіантом для багатьох сценаріїв.
Що це означає для Microsoft і бізнесу?
Microsoft залишається стратегічним партнером OpenAI, проте компанія впевнено будує власну незалежну інфраструктуру. Окрім вищезгаданих моделей, у Copilot вже поступово з’являється MAI‑1‑preview — універсальна мовна модель для складних текстових запитів.
Для бізнесу та користувачів Microsoft 365 це означає наступне:
- Copilot стає ще ефективнішим «під капотом»: якщо раніше він сприймався як інтерфейс для технологій OpenAI, то тепер — це рішення, що поєднує найкращі власні моделі серії MAI та потужні зовнішні AI‑провайдери.
- Azure AI Foundry як новий стандарт: платформа стає ключовим місцем, де компанії можуть деплоїти власні AI‑рішення на базі перевірених моделей Microsoft.
- Швидкість та екосистемність: власні моделі (in‑house) дозволяють Microsoft швидше впроваджувати оновлення безпосередньо в Teams та PowerPoint, підвищуючи стабільність і продуктивність сервісів.
- Гнучкість вибору: бізнес отримує можливість обирати між потужністю моделей OpenAI та швидкістю і спеціалізацією моделей серії MAI залежно від конкретних задач.
Схоже, наступний етап конкуренції у сфері штучного інтелекту — це повноцінні AI‑екосистеми. Великі технологічні компанії будують власні моделі, хмарну інфраструктуру, AI‑сервіси та інтегрують їх у повсякденні робочі інструменти. І нові релізи Microsoft показують, що компанія дедалі активніше рухається саме в цьому напрямку.