Microsoft представила власні AI‑моделі: новий етап розвитку AI‑екосистеми компанії

Багато хто досі сприймає AI‑рішення Microsoft виключно через призму партнерства з OpenAI. Але нові релізи компанії показують: Microsoft активно розвиває і власні AI‑технології.

У квітні 2026 року Microsoft представила одразу три нові моделі штучного інтелекту:
MAI‑Transcribe‑1 — для розпізнавання мовлення;
MAI‑Voice‑1 — для генерації голосу;
MAI‑Image‑2 — для створення зображень.

Усі моделі вже доступні в Azure AI Foundry та MAI Playground і стали важливим етапом розгортання серії MAI‑моделей нової команди Microsoft AI під керівництвом Мустафи Сулеймана — співзасновника DeepMind та CEO Microsoft AI.

Це частина ширшої стратегії Microsoft створити повноцінну власну AI‑екосистему та зменшити залежність від зовнішніх провайдерів, залишаючись при цьому стратегічним партнером OpenAI.

MAI Transcribe 1: нова модель для розпізнавання мовлення

Найбільше уваги привернула модель MAI‑Transcribe‑1 — AI‑інструмент для перетворення мовлення на текст. За даними Microsoft, вона демонструє екстремально низький рівень помилок у міжнародному тесті якості FLEURS, що робить її однією з найточніших у своєму класі.

Компанія заявляє, що модель перевершує Whisper‑large‑v3 від OpenAI у всіх 25 протестованих мовах, Gemini Flash Lite — у 22 мовах, а GPT‑Transcribe — у 15 мовах. MAI‑Transcribe‑1 підтримує файли обсягом до 200 МБ і працює приблизно у 2,5 раза швидше, ніж попередній рішення Azure AI Speech Fast Transcription. Наразі модель тестується у голосових функціях Copilot та Microsoft Teams для транскрипції зустрічей.

MAI Voice 1: генерація голосу з тексту

Друга модель — MAI‑Voice‑1 — призначена для генерації мовлення на основі тексту. Вона може створювати аудіо тривалістю до 60 секунд, а також формувати нові голоси на основі коротких записів.

Microsoft уже використовує цю технологію в Copilot Daily та Podcasts, позиціонуючи її як рішення для:

  • інтелектуальних AI‑асистентів;
  • автоматичного озвучення контенту;
  • мультимовних сервісів підтримки.

Вартість використання моделі становить 22 долари за мільйон символів.

MAI Image 2: генерація зображень для сервісів Microsoft

Третя модель — MAI‑Image‑2 — відповідає за візуальний контент. Нова версія працює приблизно вдвічі швидше, ніж попередні моделі Microsoft у цьому напрямку. Компанія вже підтвердила її поетапне розгортання в Bing та PowerPoint, що дозволить користувачам створювати ілюстрації до презентацій миттєво.

MAI‑Image‑2 пропонує дві ставки: 5 доларів за мільйон токенів тексту та 33 долари за мільйон токенів зображень, що робить її економічно вигідним варіантом для багатьох сценаріїв.

Що це означає для Microsoft і бізнесу?

Microsoft залишається стратегічним партнером OpenAI, проте компанія впевнено будує власну незалежну інфраструктуру. Окрім вищезгаданих моделей, у Copilot вже поступово з’являється MAI‑1‑preview — універсальна мовна модель для складних текстових запитів.

Для бізнесу та користувачів Microsoft 365 це означає наступне:

  • Copilot стає ще ефективнішим «під капотом»: якщо раніше він сприймався як інтерфейс для технологій OpenAI, то тепер — це рішення, що поєднує найкращі власні моделі серії MAI та потужні зовнішні AI‑провайдери.
  • Azure AI Foundry як новий стандарт: платформа стає ключовим місцем, де компанії можуть деплоїти власні AI‑рішення на базі перевірених моделей Microsoft.
  • Швидкість та екосистемність: власні моделі (in‑house) дозволяють Microsoft швидше впроваджувати оновлення безпосередньо в Teams та PowerPoint, підвищуючи стабільність і продуктивність сервісів.
  • Гнучкість вибору: бізнес отримує можливість обирати між потужністю моделей OpenAI та швидкістю і спеціалізацією моделей серії MAI залежно від конкретних задач.

Схоже, наступний етап конкуренції у сфері штучного інтелекту — це повноцінні AI‑екосистеми. Великі технологічні компанії будують власні моделі, хмарну інфраструктуру, AI‑сервіси та інтегрують їх у повсякденні робочі інструменти. І нові релізи Microsoft показують, що компанія дедалі активніше рухається саме в цьому напрямку.

Корисні посилання