Побудова фундаменту для українського Gemini — коли запрацює національна LLM
У 2025 році Міністерство цифрової трансформації України поставило амбітну ціль — створити українську велику мовну модель (LLM). Це технологія, яка запустить бум ШІ-чатів та асистентів для держсервісів і бізнесів. Вони працюватимуть як Gemini та ChatGPT, тільки на базі українських даних.
Вже пройдено шлях від концепції до реальних технічних рішень. Тож розповідаємо, що відбувається «під капотом» проєкту просто зараз.
Хто будує та на якій технології
Технічним партнером став Київстар. Компанія фінансує та веде розробку, а після фінішу — передасть мовну модель державі.
Фундаментом для української великої мовної моделі обрали сімейство моделей Gemma від Google. Це передові технології, які буде адаптовано під нашу мову та контекст.
Що відбувається зараз
Зараз триває «невидима», але найважливіша частина роботи — підготовка даних. Це головний виклик, адже якісна українська модель потребує не лише інформації з інтернету, а й глибоких знань з історичних архівів та інших письмових джерел.
Інформація для навчання збирається у державних інституціях, медіа, університетах та наукових закладах. Але значна частина важливих текстів досі існує лише на папері, що вчергове нагадує про потребу загальної цифровізації в країні.
Для незалежного контролю розробки моделі було зібрано комітет експертів, які працюють за чотирма напрямами: науково-технічним, правовим, культурно-історичним та мовним. Їхнє поточне завдання — розробити професійні бенчмарки (систему тестування). Це дозволить переконатися, що модель навчена якісно.
Вже в січні 2026 року матимемо:
- Першу базу текстів для тренування мовної моделі
- Покращений токенізатор — інструмент, який ефективно розбиває слова на елементи. Це дозволить моделі обробляти українську мову швидше та продуктивніше
- Власні бенчмарки для оцінки якості — стандарти, за якими ми перевірятимемо ефективність та безпеку LLM
Паралельно створюються юридичні правила, щоб робота з даними для моделі була прозорою, безпечною та відповідала вимогам у сфері інтелектуальної власності.
Коли реліз
Першу версію моделі планується запустити в бета-тестування вже навесні 2026 року. Вона буде навчена на унікальних даних і зможе конкурувати з іншими моделями у відкритих рейтингах.
А поки йде підготовка до вибору ім’я для української LLM. У січні буде запущено голосування в Дії — назву оберете саме ви.
За матеріалами Мінцифри





























