Підхід для побудови синтетичної навчальної вибірки для навчання моделі-асистента по перевірці стилю коду

Автор: Куцик Тарас Андрійович
Кваліфікаційний рівень: магістр
Спеціальність: Інформаційно-комунікаційні технології
Інститут: Інститут прикладної математики та фундаментальних наук
Форма навчання: денна
Навчальний рік: 2024-2025 н.р.
Мова захисту: англійська
Анотація: Сьогодні в IT-сфері з її великими та різноманітними програмними продуктами однорідність і якість коду стали ключовими факторами ефективної розробки. Зростання команд розробників і різноманіття технологій зумовлюють появу великої кількості стильових розбіжностей, що призводить до непослідовності й плутанини в кодовій базі, а також зниження продуктивності всього проєкту. Такі розбіжності не тільки ускладнюють взаємодію між членами команди, але й підвищують бар’єр для входу нових розробників, яким доводиться адаптуватися до різноманітних стильових підходів в межах одного проєкту. Для розв’язання цієї проблеми в попередніх дослідженнях застосовували спеціально навчені мовні моделі. Проте одним із головних викликів цього підходу була потреба у великій кількості тренувальних даних — прикладів правильного та неправильного коду. Для подолання цього обмеження в цій роботі пропонується підхід програмної генерації синтетичної вибірки для навчання моделі-асистента з перевірки стилю коду. Підхід використовує велику мовну модель із доступом через API для генерації зразків стилістично правильного та неправильного коду, базуючись на обмеженій кількості прикладів із документації. Також передбачена інтерактивна перевірка якості згенерованих прикладів користувачем; у разі незадовільної генерації приклади автоматично коригуватимуться відповідно до інструкцій користувача.