Оцінювання якості великих мовних моделей
Автор: Садоха Роман Андрійович
Кваліфікаційний рівень: магістр
Спеціальність: Інформаційно-вимірювальні технології у робототехніці
Інститут: Інститут комп'ютерних технологій, автоматики та метрології
Форма навчання: денна
Навчальний рік: 2024-2025 н.р.
Мова захисту: українська
Анотація: Магістерська кваліфікаційна робота присвячена дослідженню методів оцінки продуктивності сучасних генеративних систем на основі великих мовних моделей (LLMs). У роботі аналізуються проблеми, пов’язані з генерацією тексту, зокрема якість тексту, відповідність контексту, токсичність та справедливість. У роботі розглянуто: 1. Основні підходи до оцінки мовних моделей та вибір метрик, таких як BLEU, ROUGE, GPTScore. 2. Застосування інструментів DecodingTrust і LangKit для автоматизованого аналізу текстових результатів. 3. Експериментальне порівняння моделей ChatGPT-4, ChatGPT-3.5, LLaMA3, Gemma та microsoft/Phi-3-mini-128k-instruct за різними критеріями. Експериментальна частина включає аналіз продуктивності моделей, обчислення метрик та рекомендації щодо підвищення ефективності оцінки. Результати дослідження можуть бути використані для вдосконалення систем автоматизованої оцінки мовних моделей і створення більш надійних генеративних рішень. Ключові слова: великі мовні моделі, DecodingTrust, LangKit, BLEU, ROUGE, GPTScore, токсичність, справедливість, генерація тексту.