llm_101-Kayuk
↑ ↑ ↑ ↑ 📝 Выбранная тема
Сравнение LLM: Анализ качества описаний технических концепций
Создайте новую ветку репозитория, обновите странницу, вверху должна появиться тема.
Ваша задача отредактировать файл README.md чтобы корректно и добросовестно пройти автопроверку:
- вам необходимо заполнить [места для заполенения] и пустые ячейки таблицы (в итоговом файле не должно быть [])
- после этого создать Запрос на слияние в ветку master
- если проверка будет формально пройдена, но содержания не будет - задание считается незасчитанным
- всего можно получить до 10 баллов БРС в Практику
👤 Информация о студенте
- ФИО: [Ваше имя]
- Группа: [Номер группы]
- Дата: [Дата выполнения]
📋 Описание задания
Проект посвящен сравнительному анализу качества описаний технических концепций, генерируемых различными языковыми моделями (LLM).
Цель — изучить сильные и слабые стороны каждой модели, оценить их способность объяснять сложные технические темы.
🤖 Протестированные модели
Укажите, какие модели вы использовали (минимум 3):
- GigaChat (укажите версию: Lite/Pro/Max)
- YandexGPT (укажите версию)
- ChatGPT (укажите версию: 3.5/4/4o)
- Claude (укажите версию)
- Llama (укажите версию)
- Deepseek (укажите версию)
- Qwen (укажите версию)
- Perplexity (укажите версию)
- Другая модель: _____________
🎯 Промпт для тестирования
Опиши концепцию "[ТЕМА]" для студента IT-специальности.
Объяснение должно быть:
- Понятным для человека с базовыми знаниями программирования
- Структурированным (с подзаголовками при необходимости)
- Содержать практический пример
- Объем: 200-300 слов
Примечание: Вы можете адаптировать промпт под свои задачи, но базовая структура должна быть одинаковой для всех моделей.
📈 Сравнительный анализ
Сводная таблица оценок (методология оценки тут)
| Критерий | Модель 1 | Модель 2 | Модель 3 | Победитель |
|---|---|---|---|---|
| Понятность | ||||
| Структурированность | ||||
| Полнота | ||||
| Точность | ||||
| Практичность примера | ||||
| Общий балл |
Количественные метрики
| Метрика | Модель 1 | Модель 2 | Модель 3 |
|---|---|---|---|
| Время генерации (сек) | |||
| Количество слов | |||
| Количество символов | |||
| Количество примеров | |||
| Наличие кода (да/нет) |
Обнаруженные "галлюцинации" или ошибки
Модель 1: [Опишите найденные неточности или выдуманную информацию]
Модель 2: [Опишите найденные неточности или выдуманную информацию]
Модель 3: [Опишите найденные неточности или выдуманную информацию]
🏆 Выводы
Лучшая модель для данной задачи
Победитель: [Название модели]
Обоснование: [Развернутое объяснение, почему именно эта модель справилась лучше всего]
💡 Личные выводы
[Напишите ваши личные впечатления от работы с разными LLM. Что вас удивило? Что разочаровало? Как изменилось ваше представление о возможностях AI?]
🎓 Рефлексия
Планы по дальнейшему использованию LLM
[Ваши мысли о том, как вы будете использовать LLM в обучении и работе]
Методология оценки
Критерии оценки (1-5 баллов)
Понятность (1-5)
- 1: Непонятно, слишком сложные термины без объяснений
- 2: Понятно частично, много сложных моментов
- 3: В целом понятно, но есть нюансы
- 4: Хорошо объяснено, легко читается
- 5: Отлично, понятно даже новичку
Структурированность (1-5)
- 1: Хаотичное изложение без структуры
- 2: Слабая структура, сложно следить
- 3: Есть базовая структура
- 4: Хорошо структурировано, логичные переходы
- 5: Идеальная структура, каждая часть на своём месте
Полнота (1-5)
- 1: Очень поверхностно, не раскрыта тема
- 2: Не хватает важных деталей
- 3: Основное покрыто, но не хватает глубины
- 4: Достаточно полное описание
- 5: Исчерпывающее объяснение всех аспектов
Точность (1-5)
- 1: Много ошибок или неточностей
- 2: Есть значимые ошибки
- 3: В целом верно, но есть неточности
- 4: Точно, минимум неточностей
- 5: Полностью точное описание без ошибок
Практичность примера (1-5)
- 1: Нет примера или он бесполезен
- 2: Пример есть, но не помогает понять
- 3: Базовый пример, частично полезен
- 4: Хороший практический пример
- 5: Отличный пример, полностью иллюстрирует концепцию