first_steps_with_VS_Code
Ваше уникальное случайное число - 89 Тема: Blue-Green Deployment
↑ ↑ ↑ ↑ 📝 Выбранная тема
Сравнение LLM: Анализ качества описаний технических концепций
Создайте новую ветку репозитория, обновите странницу, вверху должна появиться тема.
Ваша задача отредактировать файл README.md чтобы корректно и добросовестно пройти автопроверку:
- вам необходимо заполнить [места для заполенения] и пустые ячейки таблицы (в итоговом файле не должно быть [])
- после этого создать Запрос на слияние в ветку master
- если проверка будет формально пройдена, но содержания не будет - задание считается незасчитанным
- всего можно получить до 10 баллов БРС в Практику
👤 Информация о студенте
- ФИО: [Пульников Артём Алексеевич]
- Группа: [РИ-150911]
- Дата: [21.10.25]
📋 Описание задания
Проект посвящен сравнительному анализу качества описаний технических концепций, генерируемых различными языковыми моделями (LLM).
Цель — изучить сильные и слабые стороны каждой модели, оценить их способность объяснять сложные технические темы.
🤖 Протестированные модели
Укажите, какие модели вы использовали (минимум 3):
- [ _ ] GigaChat (укажите версию: Lite/Pro/Max)
- [ _ ] YandexGPT (укажите версию)
- [ _ ] ChatGPT (укажите версию: 3.5/4/4o)
- [ _ ] Claude (укажите версию)
- [ _ ] Llama (укажите версию)
- [DeepSeek-V3.2] Deepseek (укажите версию)
- [Qwen3] Qwen (укажите версию)
- [GPT-4] Perplexity (укажите версию)
- [ _ ] Другая модель: _____________
🎯 Промпт для тестирования
Опиши концепцию "[ТЕМА]" для студента IT-специальности.
Объяснение должно быть:
- Понятным для человека с базовыми знаниями программирования
- Структурированным (с подзаголовками при необходимости)
- Содержать практический пример
- Объем: 200-300 слов
Примечание: Вы можете адаптировать промпт под свои задачи, но базовая структура должна быть одинаковой для всех моделей.
📈 Сравнительный анализ
Сводная таблица оценок (методология оценки тут)
| Критерий | DeepSeek | Perplexity | Qwen | Qwen |
|---|---|---|---|---|
| Понятность | 4 | 4 | 5 | _ |
| Структурированность | 5 | 5 | 5 | _ |
| Полнота | 4 | 3 | 5 | |
| Точность | 4 | 3 | 4 | |
| Практичность примера | 5 | 5 | 5 | _ |
| Общий балл | 22 | 20 | 24 | _ |
Количественные метрики
| Метрика | DeepSeek | Perplexity | Qwen |
|---|---|---|---|
| Время генерации (сек) | 30 | 22 | 24 |
| Количество слов | много | мало | средне |
| Количество символов | много | мало | средне |
| Количество примеров | 2 | 1 | 1 |
| Наличие кода (да/нет) | да | да | нет |
Обнаруженные "галлюцинации" или ошибки
DeepSeek: [нету]
Perplexity: [нету]
Qwen: [нету]
🏆 Выводы
Лучшая модель для данной задачи
Победитель: [Qwen]
Обоснование: [Больше возможностей, более структурированная информация]
💡 Личные выводы
[Удивился, что в бесплатной неёросети Qwen есть столько разных заданий для запроса]
🎓 Рефлексия
Планы по дальнейшему использованию LLM
[Каждый день использую LLM и буду использовать дальше]
Методология оценки
Критерии оценки (1-5 баллов)
Понятность (1-5)
- 1: Непонятно, слишком сложные термины без объяснений
- 2: Понятно частично, много сложных моментов
- 3: В целом понятно, но есть нюансы
- 4: Хорошо объяснено, легко читается
- 5: Отлично, понятно даже новичку
Структурированность (1-5)
- 1: Хаотичное изложение без структуры
- 2: Слабая структура, сложно следить
- 3: Есть базовая структура
- 4: Хорошо структурировано, логичные переходы
- 5: Идеальная структура, каждая часть на своём месте
Полнота (1-5)
- 1: Очень поверхностно, не раскрыта тема
- 2: Не хватает важных деталей
- 3: Основное покрыто, но не хватает глубины
- 4: Достаточно полное описание
- 5: Исчерпывающее объяснение всех аспектов
Точность (1-5)
- 1: Много ошибок или неточностей
- 2: Есть значимые ошибки
- 3: В целом верно, но есть неточности
- 4: Точно, минимум неточностей
- 5: Полностью точное описание без ошибок
Практичность примера (1-5)
- 1: Нет примера или он бесполезен
- 2: Пример есть, но не помогает понять
- 3: Базовый пример, частично полезен
- 4: Хороший практический пример
- 5: Отличный пример, полностью иллюстрирует концепцию