code-review-101-hrogma
5 месяцев назад
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
README.md
🍷 Задание 8: Анализ датасета Wine Quality
Информация о рецензируемых работах
- JustWain
👥 Информация о студенте
- ФИО: Митрофанов Артемий Олегович
- Группа: РИ-150911
- Номер задания: 8
- Профиль на GitVerse: hrogma (https://gitverse.ru/hrogma) (замените на реальный)
⚠️ Эта работа проходит рецензирование в рамках курса по анализу данных.
📝 Описание задания
Необходимо провести exploratory data analysis (EDA) датасета Wine Quality, содержащего физико-химические свойства красного вина и экспертные оценки его качества по шкале от 3 до 9.
Цель анализа:
- Понять распределение качества вина
- Исследовать статистику и распределения признаков
- Оценить взаимосвязь признаков с целевой переменной
- Подготовить данные и визуализации для последующих задач:
- регрессии (прогноз оценки от 3 до 8)
- классификации (Low / Medium / High)
✅ Выполненные работы
🔽 Загрузка данных
- Данные загружены напрямую из официального источника:
UCI Machine Learning Repository — winequality-red.csv - Использован только датасет красного вина (
)1599 строк × 12 столбцов - Не использованы сторонние библиотеки вроде
— толькоdatasetspandas.read_csv
🎯 Анализ целевой переменной (quality)
quality
- Оценка качества — целое число от 3 до 8
- Распределение несбалансировано: большинство значений — 5 и 6
📐 Анализ признаков
- Проанализированы все 11 физико-химических признаков:
,fixed acidity,volatile acidity,citric acid,residual sugar
,chlorides,free sulfur dioxide,total sulfur dioxide
,density,pH,sulphatesalcohol
📊 Визуализация
Созданы и сохранены следующие графики:
- Распределение качества (
)08_wine_quality_target_distribution.png - Гистограммы признаков (
)08_wine_quality_features_distribution.png - Scatter plots: признаки vs качество (
)08_wine_quality_vs_features.png - Корреляции с качеством (
)08_wine_quality_correlation_bars.png - Boxplots по категориям качества (
)08_wine_quality_by_category.png
📈 Статистика
Таблица с ключевыми метриками целевой переменной
| Метрика | Значение |
|---|---|
| Количество записей | 1599 |
Минимум () | 3 |
Максимум () | 8 |
| Среднее | 5.62 |
| Медиана | 6.0 |
| Стандартное отклонение | 0.81 |
Топ-3 признака по модулю корреляции с quality
quality
| Признак | Корреляция (Пирсон) |
|---|---|
| +0.48 |
| –0.40 |
| +0.25 |
🔍 Ключевые находки
- Алкоголь — самый сильный положительный предиктор качества (r = +0.48).
- Летучая кислотность — сильнейший негативный фактор (r = –0.40).
- Вина с высокой оценкой (7–8) характеризуются:
- повышенным содержанием алкоголя и сульфатов,
- пониженной летучей кислотностью и хлоридами.
- Распределение оценок смещено влево: мало образцов с очень высоким (7–8) и очень низким (3–4) качеством → датасет несбалансирован.
💡 Выводы из анализа
- Качество вина можно частично объяснить его химическим составом.
- Наиболее перспективные признаки для модели:
,alcohol,volatile acidity.sulphates - Задача регрессии возможна, но из-за дискретности и ограниченного диапазона целевой переменной многоклассовая классификация (например, 3–4–5–6–7–8) или бинарная/трёхклассовая (Low/Medium/High) может быть предпочтительнее.
- Необходимо учитывать дисбаланс классов при обучении моделей.
📁 Файлы
Добавлено
— основной скрипт EDAwine_quality_analysis.py— настоящий отчётREADME.md- 08_wine_quality_target_distribution.png
- 08_wine_quality_features_distribution.png
- 08_wine_quality_vs_features.png
- 08_wine_quality_correlation_bars.png
- 08_wine_quality_by_category.png
Удалено
- scripts/PANDAS_CHEATSHEET.md
- scripts/CODE_REQUIREMENTS.md
- scripts/MATPLOTLIB_CHEATSHEET.md
- scripts/ASSIGNMENTS_README.md
- FILE_UPDATE_REPORT.md
- CONTRIBUTING.md
Все графики генерируются автоматически при запуске скрипта.