code-review-101-bel_andd
Информация о рецензируемых работах
Работа будет проверяться двумя рецензентами:
@Omnifisans, @Garra
А также мой профиль: @bel_andd
Информация о студенте
ФИО: Белоусова Анна Дмитриевна
Группа: РИ-150921
Номер задания: 9
Описание задания
Нужно было проанализировать датасет с оценками качества вин. Цель — понять, какие химические показатели влияют на оценку, и подготовить визуализации
Выполненные работы
Загрузка данных
Данные взяты из Hugging Face: датасет mnemoraorg/wine-quality-6k4. Целевая переменная — quality.
Анализ целевой переменной
Почти все вина — на 5 и 6, но оценки 3 и 8 тоже присутствуют. Среднее +-5.64, медиана — 6. Распределениелевостороннее, поэтому для модели логичнее делать классификацию, а не регрессию.
Анализ признаков
Пропусков нет, но у residual sugar и free sulfur dioxide есть длинные хвосты — возможны выбросы.
Визуализация
- гистограмма и KDE для quality
- гистограммы всех признаков
- scatter plots для первых 6 признаков
- корреляционная диаграмма
- boxplots по категориям Low/Medium/High
Статистика
Таблица с метриками
Для каждого признака посчитан mean, std, min, max.
Например:
- alcohol: среднее 10.49%, std 1.07
- volatile acidity: в среднем 0.53
- pH: почти все вина в диапазоне 3.0–3.5, среднее 3.22
Ключевые числа
- alcohol коррелирует с качеством на +0.476
- volatile acidity на –0.391
- в категории Low средний алкоголь +-9.8%, в High +-11.6%.
Ключевые находки
Вина с низким качеством почти не содержат алкоголя, а с высоким почти всегда крепче
Выводы из анализа
На качество вина оказывают влияние отдельные физико-химические показатели, но в первую очередь содержание алкоголя и уровень летучих кислот. Задачу лучше рассматривать как классификацию по трём категориям качества: низкое, среднее, высокое.
Файлы
Список созданных и удалённых файлов
Созданы:
- assignment.py
- 08_wine_quality_target_distribution.png
- 08_wine_quality_features_distribution.png
- 08_wine_quality_vs_features.png
- 08_wine_quality_correlation_bars.png
- 08_wine_quality_by_category.png
Удалены:
- CONTRIBUTING.md
- FILE_UPDATE_REPORT.md