code-review-101-hrogma

0
README.md

🍷 Задание 8: Анализ датасета Wine Quality

Информация о рецензируемых работах

  • JustWain

👥 Информация о студенте

  • ФИО: Митрофанов Артемий Олегович
  • Группа: РИ-150911
  • Номер задания: 8
  • Профиль на GitVerse: hrogma (https://gitverse.ru/hrogma) (замените на реальный)

⚠️ Эта работа проходит рецензирование в рамках курса по анализу данных.


📝 Описание задания

Необходимо провести exploratory data analysis (EDA) датасета Wine Quality, содержащего физико-химические свойства красного вина и экспертные оценки его качества по шкале от 3 до 9.

Цель анализа:

  • Понять распределение качества вина
  • Исследовать статистику и распределения признаков
  • Оценить взаимосвязь признаков с целевой переменной
  • Подготовить данные и визуализации для последующих задач:
    • регрессии (прогноз оценки от 3 до 8)
    • классификации (Low / Medium / High)

✅ Выполненные работы

🔽 Загрузка данных

  • Данные загружены напрямую из официального источника:
    UCI Machine Learning Repository — winequality-red.csv
  • Использован только датасет красного вина (
    1599 строк × 12 столбцов
    )
  • Не использованы сторонние библиотеки вроде
    datasets
    — только
    pandas.read_csv

🎯 Анализ целевой переменной (
quality
)

  • Оценка качества — целое число от 3 до 8
  • Распределение несбалансировано: большинство значений — 5 и 6

📐 Анализ признаков

  • Проанализированы все 11 физико-химических признаков:
    • fixed acidity
      ,
      volatile acidity
      ,
      citric acid
      ,
      residual sugar
      ,
      chlorides
      ,
      free sulfur dioxide
      ,
      total sulfur dioxide
      ,
      density
      ,
      pH
      ,
      sulphates
      ,
      alcohol

📊 Визуализация

Созданы и сохранены следующие графики:

  • Распределение качества (
    08_wine_quality_target_distribution.png
    )
  • Гистограммы признаков (
    08_wine_quality_features_distribution.png
    )
  • Scatter plots: признаки vs качество (
    08_wine_quality_vs_features.png
    )
  • Корреляции с качеством (
    08_wine_quality_correlation_bars.png
    )
  • Boxplots по категориям качества (
    08_wine_quality_by_category.png
    )

📈 Статистика

Таблица с ключевыми метриками целевой переменной

МетрикаЗначение
Количество записей1599
Минимум (
quality
)
3
Максимум (
quality
)
8
Среднее5.62
Медиана6.0
Стандартное отклонение0.81

Топ-3 признака по модулю корреляции с
quality

ПризнакКорреляция (Пирсон)
alcohol
+0.48
volatile acidity
–0.40
sulphates
+0.25

🔍 Ключевые находки

  1. Алкоголь — самый сильный положительный предиктор качества (r = +0.48).
  2. Летучая кислотность — сильнейший негативный фактор (r = –0.40).
  3. Вина с высокой оценкой (7–8) характеризуются:
    • повышенным содержанием алкоголя и сульфатов,
    • пониженной летучей кислотностью и хлоридами.
  4. Распределение оценок смещено влево: мало образцов с очень высоким (7–8) и очень низким (3–4) качеством → датасет несбалансирован.

💡 Выводы из анализа

  • Качество вина можно частично объяснить его химическим составом.
  • Наиболее перспективные признаки для модели:
    alcohol
    ,
    volatile acidity
    ,
    sulphates
    .
  • Задача регрессии возможна, но из-за дискретности и ограниченного диапазона целевой переменной многоклассовая классификация (например, 3–4–5–6–7–8) или бинарная/трёхклассовая (Low/Medium/High) может быть предпочтительнее.
  • Необходимо учитывать дисбаланс классов при обучении моделей.

📁 Файлы

Добавлено

  • wine_quality_analysis.py
    — основной скрипт EDA
  • README.md
    — настоящий отчёт
  • 08_wine_quality_target_distribution.png
  • 08_wine_quality_features_distribution.png
  • 08_wine_quality_vs_features.png
  • 08_wine_quality_correlation_bars.png
  • 08_wine_quality_by_category.png

Удалено

  • scripts/PANDAS_CHEATSHEET.md
  • scripts/CODE_REQUIREMENTS.md
  • scripts/MATPLOTLIB_CHEATSHEET.md
  • scripts/ASSIGNMENTS_README.md
  • FILE_UPDATE_REPORT.md
  • CONTRIBUTING.md

Все графики генерируются автоматически при запуске скрипта.