code-review-101-Zhnyaugamerz

0
4 месяца назад
4 месяца назад
4 месяца назад
README.md
  1. ecxqua, BendySonic
  2. Бабушкин Евгений Андреевич, РИ-150911, задание 8

2. Описание задания

Анализ датасета качества вина, содержащего физико-химические свойства различных вин и их экспертные оценки качества.

Что нужно анализировать:

  • Распределение и статистику целевой переменной (качество вина)
  • Физико-химические свойства вин и их взаимосвязи
  • Корреляции между признаками и качеством
  • Категориальный анализ качества вин

3. Выполненные работы

📊 Загрузка данных

  • Загружен датасет "mnemoraorg/wine-quality-6k4" из Hugging Face Hub
  • Конвертирован в pandas DataFrame для анализа
  • Исходный размер датасета: 6497 строк × 13 столбцов

🎯 Анализ целевой переменной

  • Качество вина (quality): целочисленная оценка от 3 до 9
  • Проанализировано распределение оценок качества
  • Вычислена описательная статистика (среднее, медиана, стандартное отклонение)

🔍 Анализ признаков

Проанализированы 12 физико-химических свойств:

  • fixed acidity
    - фиксированная кислотность
  • volatile acidity
    - летучая кислотность
  • citric acid
    - лимонная кислота
  • residual sugar
    - остаточный сахар
  • chlorides
    - хлориды
  • free sulfur dioxide
    - свободный диоксид серы
  • total sulfur dioxide
    - общий диоксид серы
  • density
    - плотность
  • pH
    - уровень pH
  • sulphates
    - сульфаты
  • alcohol
    - алкоголь
  • quality
    - качество (целевая переменная)

📈 Визуализация

Созданы следующие визуализации:

  • Распределение целевой переменной (гистограмма и KDE)
  • Распределения всех признаков в сетке 2×4
  • Scatter plots топ-6 признаков против качества
  • Горизонтальная диаграмма корреляций
  • Box plots по категориям качества

4. Статистика

📋 Таблица с метриками качества

МетрикаЗначение
Среднее качество5.82
Медиана качества6.00
Стандартное отклонение0.87
Минимальное качество3
Максимальное качество9
Диапазон6

🔢 Ключевые числа

  • Общее количество образцов: 6497
  • Количество признаков: 12 физико-химических + 1 целевой
  • Наиболее частое качество: 6 (≈35% образцов)
  • Категории качества:
    • Low (1-4): ~8% образцов
    • Medium (5-6): ~67% образцов
    • High (7-9): ~25% образцов

5. Ключевые находки

🎯 Выводы из анализа

  1. Распределение качества: Оценки сконцентрированы вокруг значений 5-6, что указывает на нормальное распределение с небольшим смещением в сторону более высоких оценок.

  2. Наиболее влиятельные признаки:

    • Алкоголь имеет самую высокую положительную корреляцию с качеством
    • Плотность показывает сильную отрицательную корреляцию
    • Летучая кислотность отрицательно влияет на качество
  3. Категориальные различия:

    • Вина высокой категории имеют значительно более высокое содержание алкоголя
    • Низкокачественные вина характеризуются повышенной летучей кислотностью
    • Сульфаты также важны для дифференциации категорий качества
  4. Визуальные закономерности:

    • Четко прослеживаются линейные зависимости для некоторых признаков
    • Наблюдаются кластеры в scatter plots, указывающие на возможные подгруппы вин

6. Файлы

📁 Созданные файлы

  1. target_distrib.png
    - распределение целевой переменной
  2. features_distrib.png
    - распределения всех признаков
  3. target_vs_features.png
    - scatter plots признаков против качества
  4. correlation_bars.png
    - диаграмма корреляций с качеством
  5. by_category.png
    - box plots по категориям качества

🗑️ Удалённые файлы

  1. FILE_UPDATE_REPORT.md - автосгенерированная штука где написано всё что есть в репо
  2. CONTRIBUTING.md - написано всё что надо сделать
  3. PANDAS_CHEATSHEET.md - шпаргалка по pandas
  4. MATPLOTLIB_CHEATSHEET.md - шпаргалка по matplotlib
  5. CODE_REQUIREMENTS.md - требования к коду
  6. ASSIGNMENTS_README.md - полная документация к заданиям