code-review-101-elislady

0
README.md

Анализ датасета Wine

👥 Информация о рецензируемых работах

Рецензенты:

  • Пашков Эдуард
  • Павалаки Денис

👨‍🎓 Информация о студенте

ФИО: Чурсина Елизавета Анатольевна
Группа: РИ-150942 Номер задания: 2
Дисциплина: Информационные технологии и сервисы

📋 Описание задания

Задача: Провести комплексный exploratory data analysis (EDA) датасета Wine

Что нужно анализировать:

  • Целевую переменную (классы вин)
  • Статистические характеристики признаков
  • Распределения и взаимосвязи признаков
  • Корреляции между переменными

✅ Выполненные работы

1. Загрузка данных

  • Загружен датасет Wine из scikit-learn
  • Преобразован в pandas DataFrame
  • Заменены числовые метки на текстовые названия классов
  • Проверена целостность данных

2. Анализ целевой переменной

  • Проанализировано распределение по классам
  • Вычислены процентные соотношения
  • Построены визуализации распределения

3. Анализ признаков

  • Исследованы 13 химических характеристик вин
  • Проанализированы распределения признаков
  • Выявлены различия между классами

4. Визуализация

  • Столбчатые и круговые диаграммы распределения классов
  • Гистограммы распределения признаков (сетка 3x2)
  • Boxplot анализа по классам (сетка 3x2)
  • Heatmap матрицы корреляций

5. Статистика

  • Вычислены основные статистические показатели
  • Проанализированы корреляции между признаками
  • Исследованы различия в распределениях

📊 Таблица с метриками

МетрикаЗначениеЕдиницы измерения
Количество наблюдений178образцов
Количество признаков13характеристик
Количество классов3типа вин
Размерность данных178 × 14строк × столбцов
Пропущенные значения0-

🔢 Ключевые числа

Распределение классов:

  • class_0: 59 образцов (33.1%)
  • class_1: 71 образцов (39.9%)
  • class_2: 48 образцов (27.0%)

Сильные корреляции:

  • Total phenols & Flavanoids: 0.86
  • Flavanoids & OD280/OD315: 0.79
  • Hue & Color intensity: -0.56

🔍 Ключевые находки

1. Сбалансированность данных

  • Классы относительно сбалансированы
  • Отсутствует критический дисбаланс
  • Пригодно для многоклассовой классификации

2. Информативные признаки

  • Flavanoids - наибольшая разделительная способность
  • Proline - четко отделяет класс 0
  • Color intensity - отличает класс 2
  • OD280/OD315 - хороший разделитель всех классов

3. Различия между классами

  • Класс 0: Высокие Flavanoids и Proline, низкая Color intensity
  • Класс 1: Сбалансированный профиль, средние значения
  • Класс 2: Высокая Color intensity, низкие Flavanoids

4. Качество данных

  • Полнота данных: Отсутствуют пропущенные значения
  • Чистота данных: Нет критических выбросов, влияющих на анализ
  • Сбалансированность: Классы относительно равномерно распределены
  • Целостность: Все наблюдения завершены и пригодны для анализа

💡 Выводы из анализа

1. Для предобработки данных

  • Требуется стандартизация признаков (разный масштаб)
  • Возможно уменьшение размерности (высокие корреляции)
  • Все признаки содержат полезную информацию

2. Для моделирования

  • Рекомендуемые алгоритмы: Random Forest, SVM, Gradient Boosting
  • Валидация: Стратифицированная k-fold кросс-валидация
  • Метрики: Accuracy, F1-score, Precision, Recall

3. Перспективы

  • Данные хорошо подходят для классификации
  • Имеются четкие различия между классами
  • Возможно достижение высокой точности классификации

📁 Файлы

Созданные файлы:

  • wine_analysis.py
    - основной код анализа
  • 02_wine_target_distribution.png
    - распределение классов
  • 02_wine_features_distribution.png
    - гистограммы признаков
  • 02_wine_features_by_class.png
    - boxplot по классам
  • 02_wine_correlation_matrix.png
    - матрица корреляций
  • README.md
    - документация и отчет

Удалённые файлы:

  • FILE_UPDATE_REPORT.md
  • CONTRIBUTING.md

Используемые библиотеки: