code-review-101-Martin11

0
README.md

Отчёт по заданию 2: Анализ датасета Wine Цель задачи Произвести исследовательский анализ (Exploratory Data Analysis, EDA) датасета Wine. Основная задача — загрузить данные, проанализировать целевую переменную и числовые признаки, визуализировать распределения и построить матрицу корреляций.

Используемые данные Датасет Wine из библиотеки sklearn.datasets. Он содержит 178 образцов вин трех классов с 13 числовыми признаками, описывающими физико-химические свойства.

Шаги решения Загрузка данных Использована функция load_wine() из sklearn.datasets. Преобразовали данные в pandas DataFrame, соединив признаки и целевую переменную. Массив числовых меток классов заменили на удобочитаемые имена (class_0, class_1, class_2).

Анализ целевой переменной Подсчитали количество объектов каждого класса и их процентное соотношение. Это помогло понять баланс классов.

Статистика признаков Для каждого из 13 числовых признаков вычислили среднее, медиану, стандартное отклонение и размах (максимум минус минимум). Это дало базовое представление о распределениях и вариабельности.

Визуализация распределения классов Построили столбчатую и круговую диаграммы, показывающие распределение объектов по классам.

Визуализация распределений признаков Для первых шести признаков построили гистограммы с плотностями KDE — помогло заметить формы распределений, возможные сдвиги и выбросы.

Boxplot признаков по классам Построили boxplot диаграммы для первых шести признаков с разбивкой по классам вин; это позволило выявить различия в распределениях внутри классов.

Матрица корреляций Вычислили корреляцию между признаками и визуализировали с помощью тепловой карты (heatmap). Выявлены сильно коррелированные переменные.

Основные выводы Классы сбалансированы относительно равномерно, слегка преобладает класс 1.

Некоторые признаки имеют сильную корреляцию друг с другом, что может говорить о дублировании или зависимости.

Распределения признаков разнятся: некоторые симметричны, некоторые – с длинным хвостом.

Boxplot по классам показывает, что признаки могут хорошо разделять классы, что полезно для классификации.

Технические детали Язык: Python 3.8+

Библиотеки: pandas, numpy, matplotlib, seaborn, scikit-learn

Сохранены графики в формате PNG:

02_wine_target_distribution.png

02_wine_features_distribution.png

02_wine_features_by_class.png

02_wine_correlation_matrix.png