code-review-101-Denismmm

0
README.md

Анализ датасета Iris

Информация о студенте

  • ФИО: Мизин Денис
  • Группа: РИ-150914
  • Номер задания: 1
  • GitVerse профиль: Denismmm

Описание задания

Цель: Провести полный exploratory data analysis (EDA) датасета Iris

Что нужно анализировать:

  • Распределение целевой переменной (виды ирисов)
  • Статистические характеристики признаков
  • Визуализация распределений
  • Корреляционный анализ
  • Сравнение признаков по видам цветков

Выполненные работы

1. Загрузка данных

  • Загружен датасет Iris из sklearn.datasets
  • Создан DataFrame с признаками и целевой переменной
  • Числовые метки заменены на текстовые названия видов:
    • 0 → setosa
    • 1 → versicolor
    • 2 → virginica

2. Анализ целевой переменной

  • Распределение по трем видам ирисов
  • Процентное соотношение классов

3. Анализ признаков

Исследованы 4 числовых признака:

  • sepal length (cm) - длина чашелистика
  • sepal width (cm) - ширина чашелистика
  • petal length (cm) - длина лепестка
  • petal width (cm) - ширина лепестка

4. Визуализация

Созданы следующие графики:

  • Распределение видов ирисов (столбчатая и круговая диаграммы)
  • Гистограммы распределения признаков
  • Наложенные гистограммы признаков по видам
  • Heatmap матрицы корреляции

5. Статистика

Таблица с метриками

ПризнакСреднееМедианаStdMinMax
sepal length5.845.800.834.307.90
sepal width3.063.000.442.004.40
petal length3.764.351.771.006.90
petal width1.201.300.760.102.50

Ключевые числа

  • Общее количество образцов: 150
  • Количество признаков: 4
  • Количество классов: 3
  • Размерность данных: 150 × 5 (с учетом целевой переменной)

Распределение по видам:

  • setosa: 50 образцов (33.3%)
  • versicolor: 50 образцов (33.3%)
  • virginica: 50 образцов (33.3%)

6. Ключевые находки

Корреляционный анализ:

  • Сильная положительная корреляция между длиной и шириной лепестка: 0.963
  • Высокая корреляция длины лепестка с длиной чашелистика: 0.872
  • Слабая корреляция ширины чашелистика с другими признаками

Распределения по видам:

  • Setosa: имеет значительно меньшие лепестки
  • Versicolor: средние значения признаков
  • Virginica: наибольшие значения по всем признакам

Файлы

Созданные файлы:

  • 01_iris_target_distribution.png
    - распределение целевой переменной
  • 01_iris_features_distribution.png
    - распределение признаков
  • 01_iris_features_by_species.png
    - признаки по видам
  • 01_iris_correlation_matrix.png
    - матрица корреляции
  • iris_analysis.py
    - основной скрипт анализа

Удалённые файлы:

  • Нет

Дата выполнения: [18.11.2025]
Версия Python: 3.8+
Используемые библиотеки: pandas, numpy, matplotlib, seaborn, scikit-learn