code-review-101-delovarim

0
README.md

📊 Задание №1 — Exploratory Data Analysis (Iris Dataset)

Студент: Павленко Степан, группа РИ-150932
GitVerse логин:

delovar

Вариант: 1

Рецензенты:

  • @sArtems
  • @Filin55

📁 1. Информация о рецензируемых работах

Каждая работа включает:

  • выполнение EDA по датасету Iris;
  • реализацию функций в
    assignment.py
    ;
  • генерацию PNG-графиков;
  • подготовку полного технического отчёта (README).

👤 2. Информация о студенте

ПолеЗначение
ФИОПавленко Степан
ГруппаРИ-150932
Логинdelovar
Номер задания1
Вариант1

🎯 3. Описание задания

Необходимо провести разведочный анализ данных (EDA) для датасета Iris.
Требования:

  1. Загрузить данные (load_data)
  2. Проанализировать целевую переменную (вид цветка)
  3. Посчитать статистику по признакам
  4. Построить графики распределений
  5. Построить графики по видам
  6. Оценить корреляции
  7. Сохранить все визуализации в PNG
  8. Составить подробный отчёт

🧩 4. Выполненные работы

4.1 Загрузка данных

Датасет загружен из

sklearn.datasets.load_iris()
.
Добавлены:

  • таблица признаков,
  • человекочитаемые названия видов вместо чисел,
  • финальный DataFrame из 150 строк.

4.2 Анализ целевой переменной

ВидКоличествоПроцент
setosa5033.3%
versicolor5033.3%
virginica5033.3%

📌 Класс сбалансирован идеально — по 50 объектов каждого вида.
Это важно для корректного моделирования в ML.


4.3 Анализ признаков

Признаки:

  • sepal length (cm)
  • sepal width (cm)
  • petal length (cm)
  • petal width (cm)

📊 Основные статистики

ПризнакСреднееМедианаStdMinMax
Sepal Length~5.84~5.80.834.37.9
Sepal Width~3.05~3.00.432.04.4
Petal Length~3.76~4.351.761.06.9
Petal Width~1.20~1.30.760.12.5

📌 У petal-признаков наблюдается максимальная вариативность — именно они лучше всего разделяют классы.


📉 4.4 Визуализация

Все графики успешно сохранены:

  • 01_iris_target_distribution.png
  • 01_iris_features_distribution.png
  • 01_iris_features_by_species.png
  • 01_iris_correlation_matrix.png

Графики находятся в репозитории рядом с README.


🔬 4.5 Корреляционный анализ

Основные наблюдения:

  • Сильная положительная корреляция между petal length и petal width (~0.96)
  • Sepal width имеет наименьшую связь с остальными признаками
  • Petal признаки лучше всего разделяют виды (это видно и на графиках)

Эти зависимости часто становятся ключевыми при построении моделей классификации.


🧠 5. Ключевые находки

  • Датасет идеально сбалансирован по классам — каждый вид по 33.3%.
  • Наиболее разделяющие признаки — длина и ширина лепестка.
  • Высокие корреляции между petal-признаками указывают на их одинаковую природу.
  • setosa максимально выделяется на гистограммах — её значения сильно смещены.

📝 6. Выводы

Проведён полный EDA:

  • данные успешно загружены и проверены;
  • распределения классов и признаков визуализированы;
  • статистики рассчитаны;
  • взаимодействие признаков изучено через heatmap;
  • PNG-графики сохранены согласно требованиям.

Датасет Iris хорошо подходит для обучения основам анализа данных и визуализации.


📦 7. Файлы в репозитории

✔ Сохранённые файлы:

  • assignment.py
  • README.md
  • 01_iris_target_distribution.png
  • 01_iris_features_distribution.png
  • 01_iris_features_by_species.png
  • 01_iris_correlation_matrix.png

❌ Удалённые лишние файлы:

  • Любые
    .md
    , кроме README.md
  • Черновики

🧾 8. Пример рецензии (образец)

❌ Плохая рецензия: