code-review-101-delovarim
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
5 месяцев назад
4 месяца назад
4 месяца назад
4 месяца назад
README.md
📊 Задание №1 — Exploratory Data Analysis (Iris Dataset)
Студент: Павленко Степан, группа РИ-150932
GitVerse логин: delovar
Вариант: 1
Рецензенты:
- @sArtems
- @Filin55
📁 1. Информация о рецензируемых работах
Каждая работа включает:
- выполнение EDA по датасету Iris;
- реализацию функций в
;assignment.py - генерацию PNG-графиков;
- подготовку полного технического отчёта (README).
👤 2. Информация о студенте
| Поле | Значение |
|---|---|
| ФИО | Павленко Степан |
| Группа | РИ-150932 |
| Логин | delovar |
| Номер задания | 1 |
| Вариант | 1 |
🎯 3. Описание задания
Необходимо провести разведочный анализ данных (EDA) для датасета Iris.
Требования:
- Загрузить данные (load_data)
- Проанализировать целевую переменную (вид цветка)
- Посчитать статистику по признакам
- Построить графики распределений
- Построить графики по видам
- Оценить корреляции
- Сохранить все визуализации в PNG
- Составить подробный отчёт
🧩 4. Выполненные работы
4.1 Загрузка данных
Датасет загружен из .sklearn.datasets.load_iris()
Добавлены:
- таблица признаков,
- человекочитаемые названия видов вместо чисел,
- финальный DataFrame из 150 строк.
4.2 Анализ целевой переменной
| Вид | Количество | Процент |
|---|---|---|
| setosa | 50 | 33.3% |
| versicolor | 50 | 33.3% |
| virginica | 50 | 33.3% |
📌 Класс сбалансирован идеально — по 50 объектов каждого вида.
Это важно для корректного моделирования в ML.
4.3 Анализ признаков
Признаки:
- sepal length (cm)
- sepal width (cm)
- petal length (cm)
- petal width (cm)
📊 Основные статистики
| Признак | Среднее | Медиана | Std | Min | Max |
|---|---|---|---|---|---|
| Sepal Length | ~5.84 | ~5.8 | 0.83 | 4.3 | 7.9 |
| Sepal Width | ~3.05 | ~3.0 | 0.43 | 2.0 | 4.4 |
| Petal Length | ~3.76 | ~4.35 | 1.76 | 1.0 | 6.9 |
| Petal Width | ~1.20 | ~1.3 | 0.76 | 0.1 | 2.5 |
📌 У petal-признаков наблюдается максимальная вариативность — именно они лучше всего разделяют классы.
📉 4.4 Визуализация
Все графики успешно сохранены:
- ✔ 01_iris_target_distribution.png
- ✔ 01_iris_features_distribution.png
- ✔ 01_iris_features_by_species.png
- ✔ 01_iris_correlation_matrix.png
Графики находятся в репозитории рядом с README.
🔬 4.5 Корреляционный анализ
Основные наблюдения:
- Сильная положительная корреляция между petal length и petal width (~0.96)
- Sepal width имеет наименьшую связь с остальными признаками
- Petal признаки лучше всего разделяют виды (это видно и на графиках)
Эти зависимости часто становятся ключевыми при построении моделей классификации.
🧠 5. Ключевые находки
- Датасет идеально сбалансирован по классам — каждый вид по 33.3%.
- Наиболее разделяющие признаки — длина и ширина лепестка.
- Высокие корреляции между petal-признаками указывают на их одинаковую природу.
- setosa максимально выделяется на гистограммах — её значения сильно смещены.
📝 6. Выводы
Проведён полный EDA:
- данные успешно загружены и проверены;
- распределения классов и признаков визуализированы;
- статистики рассчитаны;
- взаимодействие признаков изучено через heatmap;
- PNG-графики сохранены согласно требованиям.
Датасет Iris хорошо подходит для обучения основам анализа данных и визуализации.
📦 7. Файлы в репозитории
✔ Сохранённые файлы:
- assignment.py
- README.md
- 01_iris_target_distribution.png
- 01_iris_features_distribution.png
- 01_iris_features_by_species.png
- 01_iris_correlation_matrix.png
❌ Удалённые лишние файлы:
- Любые
, кроме README.md.md - Черновики