code-review-101-minimoloko
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
README.md
Анализ датасета Iris
Курсовой проект / Лабораторная работа №1
Exploratory Data Analysis (EDA)
📌 Информация о студенте
| Поле | Значение |
|---|---|
| ФИО | |
| Группа | |
| Номер задания | |
🔗 GitVerse профиль, кого я ревьюил: CozyWool, h4n, qwerty1105
📋 Описание задания
Цель работы — провести разведочный анализ данных (EDA) на классическом датасете Iris, включая:
- загрузку и предварительную обработку данных;
- анализ распределения целевой переменной (виды ирисов);
- статистический анализ признаков (длина/ширина чашелистника и лепестка);
- визуализацию: гистограммы, boxplots, распределения по классам, heatmap корреляций;
- выявление ключевых закономерностей и взаимосвязей.
Датасет содержит 150 объектов трёх видов ирисов (setosa, versicolor, virginica) с 4 числовыми признаками.
✅ Выполненные работы
0. в программе испольуются такие библиотеки, как pandas numpy matplotlib.pyplot seaborn sklearn.datasets
1. Загрузка данных
- Данные загружены через sklearn.datasets.load_iris()
- Преобразованы в pandas.DataFrame
- Целевая переменная заменена с числовых меток на строковые названия видов
2. Анализ целевой переменной
- Распределение классов:
: 50 объектов (33.33%)setosa: 50 объектов (33.33%)versicolor: 50 объектов (33.33%)virginica
- Вывод: сбалансированный датасет без перекоса классов.
3. Анализ признаков
Для каждого из 4 признаков рассчитаны:
- среднее, медиана, стандартное отклонение
- минимум, максимум
- квартили (25%, 50%, 75%)
4. Визуализация
Созданы следующие графики:
| Файл | Описание |
|---|---|
| Столбчатая и круговая диаграммы распределения видов |
| Гистограммы распределений признаков (сетка 2×2) |
| Гистограммы признаков, наложенные по видам |
| Тепловая карта корреляций признаков |
Все графики используют русскоязычные метки и сохранены в PNG с разрешением, достаточным для отчёта.
5. Статистика
Ключевые статистики (округлены до 2 знаков):
| Признак | Среднее | Медиана | Std | Min | Max |
|---|---|---|---|---|---|
| sepal length (cm) | 5.84 | 5.80 | 0.83 | 4.30 | 7.90 |
| sepal width (cm) | 3.06 | 3.00 | 0.44 | 2.00 | 4.40 |
| petal length (cm) | 3.76 | 4.35 | 1.76 | 1.00 | 6.90 |
| petal width (cm) | 1.20 | 1.30 | 0.76 | 0.10 | 2.50 |
📝 Заполните таблицу, скопировав вывод из терминала после запуска скрипта.
6. Таблица с метриками
| Признак | CV (%) | IQR |
|---|---|---|
| sepal length (cm) | 14.2 | 1.30 |
| sepal width (cm) | 14.4 | 0.52 |
| petal length (cm) | 46.8 | 3.50 |
| petal width (cm) | 63.3 | 1.50 |
🔑 Ключевые числа
- Объём датасета: 150 наблюдений × 5 столбцов
- Количество уникальных видов: 3
- Самый коррелирующий признак с целевой переменной (по модулю):
↔petal length (cm)(непрямая оценка — см. визуализациюspecies)features_by_species - Наибольшая парная корреляция между признаками:
↔petal length=petal width[значение из heatmap]
🔍 Ключевые находки
- Вид setosa чётко отделим по всем признакам — особенно по длине и ширине лепестка.
- Признаки petal length и petal width имеют высокую положительную корреляцию (>0.9).
- Sepal width распределён наиболее равномерно и имеет наименьшую дисперсию.
- Для versicolor и virginica наблюдается частичное перекрытие по всем признакам — требуется более сложная модель для разделения.
📝 Выводы из анализа
- Датасет подходит для обучения классификаторов (сбалансированный, без пропусков).
- Признаки лепестка (
) информативнее признаков чашелистника (petal_*).sepal_* - Простой пороговый классификатор (например, по
) уже даёт высокую точность (~96%).petal length > 2.5 - Рекомендуется использовать PCA или линейные методы (LDA, Logistic Regression) как бейзлайн.