code-review-101-Denismmm
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
README.md
Анализ датасета Iris
Информация о студенте
- ФИО: Мизин Денис
- Группа: РИ-150914
- Номер задания: 1
- GitVerse профиль: Denismmm
Описание задания
Цель: Провести полный exploratory data analysis (EDA) датасета Iris
Что нужно анализировать:
- Распределение целевой переменной (виды ирисов)
- Статистические характеристики признаков
- Визуализация распределений
- Корреляционный анализ
- Сравнение признаков по видам цветков
Выполненные работы
1. Загрузка данных
- Загружен датасет Iris из sklearn.datasets
- Создан DataFrame с признаками и целевой переменной
- Числовые метки заменены на текстовые названия видов:
- 0 → setosa
- 1 → versicolor
- 2 → virginica
2. Анализ целевой переменной
- Распределение по трем видам ирисов
- Процентное соотношение классов
3. Анализ признаков
Исследованы 4 числовых признака:
- sepal length (cm) - длина чашелистика
- sepal width (cm) - ширина чашелистика
- petal length (cm) - длина лепестка
- petal width (cm) - ширина лепестка
4. Визуализация
Созданы следующие графики:
- Распределение видов ирисов (столбчатая и круговая диаграммы)
- Гистограммы распределения признаков
- Наложенные гистограммы признаков по видам
- Heatmap матрицы корреляции
5. Статистика
Таблица с метриками
| Признак | Среднее | Медиана | Std | Min | Max |
|---|---|---|---|---|---|
| sepal length | 5.84 | 5.80 | 0.83 | 4.30 | 7.90 |
| sepal width | 3.06 | 3.00 | 0.44 | 2.00 | 4.40 |
| petal length | 3.76 | 4.35 | 1.77 | 1.00 | 6.90 |
| petal width | 1.20 | 1.30 | 0.76 | 0.10 | 2.50 |
Ключевые числа
- Общее количество образцов: 150
- Количество признаков: 4
- Количество классов: 3
- Размерность данных: 150 × 5 (с учетом целевой переменной)
Распределение по видам:
- setosa: 50 образцов (33.3%)
- versicolor: 50 образцов (33.3%)
- virginica: 50 образцов (33.3%)
6. Ключевые находки
Корреляционный анализ:
- Сильная положительная корреляция между длиной и шириной лепестка: 0.963
- Высокая корреляция длины лепестка с длиной чашелистика: 0.872
- Слабая корреляция ширины чашелистика с другими признаками
Распределения по видам:
- Setosa: имеет значительно меньшие лепестки
- Versicolor: средние значения признаков
- Virginica: наибольшие значения по всем признакам
Файлы
Созданные файлы:
- распределение целевой переменной01_iris_target_distribution.png- распределение признаков01_iris_features_distribution.png- признаки по видам01_iris_features_by_species.png- матрица корреляции01_iris_correlation_matrix.png- основной скрипт анализаiris_analysis.py
Удалённые файлы:
- Нет
Дата выполнения: [18.11.2025]
Версия Python: 3.8+
Используемые библиотеки: pandas, numpy, matplotlib, seaborn, scikit-learn