code-review-101-ArturAnv

0
README.md

Задание 1: Exploratory Data Analysis — Iris Dataset

Информация о студенте

ФИО

Анваров Артур Амирович

Номер группы

РИ-150942/1

📋 Описание проекта

Данный проект представляет собой исследовательский анализ данных (EDA) классического датасета Iris. Выполнен анализ целевой переменной, статистика признаков, визуализация распределений и корреляционный анализ.


🤖 Как решалось задание

Инструменты

  • AI-ассистент: Claude Opus 4 (Anthropic)
  • Метод: Был отправлен шаблон кода с TODO-комментариями и задачами, Claude сгенерировал полное решение

Процесс

  1. Получен шаблон с пустыми функциями и комментариями-заданиями
  2. Отправлен запрос в Claude Opus 4 с просьбой реализовать все функции
  3. Claude проанализировал требования и написал код для каждой функции
  4. Код был проверен и протестирован

📊 Описание датасета Iris

Iris Dataset — классический датасет машинного обучения, созданный Рональдом Фишером в 1936 году.

Характеристики датасета

ПараметрЗначение
Количество образцов150
Количество признаков4
Количество классов3
Пропущенные значенияНет

Признаки (Features)

ПризнакОписаниеЕдиницы
sepal lengthДлина чашелистикасм
sepal widthШирина чашелистикасм
petal lengthДлина лепесткасм
petal widthШирина лепесткасм

Целевая переменная (Target)

КлассНазваниеКоличество
0Iris setosa50 (33.3%)
1Iris versicolor50 (33.3%)
2Iris virginica50 (33.3%)

📈 Статистика признаков

Sepal Length (Длина чашелистика)

МетрикаЗначение
Среднее5.843 см
Медиана5.800 см
Стд. отклонение0.828 см
Минимум4.300 см
Максимум7.900 см
25% квартиль5.100 см
75% квартиль6.400 см

Sepal Width (Ширина чашелистика)

МетрикаЗначение
Среднее3.057 см
Медиана3.000 см
Стд. отклонение0.436 см
Минимум2.000 см
Максимум4.400 см
25% квартиль2.800 см
75% квартиль3.300 см

Petal Length (Длина лепестка)

МетрикаЗначение
Среднее3.758 см
Медиана4.350 см
Стд. отклонение1.765 см
Минимум1.000 см
Максимум6.900 см
25% квартиль1.600 см
75% квартиль5.100 см

Petal Width (Ширина лепестка)

МетрикаЗначение
Среднее1.199 см
Медиана1.300 см
Стд. отклонение0.762 см
Минимум0.100 см
Максимум2.500 см
25% квартиль0.300 см
75% квартиль1.800 см

🔗 Матрица корреляций

sepal lengthsepal widthpetal lengthpetal width
sepal length1.000-0.1180.8720.818
sepal width-0.1181.000-0.428-0.366
petal length0.872-0.4281.0000.963
petal width0.818-0.3660.9631.000

Ключевые наблюдения:

  • Сильная положительная корреляция (0.963) между длиной и шириной лепестка
  • Сильная положительная корреляция (0.872) между длиной чашелистика и длиной лепестка
  • Слабая отрицательная корреляция (-0.118) между длиной и шириной чашелистика
  • Признаки лепестков сильно коррелируют между собой и с длиной чашелистика

Описание функций

ФункцияНазначениеВыходные данные
load_data()
Загрузка датасета Iris, создание DataFrameDataFrame с 5 колонками
target_analysis(df)
Подсчёт распределения видовКонсольный вывод
feature_statistics(df)
Вычисление статистических метрикКонсольный вывод
visualize_target(df)
Столбчатая и круговая диаграммыPNG файл
visualize_features(df)
Гистограммы 4 признаковPNG файл
features_by_target(df)
Гистограммы с разбивкой по видамPNG файл
correlation_analysis(df)
Матрица корреляций + heatmapКонсоль + PNG

📁 Выходные файлы

После выполнения скрипта создаются следующие файлы: project/ ├── iris_analysis.py # Основной скрипт ├── README.md # Этот файл ├── 01_iris_target_distribution.png # Распределение видов ├── 01_iris_features_distribution.png # Гистограммы признаков ├── 01_iris_features_by_species.png # Признаки по видам └── 01_iris_correlation_matrix.png # Тепловая карта корреляций