code-review-101-ArturAnv
5 месяцев назад
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
README.md
Задание 1: Exploratory Data Analysis — Iris Dataset
Информация о студенте
ФИО
Анваров Артур Амирович
Номер группы
РИ-150942/1
📋 Описание проекта
Данный проект представляет собой исследовательский анализ данных (EDA) классического датасета Iris. Выполнен анализ целевой переменной, статистика признаков, визуализация распределений и корреляционный анализ.
🤖 Как решалось задание
Инструменты
- AI-ассистент: Claude Opus 4 (Anthropic)
- Метод: Был отправлен шаблон кода с TODO-комментариями и задачами, Claude сгенерировал полное решение
Процесс
- Получен шаблон с пустыми функциями и комментариями-заданиями
- Отправлен запрос в Claude Opus 4 с просьбой реализовать все функции
- Claude проанализировал требования и написал код для каждой функции
- Код был проверен и протестирован
📊 Описание датасета Iris
Iris Dataset — классический датасет машинного обучения, созданный Рональдом Фишером в 1936 году.
Характеристики датасета
| Параметр | Значение |
|---|---|
| Количество образцов | 150 |
| Количество признаков | 4 |
| Количество классов | 3 |
| Пропущенные значения | Нет |
Признаки (Features)
| Признак | Описание | Единицы |
|---|---|---|
| sepal length | Длина чашелистика | см |
| sepal width | Ширина чашелистика | см |
| petal length | Длина лепестка | см |
| petal width | Ширина лепестка | см |
Целевая переменная (Target)
| Класс | Название | Количество |
|---|---|---|
| 0 | Iris setosa | 50 (33.3%) |
| 1 | Iris versicolor | 50 (33.3%) |
| 2 | Iris virginica | 50 (33.3%) |
📈 Статистика признаков
Sepal Length (Длина чашелистика)
| Метрика | Значение |
|---|---|
| Среднее | 5.843 см |
| Медиана | 5.800 см |
| Стд. отклонение | 0.828 см |
| Минимум | 4.300 см |
| Максимум | 7.900 см |
| 25% квартиль | 5.100 см |
| 75% квартиль | 6.400 см |
Sepal Width (Ширина чашелистика)
| Метрика | Значение |
|---|---|
| Среднее | 3.057 см |
| Медиана | 3.000 см |
| Стд. отклонение | 0.436 см |
| Минимум | 2.000 см |
| Максимум | 4.400 см |
| 25% квартиль | 2.800 см |
| 75% квартиль | 3.300 см |
Petal Length (Длина лепестка)
| Метрика | Значение |
|---|---|
| Среднее | 3.758 см |
| Медиана | 4.350 см |
| Стд. отклонение | 1.765 см |
| Минимум | 1.000 см |
| Максимум | 6.900 см |
| 25% квартиль | 1.600 см |
| 75% квартиль | 5.100 см |
Petal Width (Ширина лепестка)
| Метрика | Значение |
|---|---|
| Среднее | 1.199 см |
| Медиана | 1.300 см |
| Стд. отклонение | 0.762 см |
| Минимум | 0.100 см |
| Максимум | 2.500 см |
| 25% квартиль | 0.300 см |
| 75% квартиль | 1.800 см |
🔗 Матрица корреляций
| sepal length | sepal width | petal length | petal width | |
|---|---|---|---|---|
| sepal length | 1.000 | -0.118 | 0.872 | 0.818 |
| sepal width | -0.118 | 1.000 | -0.428 | -0.366 |
| petal length | 0.872 | -0.428 | 1.000 | 0.963 |
| petal width | 0.818 | -0.366 | 0.963 | 1.000 |
Ключевые наблюдения:
- Сильная положительная корреляция (0.963) между длиной и шириной лепестка
- Сильная положительная корреляция (0.872) между длиной чашелистика и длиной лепестка
- Слабая отрицательная корреляция (-0.118) между длиной и шириной чашелистика
- Признаки лепестков сильно коррелируют между собой и с длиной чашелистика
Описание функций
| Функция | Назначение | Выходные данные |
|---|---|---|
| Загрузка датасета Iris, создание DataFrame | DataFrame с 5 колонками |
| Подсчёт распределения видов | Консольный вывод |
| Вычисление статистических метрик | Консольный вывод |
| Столбчатая и круговая диаграммы | PNG файл |
| Гистограммы 4 признаков | PNG файл |
| Гистограммы с разбивкой по видам | PNG файл |
| Матрица корреляций + heatmap | Консоль + PNG |
📁 Выходные файлы
После выполнения скрипта создаются следующие файлы: project/ ├── iris_analysis.py # Основной скрипт ├── README.md # Этот файл ├── 01_iris_target_distribution.png # Распределение видов ├── 01_iris_features_distribution.png # Гистограммы признаков ├── 01_iris_features_by_species.png # Признаки по видам └── 01_iris_correlation_matrix.png # Тепловая карта корреляций