code-review-101-TrollFace324
📄 README.md — Отчёт по заданию EDA Breast Cancer
0. 📁 Информация о рецензируемых работах
GitVerse профили:
1. 👤 Информация о студенте
- ФИО: Тимофеев Матвей Львович
- Группа: РИ-150921
- Номер задания: №4 — Анализ датасета Breast Cancer
2. 📘 Описание задания
Требовалось выполнить исследовательский анализ данных (EDA) на основе датасета Breast Cancer Wisconsin из библиотеки .
Необходимо было:
- загрузить и обработать данные;
- вычислить статистики признаков;
- исследовать целевую переменную (тип опухоли);
- создать визуализации распределений признаков;
- построить boxplots по диагнозам;
- выполнить корреляционный анализ;
- оформить проект по PEP8;
- подготовить итоговый отчёт.
3. 🧪 Выполненные работы
✔ 3.1 Загрузка данных
- Датасет загружен через функцию
.load_breast_cancer - Создан DataFrame (569 строк × 30 признаков).
- Целевая переменная перекодирована в текстовый формат.
✔ 3.2 Анализ целевой переменной
- Вычислено количество опухолей каждого типа.
- Определены процентные распределения.
- Найдены ключевые соотношения между benign и malignant.
✔ 3.3 Анализ признаков
- Посчитаны статистики для первых трёх признаков:
- mean
- std
- min
- max
- Исследованы особенности распределений.
✔ 3.4 Визуализация
Построены графики (описание без изображений):
- Распределение диагнозов
- Гистограммы первых 6 признаков
- Boxplots этих же признаков
- Горизонтальный bar chart топ-15 корреляций
4. 📊 Статистика
✔ 4.1 Распределение целевой переменной
| Класс | Кол-во | % |
|---|---|---|
| benign | 357 | 62.74% |
| malignant | 212 | 37.26% |
✔ 4.2 Статистика первых трёх признаков
| Метрика | mean radius | mean texture | mean perimeter |
|---|---|---|---|
| Mean | 14.127 | 19.289 | 91.969 |
| Std | 3.524 | 4.301 | 24.300 |
| Min | 6.981 | 9.710 | 43.790 |
| Max | 28.110 | 39.280 | 188.500 |
✔ 4.3 Топ-10 коррелирующих признаков
| Признак | |corr| | |---------|---------| | worst perimeter | 0.79 | | worst radius | 0.78 | | worst concave points | 0.77 | | worst area | 0.75 | | mean perimeter | 0.73 | | mean radius | 0.73 | | mean area | 0.71 | | worst concavity | 0.70 | | mean concavity | 0.69 | | mean concave points | 0.66 |
5. 🔍 Ключевые находки
🟦 1. Размеры опухолей — главный фактор
radius, area, perimeter демонстрируют сильную корреляцию с диагнозом.
Злокачественные опухоли почти всегда крупнее доброкачественных.
🟦 2. Признаки формы также важны
concavity и concave points показывают высокую информативность.
🟦 3. Датасет даёт хорошее разделение классов
Визуально видно две выраженные группы.
🟦 4. Данные почти не содержат пропусков
Это упрощает анализ.
🟦 5. Потенциальная точность моделей высокая
На таких данных модели обычно дают 95–99% accuracy.
6. 📂 Файлы
✔ Созданные:
- plots/04_cancer_target_distribution.png
- plots/04_cancer_features_distribution.png
- plots/04_cancer_features_by_diagnosis.png
- plots/04_cancer_correlation_top.png
- README.md
✔ Удалённые:
- 04_cancer_target_distribution.png
- 04_cancer_features_distribution.png
- 04_cancer_features_by_diagnosis.png
- 04_cancer_correlation_top.png