code-review-101-TrollFace324

0
5 месяцев назад
5 месяцев назад
5 месяцев назад
README.md

📄 README.md — Отчёт по заданию EDA Breast Cancer

0. 📁 Информация о рецензируемых работах

GitVerse профили:

1. 👤 Информация о студенте

  • ФИО: Тимофеев Матвей Львович
  • Группа: РИ-150921
  • Номер задания: №4 — Анализ датасета Breast Cancer

2. 📘 Описание задания

Требовалось выполнить исследовательский анализ данных (EDA) на основе датасета Breast Cancer Wisconsin из библиотеки

sklearn
.

Необходимо было:

  • загрузить и обработать данные;
  • вычислить статистики признаков;
  • исследовать целевую переменную (тип опухоли);
  • создать визуализации распределений признаков;
  • построить boxplots по диагнозам;
  • выполнить корреляционный анализ;
  • оформить проект по PEP8;
  • подготовить итоговый отчёт.

3. 🧪 Выполненные работы

✔ 3.1 Загрузка данных

  • Датасет загружен через функцию
    load_breast_cancer
    .
  • Создан DataFrame (569 строк × 30 признаков).
  • Целевая переменная перекодирована в текстовый формат.

✔ 3.2 Анализ целевой переменной

  • Вычислено количество опухолей каждого типа.
  • Определены процентные распределения.
  • Найдены ключевые соотношения между benign и malignant.

✔ 3.3 Анализ признаков

  • Посчитаны статистики для первых трёх признаков:
    • mean
    • std
    • min
    • max
  • Исследованы особенности распределений.

✔ 3.4 Визуализация

Построены графики (описание без изображений):

  • Распределение диагнозов
  • Гистограммы первых 6 признаков
  • Boxplots этих же признаков
  • Горизонтальный bar chart топ-15 корреляций

4. 📊 Статистика

✔ 4.1 Распределение целевой переменной

КлассКол-во%
benign35762.74%
malignant21237.26%

✔ 4.2 Статистика первых трёх признаков

Метрикаmean radiusmean texturemean perimeter
Mean14.12719.28991.969
Std3.5244.30124.300
Min6.9819.71043.790
Max28.11039.280188.500

✔ 4.3 Топ-10 коррелирующих признаков

| Признак | |corr| | |---------|---------| | worst perimeter | 0.79 | | worst radius | 0.78 | | worst concave points | 0.77 | | worst area | 0.75 | | mean perimeter | 0.73 | | mean radius | 0.73 | | mean area | 0.71 | | worst concavity | 0.70 | | mean concavity | 0.69 | | mean concave points | 0.66 |

5. 🔍 Ключевые находки

🟦 1. Размеры опухолей — главный фактор

radius, area, perimeter демонстрируют сильную корреляцию с диагнозом.
Злокачественные опухоли почти всегда крупнее доброкачественных.

🟦 2. Признаки формы также важны

concavity и concave points показывают высокую информативность.

🟦 3. Датасет даёт хорошее разделение классов

Визуально видно две выраженные группы.

🟦 4. Данные почти не содержат пропусков

Это упрощает анализ.

🟦 5. Потенциальная точность моделей высокая

На таких данных модели обычно дают 95–99% accuracy.

6. 📂 Файлы

✔ Созданные:

  • plots/04_cancer_target_distribution.png
  • plots/04_cancer_features_distribution.png
  • plots/04_cancer_features_by_diagnosis.png
  • plots/04_cancer_correlation_top.png
  • README.md

✔ Удалённые:

  • 04_cancer_target_distribution.png
  • 04_cancer_features_distribution.png
  • 04_cancer_features_by_diagnosis.png
  • 04_cancer_correlation_top.png