code-review-101-Aristockratick

0
README.md

Анализ данных: Breast Cancer Wisconsin Diagnostic Dataset

Информация о рецензируемых работах

Информация о студенте

  • ФИО: Конёв Матвей Андреевич
  • Группа: РИ-150914
  • Номер задания: 4

Описание задания

Изучение признаков и целевой переменной (диагноз) в датасете Breast Cancer Wisconsin Diagnostic. Анализ включает:

  • распределение целевой переменной,
  • статистику и визуализацию признаков,
  • исследование корреляции между признаками и диагнозом,
  • выявление главных метрик и значимых признаков.

Что анализируется

  • Диагноз опухоли ("benign", "malignant")
  • Признаки опухоли (статистика и распределение)
  • Топовые характеристики по информативности (корреляция с диагнозом)

Выполненные работы

  • Загрузка данных: через
    sklearn.datasets.load_breast_cancer
    , преобразование в DataFrame, перекодировка меток.
  • Анализ целевой переменной: частоты и проценты признаков, число доброкачественных и злокачественных случаев.
  • Анализ признаков: среднее, стандартное отклонение, минимум, максимум по первым 3 признакам.
  • Визуализация:
    • Столбчатая и круговая диаграмма диагнозов (
      04_cancer_target_distribution.png
      )
    • Гистограммы первых 6 признаков (
      04_cancer_features_distribution.png
      )
    • Boxplot-диаграммы (признаки по диагнозам) (
      04_cancer_features_by_diagnosis.png
      )
    • Топ-15 корреляций (
      04_cancer_correlation_top.png
      )
  • Статистика: ключевые метрики.
  • Ключевые числа:
    • benign: ХХХ
    • malignant: ХХХ
    • Топ признаки по корреляции: radius_mean, concavity_mean и др.
    • Максимальная корреляция: X.XX
  • Ключевые находки:
    • Баланс между доброкачественными и злокачественными случаями
    • radius_mean и другие признаки хорошо разделяют классы
    • Существенные отличия групп по ряду метрик
  • Выводы:
    • Несколько признаков значительно повышают точность диагностики
    • Визуализация и корреляционный анализ позволяют выявить биомаркеры

Файлы проекта

ФайлОписание
assignment.pyОсновной скрипт анализа
04_cancer_target_distribution.pngДиаграмма распред. целевой переменной
04_cancer_features_distribution.pngГистограммы первых 6 признаков
04_cancer_features_by_diagnosis.pngBoxplot признаки по диагнозам
04_cancer_correlation_top.pngТоп-15 корреляций
README.mdДокументация проекта

Удаленные файлы

В процессе работы удалены следующие файлы:


(Доп строчка) ,