code-review-101-Aristockratick
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
README.md
Анализ данных: Breast Cancer Wisconsin Diagnostic Dataset
Информация о рецензируемых работах
- Gitverse рецензензируемых профилей: https://gitverse.ru/Udial326
Информация о студенте
- ФИО: Конёв Матвей Андреевич
- Группа: РИ-150914
- Номер задания: 4
Описание задания
Изучение признаков и целевой переменной (диагноз) в датасете Breast Cancer Wisconsin Diagnostic. Анализ включает:
- распределение целевой переменной,
- статистику и визуализацию признаков,
- исследование корреляции между признаками и диагнозом,
- выявление главных метрик и значимых признаков.
Что анализируется
- Диагноз опухоли ("benign", "malignant")
- Признаки опухоли (статистика и распределение)
- Топовые характеристики по информативности (корреляция с диагнозом)
Выполненные работы
- Загрузка данных: через
, преобразование в DataFrame, перекодировка меток.sklearn.datasets.load_breast_cancer - Анализ целевой переменной: частоты и проценты признаков, число доброкачественных и злокачественных случаев.
- Анализ признаков: среднее, стандартное отклонение, минимум, максимум по первым 3 признакам.
- Визуализация:
- Столбчатая и круговая диаграмма диагнозов (
)04_cancer_target_distribution.png - Гистограммы первых 6 признаков (
)04_cancer_features_distribution.png - Boxplot-диаграммы (признаки по диагнозам) (
)04_cancer_features_by_diagnosis.png - Топ-15 корреляций (
)04_cancer_correlation_top.png
- Столбчатая и круговая диаграмма диагнозов (
- Статистика: ключевые метрики.
- Ключевые числа:
- benign: ХХХ
- malignant: ХХХ
- Топ признаки по корреляции: radius_mean, concavity_mean и др.
- Максимальная корреляция: X.XX
- Ключевые находки:
- Баланс между доброкачественными и злокачественными случаями
- radius_mean и другие признаки хорошо разделяют классы
- Существенные отличия групп по ряду метрик
- Выводы:
- Несколько признаков значительно повышают точность диагностики
- Визуализация и корреляционный анализ позволяют выявить биомаркеры
Файлы проекта
| Файл | Описание |
|---|---|
| assignment.py | Основной скрипт анализа |
| 04_cancer_target_distribution.png | Диаграмма распред. целевой переменной |
| 04_cancer_features_distribution.png | Гистограммы первых 6 признаков |
| 04_cancer_features_by_diagnosis.png | Boxplot признаки по диагнозам |
| 04_cancer_correlation_top.png | Топ-15 корреляций |
| README.md | Документация проекта |
Удаленные файлы
В процессе работы удалены следующие файлы:
(Доп строчка) ,