code-review-101-mas562

0
README.md

Анализ датасета Diabetes

Описание проекта

Проект представляет собой комплексный анализ датасета Diabetes, содержащего информацию о прогрессии заболевания диабетом у пациентов. Включает в себя исследовательский анализ данных, визуализацию и статистическую обработку для регрессионной задачи.

Структура проекта

Функции анализа:

  1. load_data() - загрузка и подготовка данных

    • Загрузка датасета Diabetes из sklearn
    • Конвертация в DataFrame
    • Объединение признаков и целевой переменной
  2. target_analysis(df) - анализ целевой переменной

    • Основные статистические показатели (среднее, медиана, стандартное отклонение)
    • Минимальные и максимальные значения
    • Квартили распределения
  3. feature_statistics(df) - статистика признаков

    • Средние значения для каждого признака
    • Стандартные отклонения
    • Минимальные и максимальные значения
  4. visualize_target(df) - визуализация целевой переменной

    • Гистограмма распределения прогрессии болезни
    • KDE (Kernel Density Estimation) график плотности распределения
  5. visualize_features(df) - визуализация признаков

    • Гистограммы распределения всех признаков
    • Сетка графиков 4x3 для 10 признаков
  6. scatter_features_vs_target(df) - анализ взаимосвязи признаков с целевой переменной

    • Scatter plots каждого признака относительно целевой переменной
    • Визуализация линейных зависимостей
  7. correlation_analysis(df) - анализ корреляций

    • Расчет корреляции каждого признака с целевой переменной
    • Сортировка признаков по силе корреляции
    • Визуализация корреляций в виде горизонтальной диаграммы

Выходные файлы

  • 03_diabetes_target_distribution.png
    - распределение целевой переменной
  • 03_diabetes_features_distribution.png
    - распределение признаков
  • 03_diabetes_features_vs_target.png
    - scatter plots признаков vs целевая переменная
  • 03_diabetes_correlation_bars.png
    - диаграмма корреляций признаков с целевой переменной

Особенности датасета

  • Тип задачи: Регрессия
  • Целевая переменная: Quantitative measure of disease progression one year after baseline
  • Количество признаков: 10
  • Количество наблюдений: 442
  • Признаки: возраст, пол, индекс массы тела, артериальное давление и другие медицинские показатели

Требования

  • Python 3.6+
  • pandas
  • numpy
  • matplotlib
  • seaborn
  • scikit-learn

Удалённые объекты

  • CONTRIBUTING.md
  • FILE_UPDATE_REPORT.md
  • ASSIGNMENTS_README.md
  • CODE_REQUIREMENTS.md
  • MATPLOTLIB_CHEATSHEET.md
  • PANDAS_CHEATSHEET.md

Интервьюеры:

  • flokar
  • Axwell