code-review-101-mas562
5 месяцев назад
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
README.md
Анализ датасета Diabetes
Описание проекта
Проект представляет собой комплексный анализ датасета Diabetes, содержащего информацию о прогрессии заболевания диабетом у пациентов. Включает в себя исследовательский анализ данных, визуализацию и статистическую обработку для регрессионной задачи.
Структура проекта
Функции анализа:
-
load_data() - загрузка и подготовка данных
- Загрузка датасета Diabetes из sklearn
- Конвертация в DataFrame
- Объединение признаков и целевой переменной
-
target_analysis(df) - анализ целевой переменной
- Основные статистические показатели (среднее, медиана, стандартное отклонение)
- Минимальные и максимальные значения
- Квартили распределения
-
feature_statistics(df) - статистика признаков
- Средние значения для каждого признака
- Стандартные отклонения
- Минимальные и максимальные значения
-
visualize_target(df) - визуализация целевой переменной
- Гистограмма распределения прогрессии болезни
- KDE (Kernel Density Estimation) график плотности распределения
-
visualize_features(df) - визуализация признаков
- Гистограммы распределения всех признаков
- Сетка графиков 4x3 для 10 признаков
-
scatter_features_vs_target(df) - анализ взаимосвязи признаков с целевой переменной
- Scatter plots каждого признака относительно целевой переменной
- Визуализация линейных зависимостей
-
correlation_analysis(df) - анализ корреляций
- Расчет корреляции каждого признака с целевой переменной
- Сортировка признаков по силе корреляции
- Визуализация корреляций в виде горизонтальной диаграммы
Выходные файлы
- распределение целевой переменной03_diabetes_target_distribution.png- распределение признаков03_diabetes_features_distribution.png- scatter plots признаков vs целевая переменная03_diabetes_features_vs_target.png- диаграмма корреляций признаков с целевой переменной03_diabetes_correlation_bars.png
Особенности датасета
- Тип задачи: Регрессия
- Целевая переменная: Quantitative measure of disease progression one year after baseline
- Количество признаков: 10
- Количество наблюдений: 442
- Признаки: возраст, пол, индекс массы тела, артериальное давление и другие медицинские показатели
Требования
- Python 3.6+
- pandas
- numpy
- matplotlib
- seaborn
- scikit-learn
Удалённые объекты
- CONTRIBUTING.md
- FILE_UPDATE_REPORT.md
- ASSIGNMENTS_README.md
- CODE_REQUIREMENTS.md
- MATPLOTLIB_CHEATSHEET.md
- PANDAS_CHEATSHEET.md
Интервьюеры:
- flokar
- Axwell