code-review-101-nmnlv
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
README.md
Анализ данных California Housing Dataset
Информация о рецензируемых работах
- Проект выполнен в рамках задания по анализу данных California Housing Dataset с использованием Python, pandas, seaborn и scikit-learn. Цель — провести разведочный анализ данных, визуализировать распределения и выявить ключевые связи.
Gitverse профили
Информация о студенте
- ФИО: Красноперов Кирилл
- Группа: РИ-150914
- Номер задания: 5
Описание задания
Задача — провести разведочный анализ набора данных о стоимости жилья в Калифорнии, включая анализ целевой переменной, признаков, их статистики, корреляций и визуализаций.
Что нужно анализировать
- Целевая переменная: MedHouseVal (стоимость жилья)
- Признаки: все остальные переменные
- Взаимосвязи между признаками и целевой переменной
- Распределения признаков и целевой переменной
Выполненные работы
- Загрузка данных
- Импорт данных из sklearn.datasets и преобразование в DataFrame
- Анализ целевой переменной
- Статистика по MedHouseVal (среднее, медиана, стандартное отклонение, минимумы, максимумы, перцентили)
- Анализ признаков
- Статистика по признакам (среднее, стандартное отклонение, минимум, максимум)
- Визуализация
- Распределение целевой переменной (гистограмма и KDE)
- Распределения признаков (гистограммы)
- Взаимосвязь признаков с целевой переменной (scatter plots)
- Корреляционный анализ (таблица и barh график)
Таблица с метриками
- В таблице представлены ключевые статистические показатели и корреляции
- Ключевые числа
- Среднее значение целевой переменной
- Максимальное и минимальное значение
- Наиболее скоррелированные признаки
Ключевые находки
- Распределение стоимости жилья с сильной асимметрией
- Некоторые признаки имеют сильную корреляцию с ценой
- Визуальные