code-review-101-nmnlv

0
README.md

Анализ данных California Housing Dataset

Информация о рецензируемых работах

  • Проект выполнен в рамках задания по анализу данных California Housing Dataset с использованием Python, pandas, seaborn и scikit-learn. Цель — провести разведочный анализ данных, визуализировать распределения и выявить ключевые связи.

Gitverse профили

Информация о студенте

  • ФИО: Красноперов Кирилл
  • Группа: РИ-150914
  • Номер задания: 5

Описание задания

Задача — провести разведочный анализ набора данных о стоимости жилья в Калифорнии, включая анализ целевой переменной, признаков, их статистики, корреляций и визуализаций.

Что нужно анализировать

  • Целевая переменная: MedHouseVal (стоимость жилья)
  • Признаки: все остальные переменные
  • Взаимосвязи между признаками и целевой переменной
  • Распределения признаков и целевой переменной

Выполненные работы

  • Загрузка данных
  • Импорт данных из sklearn.datasets и преобразование в DataFrame
  • Анализ целевой переменной
  • Статистика по MedHouseVal (среднее, медиана, стандартное отклонение, минимумы, максимумы, перцентили)
  • Анализ признаков
  • Статистика по признакам (среднее, стандартное отклонение, минимум, максимум)
  • Визуализация
  • Распределение целевой переменной (гистограмма и KDE)
  • Распределения признаков (гистограммы)
  • Взаимосвязь признаков с целевой переменной (scatter plots)
  • Корреляционный анализ (таблица и barh график)

Таблица с метриками

  • В таблице представлены ключевые статистические показатели и корреляции
  • Ключевые числа
  • Среднее значение целевой переменной
  • Максимальное и минимальное значение
  • Наиболее скоррелированные признаки

Ключевые находки

  • Распределение стоимости жилья с сильной асимметрией
  • Некоторые признаки имеют сильную корреляцию с ценой
  • Визуальные