code-review-101-CozyWool

0
README.md

📘 Задание 7 — German Credit Dataset (EDA)

Студент: Мамун Мохамед Салек
Группа: РИ-150942-3
Номер задания: 7


1. 📂 Датасет

Источник:

AiresPucrs/german-credit-data

Размер: 1000 строк × 21 признак
Целевая переменная:
Risk
(
good
/
bad
)
Пропуски: отсутствуют

Типы признаков

  • Числовые: Age, Duration, Credit amount, Installment rate, Residence, Number of credits, People liable
  • Категориальные: статус счёта, кредитная история, цель кредита, сбережения, занятость, пол, поручители, имущество, жильё, работа, телефон, иностранный рабочий

2. 🎯 Цель работы

Провести полный исследовательский анализ данных (EDA) датасета German Credit в соответствии со спецификацией Version 1.0.

Реализованные функции:

  • load_data()
    — загрузка и подготовка датасета
  • target_analysis()
    — анализ целевой переменной
  • feature_statistics()
    — числовая статистика признаков
  • visualize_target()
    — визуализация распределения целевой переменной
  • visualize_features()
    — визуализации всех признаков

Скрипт выводит статистику в консоль и сохраняет визуализации в PNG.


3. 🧪 Краткие результаты EDA

3.1 Распределение целевой переменной

  • good: ~70%
  • bad: ~30%

➡ Умеренный дисбаланс, который необходимо учитывать при дальнейшей модели.


3.2 Числовые признаки

ПризнакСреднееМедианаСтандартное отклонение
Age≈3533≈11
Credit amount≈32702319≈2822
Duration211812
Installment rate331
Residence2.81

Основные выводы:

  • Credit amount
    имеет правостороннее распределение → возможна лог-трансформация.
  • Распределение
    Age
    ближе к нормальному.
  • Вариативность числовых признаков высокая → нормализация может быть полезна.

3.3 Категориальные признаки

Основные наблюдения:

  • У большинства клиентов отсутствуют сбережения.
  • Топ целей кредита: радио/телевизор, мебель, автомобиль.
  • Основная часть заёмщиков — мужчины.

4. 📊 Сгенерированные файлы

ФайлОписание
07_german_credit_target_distribution.pngРаспределение целевой переменной
07_german_credit_features.pngГистограммы числовых и barplot топ-5 категориальных признаков

Файлы автоматически создаются при запуске скрипта.


5. 📁 Скрипт

Файл:

assignment7_german_credit.py

Реализует полный EDA-процесс в соответствии с требованиями задания.