code-review-101-CozyWool
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
README.md
📘 Задание 7 — German Credit Dataset (EDA)
Студент: Мамун Мохамед Салек
Группа: РИ-150942-3
Номер задания: 7
1. 📂 Датасет
Источник: AiresPucrs/german-credit-data
Размер: 1000 строк × 21 признак
Целевая переменная: (Risk / good)bad
Пропуски: отсутствуют
Типы признаков
- Числовые: Age, Duration, Credit amount, Installment rate, Residence, Number of credits, People liable
- Категориальные: статус счёта, кредитная история, цель кредита, сбережения, занятость, пол, поручители, имущество, жильё, работа, телефон, иностранный рабочий
2. 🎯 Цель работы
Провести полный исследовательский анализ данных (EDA) датасета German Credit в соответствии со спецификацией Version 1.0.
Реализованные функции:
— загрузка и подготовка датасетаload_data()— анализ целевой переменнойtarget_analysis()— числовая статистика признаковfeature_statistics()— визуализация распределения целевой переменнойvisualize_target()— визуализации всех признаковvisualize_features()
Скрипт выводит статистику в консоль и сохраняет визуализации в PNG.
3. 🧪 Краткие результаты EDA
3.1 Распределение целевой переменной
- good: ~70%
- bad: ~30%
➡ Умеренный дисбаланс, который необходимо учитывать при дальнейшей модели.
3.2 Числовые признаки
| Признак | Среднее | Медиана | Стандартное отклонение |
|---|---|---|---|
| Age | ≈35 | 33 | ≈11 |
| Credit amount | ≈3270 | 2319 | ≈2822 |
| Duration | 21 | 18 | 12 |
| Installment rate | 3 | 3 | 1 |
| Residence | 2.8 | — | 1 |
Основные выводы:
имеет правостороннее распределение → возможна лог-трансформация.Credit amount- Распределение
ближе к нормальному.Age - Вариативность числовых признаков высокая → нормализация может быть полезна.
3.3 Категориальные признаки
Основные наблюдения:
- У большинства клиентов отсутствуют сбережения.
- Топ целей кредита: радио/телевизор, мебель, автомобиль.
- Основная часть заёмщиков — мужчины.
4. 📊 Сгенерированные файлы
| Файл | Описание |
|---|---|
| 07_german_credit_target_distribution.png | Распределение целевой переменной |
| 07_german_credit_features.png | Гистограммы числовых и barplot топ-5 категориальных признаков |
Файлы автоматически создаются при запуске скрипта.
5. 📁 Скрипт
Файл: assignment7_german_credit.py
Реализует полный EDA-процесс в соответствии с требованиями задания.