code-review-101-denchik111

0
README.md

Постановка задачи Задание заключалось в проведении подробного исследования датасета немецких кредитных заявок («German Credit»), целью которого было выявление закономерностей и особенностей в данных, влияющих на кредитоспособность клиентов банка. Исследование включало этапы обработки данных, описания ключевых атрибутов, проверки качества данных и построения визуализаций для лучшего понимания структуры набора данных.

Описание датасета Источник: Набор данных «German Credit» представляет собой известный публичный датасет, используемый для изучения задач классификации кредитного риска.

Количество записей: 1000 наблюдений.

Тип задачи: Бинарная классификация (оценка вероятности дефолта клиента).

Основные поля датасета:

Числовые признаки:## Полный отчёт по заданию №7: Exploratory Data Analysis (EDA) датасета German Credit Dataset Постановка задачи Задание заключалось в проведении подробного исследования датасета немецких кредитных заявок («German Credit»), целью которого было выявление закономерностей и особенностей в данных, влияющих на кредитоспособность клиентов банка. Исследование включало этапы обработки данных, описания ключевых атрибутов, проверки качества данных и построения визуализаций для лучшего понимания структуры набора данных.

Описание датасета Источник: Набор данных «German Credit» представляет собой известный публичный датасет, используемый для изучения задач классификации кредитного риска.

Количество записей: 1000 наблюдений.

Тип задачи: Бинарная классификация (оценка вероятности дефолта клиента).

Основные поля датасета:

Числовые признаки: Age (возраст заемщика), Duration (продолжительность займа в месяцах), Credit Amount (сумма кредита), Installment rate (доля доходов, идущих на погашение долга), Number of Credits at this Bank (количество предыдущих займов в банке), Months Residence (стаж проживания на одном месте), Employment duration (стаж занятости), Foreign Worker (является иностранным работником), Job type (тип работы). Категориальные признаки: Checking account balance, Savings account/bonds, Housing situation, Purpose of loan, Personal Status and Sex, Other Debtors/Guarantors, Property, Telephone ownership, Guarantor or co-applicant. Целевая переменная: Risk (целевой признак, характеризует уровень риска кредитования).

Итоговая статистика и выводы Размер датасета: 1000 записей. Отсутствие пропущенных значений: Данные полные, отсутствуют null-значения. Баланс классов целевой переменной: Класс «high-risk» составляет примерно 30%, тогда как «low-risk» — около 70%. Это означает, что датасет слегка несбалансирован. Средняя сумма кредита: Средняя величина составляет порядка 3 тыс. евро, но встречаются кредиты вплоть до 20 тыс. евро. Максимальная продолжительность займа: Максимальная длительность займа достигает почти 80 месяцев (~6,5 лет). Возраст заемщиков: Средний возраст составляет около 35 лет, однако диапазон широкий — от 19 до 75 лет. Частота занятий: Большинство заемщиков заняты профессионально либо являются госслужащими. Категория цели кредита: Основная цель кредита — покупка автомобилей, ремонт жилья и бытовая техника. Графики и визуализации Распределение целевой переменной представлено на столбчатой и круговой диаграммах, демонстрируя небольшой дисбаланс классов. Гистограммы числовых признаков показывают нормальное распределение большинства показателей, за исключением ряда выбросов. Топ-5 категорий категоральных признаков позволяют выделить доминирующие группы населения. Возраст и суммы кредитов представлены отдельно для наглядности взаимосвязи между возрастом и размером запрашиваемого кредита. Заключение Проведенный анализ позволил выявить структуру данных, важные тенденции и аномалии. Были созданы полезные визуализации, помогающие лучше понимать факторы, влияющие на принятие решений о выдаче кредита. Эти знания будут полезны при разработке моделей машинного обучения для оценки кредитного риска. Данный EDA помогает подготовить качественный набор данных для дальнейшей модели ML-классификации.