code-review-101-anastasiakoc

0
README.md

Задание 6: Анализ датасета Titanic

0. Информация о рецензируемых работах

Рецензенты (будут добавлены позже):

  • GitVerse профиль 1: [yanasim]
  • GitVerse профиль 2: [ylyastar]

1. Информация о студенте

  • ФИО: Кочетова Анастасия Викторовна
  • Группа: РИ-150921/2
  • Номер задания: 6
  • Дата выполнения: 22 ноября 2025

2. Описание задания

Анализ датасета Titanic — задача классификации для изучения выживаемости пассажиров на основании их характеристик.

Цель: Провести exploratory data analysis (EDA) для выявления закономерностей между признаками пассажиров и их выживаемостью.

Датасет:

mstz/titanic
из HuggingFace datasets

Задачи:

  1. Загрузить и подготовить данные
  2. Проанализировать пропущенные значения
  3. Проанализировать распределение целевой переменной (выживание)
  4. Вычислить статистику по числовым признакам
  5. Изучить категориальные признаки
  6. Визуализировать распределения признаков и выживаемости
  7. Провести анализ зависимости выживаемости от ключевых признаков (пол, класс, возраст, стоимость билета)

3. Выполненные работы

3.1 Загрузка данных

Датасет загружен с помощью библиотеки

datasets
от HuggingFace и конвертирован в pandas DataFrame.

Размер датасета: 891 строк × 12 столбцов

Признаки:

  • passengerid
    — ID пассажира
  • pclass
    — класс пассажира (1,2,3)
  • name
    — имя
  • sex
    — пол
  • age
    — возраст
  • sibsp
    — количество братьев/сестер и супругов
  • parch
    — количество родителей и детей
  • ticket
    — номер билета
  • fare
    — стоимость билета
  • cabin
    — каюта
  • embarked
    — порт посадки (C, Q, S)
  • survived
    — целевая переменная (выживание: 0 — не выжил, 1 — выжил)

3.2 Анализ целевой переменной (выживаемость)

Распределение выживания:

  • Не выжили: 549 пассажиров (61.6%)
  • Выжили: 342 пассажира (38.4%)

Статистические характеристики:

  • Среднее значение выживания: 0.38
  • Медиана: 0
  • Стандартное отклонение: 0.49
  • Диапазон: 0–1

Вывод: Больше пассажиров не выжили, чем выжило. Целевая переменная несбалансирована (61.6% vs 38.4%).

3.3 Анализ признаков

Статистика по числовым признакам:

ПризнакСреднееСтд. откл.МинимумМаксимум
age29.7014.520.4280.0
fare32.2049.690.0512.33
sibsp0.521.1008
parch0.380.8106

Категориальные признаки:

  • Пол: Мужчины — 577, Женщины — 314
  • Класс: 1-й — 216, 2-й — 184, 3-й — 491
  • Порт посадки: S — 644, C — 168, Q — 77

Вывод: Пол и класс пассажира сильно влияют на вероятность выживания. Пропуски в

age
и
cabin
стоит учитывать при анализе.

3.4 Визуализация

Созданы следующие визуализации:

  1. 06_titanic_target_distribution.png — распределение выживания (столбчатая диаграмма и pie chart)
  2. 06_titanic_numeric_distribution.png — гистограммы числовых признаков
  3. 06_titanic_categorical_distribution.png — распределение категориальных признаков
  4. 06_titanic_survival_by_features.png — выживаемость по полу и классу

Вывод: Визуализации подтверждают статистические наблюдения: женщины и пассажиры 1-го класса имеют наибольшие шансы на выживание.

4. Статистика

4.1 Таблица с метриками

ПризнакКорреляцияВлияние
sex (женщина=1)+0.54✅ Сильное положительное влияние — женщины выживают чаще
pclass-0.34❌ Умеренное отрицательное влияние — пассажиры 1-го класса имеют больше шансов
age-0.08≈ Нейтральное влияние — зависимость слабая
fare+0.26✅ Положительное влияние — более дорогие билеты связаны с выживанием
sibsp-0.08≈ Нейтральное влияние — количество братьев/сестер и супругов мало влияет
parch-0.02≈ Нейтральное влияние — родители и дети почти не влияют
embarked (C=1, S/Q=0)+0.11✅ Слабое положительное влияние — пассажиры, севшие в C, имеют чуть больше шансов

Вывод: Наиболее значимые признаки для выживания — пол и класс пассажира, далее идут цена билета и порт посадки.

4.2 Ключевые числа

Пассажиры разделены на категории по классу и полу:

  • Пол:

    • Женщины: 314 пассажиров, из них 233 выжили (74.2%)
    • Мужчины: 577 пассажиров, из них 109 выжили (18.9%)
  • Класс:

    • 1-й класс: 216 пассажиров, выжили 136 (63.0%)
    • 2-й класс: 184 пассажира, выжили 87 (47.3%)
    • 3-й класс: 491 пассажир, выжили 118 (24.0%)

Вывод: Женщины и пассажиры 1-го класса имели наибольшую вероятность выживания. Пассажиры 3-го класса и мужчины выживали значительно реже.

5. Ключевые находки

###Выводы из анализа

  • Основные факторы, влияющие на выживаемость: пол, класс, возраст
  • Пропущенные данные нужно учитывать при построении ML моделей
  • Визуализации наглядно показывают распределение и зависимости

6. Файлы проекта

6.1 Созданные файлы

  • assignment.py
    — основной скрипт анализа
  • README.md
    — отчет о выполнении задания
  • 06_titanic_target_distribution.png
  • 06_titanic_numeric_distribution.png
  • 06_titanic_categorical_distribution.png
  • 06_titanic_survival_by_features.png

6.2 Файлы для удаления

  • CONTRIBUTING.md
    — инструкция, не нужна в итоговой ветке
  • FILE_UPDATE_REPORT.md
    — служебный файл, не нужен в итоговой ветке

📝 Заключение

EDA датасета Titanic выполнен полностью. Выявлены ключевые признаки, влияющие на выживаемость, созданы информативные визуализации.

Задание выполнено согласно требованиям CONTRIBUTING.md