code-review-101-anastasiakoc
Задание 6: Анализ датасета Titanic
0. Информация о рецензируемых работах
Рецензенты (будут добавлены позже):
- GitVerse профиль 1: [yanasim]
- GitVerse профиль 2: [ylyastar]
1. Информация о студенте
- ФИО: Кочетова Анастасия Викторовна
- Группа: РИ-150921/2
- Номер задания: 6
- Дата выполнения: 22 ноября 2025
2. Описание задания
Анализ датасета Titanic — задача классификации для изучения выживаемости пассажиров на основании их характеристик.
Цель: Провести exploratory data analysis (EDA) для выявления закономерностей между признаками пассажиров и их выживаемостью.
Датасет: из HuggingFace datasets
Задачи:
- Загрузить и подготовить данные
- Проанализировать пропущенные значения
- Проанализировать распределение целевой переменной (выживание)
- Вычислить статистику по числовым признакам
- Изучить категориальные признаки
- Визуализировать распределения признаков и выживаемости
- Провести анализ зависимости выживаемости от ключевых признаков (пол, класс, возраст, стоимость билета)
3. Выполненные работы
3.1 Загрузка данных
Датасет загружен с помощью библиотеки от HuggingFace и конвертирован в pandas DataFrame.
Размер датасета: 891 строк × 12 столбцов
Признаки:
— ID пассажираpassengerid— класс пассажира (1,2,3)pclass— имяname— полsex— возрастage— количество братьев/сестер и супруговsibsp— количество родителей и детейparch— номер билетаticket— стоимость билетаfare— каютаcabin— порт посадки (C, Q, S)embarked— целевая переменная (выживание: 0 — не выжил, 1 — выжил)survived
3.2 Анализ целевой переменной (выживаемость)
Распределение выживания:
- Не выжили: 549 пассажиров (61.6%)
- Выжили: 342 пассажира (38.4%)
Статистические характеристики:
- Среднее значение выживания: 0.38
- Медиана: 0
- Стандартное отклонение: 0.49
- Диапазон: 0–1
Вывод: Больше пассажиров не выжили, чем выжило. Целевая переменная несбалансирована (61.6% vs 38.4%).
3.3 Анализ признаков
Статистика по числовым признакам:
| Признак | Среднее | Стд. откл. | Минимум | Максимум |
|---|---|---|---|---|
| age | 29.70 | 14.52 | 0.42 | 80.0 |
| fare | 32.20 | 49.69 | 0.0 | 512.33 |
| sibsp | 0.52 | 1.10 | 0 | 8 |
| parch | 0.38 | 0.81 | 0 | 6 |
Категориальные признаки:
- Пол: Мужчины — 577, Женщины — 314
- Класс: 1-й — 216, 2-й — 184, 3-й — 491
- Порт посадки: S — 644, C — 168, Q — 77
Вывод: Пол и класс пассажира сильно влияют на вероятность выживания. Пропуски в и стоит учитывать при анализе.
3.4 Визуализация
Созданы следующие визуализации:
- 06_titanic_target_distribution.png — распределение выживания (столбчатая диаграмма и pie chart)
- 06_titanic_numeric_distribution.png — гистограммы числовых признаков
- 06_titanic_categorical_distribution.png — распределение категориальных признаков
- 06_titanic_survival_by_features.png — выживаемость по полу и классу
Вывод: Визуализации подтверждают статистические наблюдения: женщины и пассажиры 1-го класса имеют наибольшие шансы на выживание.
4. Статистика
4.1 Таблица с метриками
| Признак | Корреляция | Влияние |
|---|---|---|
| sex (женщина=1) | +0.54 | ✅ Сильное положительное влияние — женщины выживают чаще |
| pclass | -0.34 | ❌ Умеренное отрицательное влияние — пассажиры 1-го класса имеют больше шансов |
| age | -0.08 | ≈ Нейтральное влияние — зависимость слабая |
| fare | +0.26 | ✅ Положительное влияние — более дорогие билеты связаны с выживанием |
| sibsp | -0.08 | ≈ Нейтральное влияние — количество братьев/сестер и супругов мало влияет |
| parch | -0.02 | ≈ Нейтральное влияние — родители и дети почти не влияют |
| embarked (C=1, S/Q=0) | +0.11 | ✅ Слабое положительное влияние — пассажиры, севшие в C, имеют чуть больше шансов |
Вывод: Наиболее значимые признаки для выживания — пол и класс пассажира, далее идут цена билета и порт посадки.
4.2 Ключевые числа
Пассажиры разделены на категории по классу и полу:
-
Пол:
- Женщины: 314 пассажиров, из них 233 выжили (74.2%)
- Мужчины: 577 пассажиров, из них 109 выжили (18.9%)
-
Класс:
- 1-й класс: 216 пассажиров, выжили 136 (63.0%)
- 2-й класс: 184 пассажира, выжили 87 (47.3%)
- 3-й класс: 491 пассажир, выжили 118 (24.0%)
Вывод: Женщины и пассажиры 1-го класса имели наибольшую вероятность выживания. Пассажиры 3-го класса и мужчины выживали значительно реже.
5. Ключевые находки
###Выводы из анализа
- Основные факторы, влияющие на выживаемость: пол, класс, возраст
- Пропущенные данные нужно учитывать при построении ML моделей
- Визуализации наглядно показывают распределение и зависимости
6. Файлы проекта
6.1 Созданные файлы
- ✅
— основной скрипт анализаassignment.py - ✅
— отчет о выполнении заданияREADME.md - ✅ 06_titanic_target_distribution.png
- ✅ 06_titanic_numeric_distribution.png
- ✅ 06_titanic_categorical_distribution.png
- ✅ 06_titanic_survival_by_features.png
6.2 Файлы для удаления
- ❌
— инструкция, не нужна в итоговой веткеCONTRIBUTING.md - ❌
— служебный файл, не нужен в итоговой веткеFILE_UPDATE_REPORT.md
📝 Заключение
EDA датасета Titanic выполнен полностью. Выявлены ключевые признаки, влияющие на выживаемость, созданы информативные визуализации.
Задание выполнено согласно требованиям CONTRIBUTING.md ✅