code-review-101-elislady
5 месяцев назад
4 месяца назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
README.md
Анализ датасета Wine
👥 Информация о рецензируемых работах
Рецензенты:
- Пашков Эдуард
- Павалаки Денис
👨🎓 Информация о студенте
ФИО: Чурсина Елизавета Анатольевна
Группа: РИ-150942
Номер задания: 2
Дисциплина: Информационные технологии и сервисы
📋 Описание задания
Задача: Провести комплексный exploratory data analysis (EDA) датасета Wine
Что нужно анализировать:
- Целевую переменную (классы вин)
- Статистические характеристики признаков
- Распределения и взаимосвязи признаков
- Корреляции между переменными
✅ Выполненные работы
1. Загрузка данных
- Загружен датасет Wine из scikit-learn
- Преобразован в pandas DataFrame
- Заменены числовые метки на текстовые названия классов
- Проверена целостность данных
2. Анализ целевой переменной
- Проанализировано распределение по классам
- Вычислены процентные соотношения
- Построены визуализации распределения
3. Анализ признаков
- Исследованы 13 химических характеристик вин
- Проанализированы распределения признаков
- Выявлены различия между классами
4. Визуализация
- Столбчатые и круговые диаграммы распределения классов
- Гистограммы распределения признаков (сетка 3x2)
- Boxplot анализа по классам (сетка 3x2)
- Heatmap матрицы корреляций
5. Статистика
- Вычислены основные статистические показатели
- Проанализированы корреляции между признаками
- Исследованы различия в распределениях
📊 Таблица с метриками
| Метрика | Значение | Единицы измерения |
|---|---|---|
| Количество наблюдений | 178 | образцов |
| Количество признаков | 13 | характеристик |
| Количество классов | 3 | типа вин |
| Размерность данных | 178 × 14 | строк × столбцов |
| Пропущенные значения | 0 | - |
🔢 Ключевые числа
Распределение классов:
- class_0: 59 образцов (33.1%)
- class_1: 71 образцов (39.9%)
- class_2: 48 образцов (27.0%)
Сильные корреляции:
- Total phenols & Flavanoids: 0.86
- Flavanoids & OD280/OD315: 0.79
- Hue & Color intensity: -0.56
🔍 Ключевые находки
1. Сбалансированность данных
- Классы относительно сбалансированы
- Отсутствует критический дисбаланс
- Пригодно для многоклассовой классификации
2. Информативные признаки
- Flavanoids - наибольшая разделительная способность
- Proline - четко отделяет класс 0
- Color intensity - отличает класс 2
- OD280/OD315 - хороший разделитель всех классов
3. Различия между классами
- Класс 0: Высокие Flavanoids и Proline, низкая Color intensity
- Класс 1: Сбалансированный профиль, средние значения
- Класс 2: Высокая Color intensity, низкие Flavanoids
4. Качество данных
- ✅ Полнота данных: Отсутствуют пропущенные значения
- ✅ Чистота данных: Нет критических выбросов, влияющих на анализ
- ✅ Сбалансированность: Классы относительно равномерно распределены
- ✅ Целостность: Все наблюдения завершены и пригодны для анализа
💡 Выводы из анализа
1. Для предобработки данных
- Требуется стандартизация признаков (разный масштаб)
- Возможно уменьшение размерности (высокие корреляции)
- Все признаки содержат полезную информацию
2. Для моделирования
- Рекомендуемые алгоритмы: Random Forest, SVM, Gradient Boosting
- Валидация: Стратифицированная k-fold кросс-валидация
- Метрики: Accuracy, F1-score, Precision, Recall
3. Перспективы
- Данные хорошо подходят для классификации
- Имеются четкие различия между классами
- Возможно достижение высокой точности классификации
📁 Файлы
Созданные файлы:
- основной код анализаwine_analysis.py- распределение классов02_wine_target_distribution.png- гистограммы признаков02_wine_features_distribution.png- boxplot по классам02_wine_features_by_class.png- матрица корреляций02_wine_correlation_matrix.png- документация и отчетREADME.md
Удалённые файлы:
- FILE_UPDATE_REPORT.md
- CONTRIBUTING.md