code-review-101-Zhnyaugamerz
5 месяцев назад
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
README.md
- ecxqua, BendySonic
- Бабушкин Евгений Андреевич, РИ-150911, задание 8
2. Описание задания
Анализ датасета качества вина, содержащего физико-химические свойства различных вин и их экспертные оценки качества.
Что нужно анализировать:
- Распределение и статистику целевой переменной (качество вина)
- Физико-химические свойства вин и их взаимосвязи
- Корреляции между признаками и качеством
- Категориальный анализ качества вин
3. Выполненные работы
📊 Загрузка данных
- Загружен датасет "mnemoraorg/wine-quality-6k4" из Hugging Face Hub
- Конвертирован в pandas DataFrame для анализа
- Исходный размер датасета: 6497 строк × 13 столбцов
🎯 Анализ целевой переменной
- Качество вина (quality): целочисленная оценка от 3 до 9
- Проанализировано распределение оценок качества
- Вычислена описательная статистика (среднее, медиана, стандартное отклонение)
🔍 Анализ признаков
Проанализированы 12 физико-химических свойств:
- фиксированная кислотностьfixed acidity- летучая кислотностьvolatile acidity- лимонная кислотаcitric acid- остаточный сахарresidual sugar- хлоридыchlorides- свободный диоксид серыfree sulfur dioxide- общий диоксид серыtotal sulfur dioxide- плотностьdensity- уровень pHpH- сульфатыsulphates- алкогольalcohol- качество (целевая переменная)quality
📈 Визуализация
Созданы следующие визуализации:
- Распределение целевой переменной (гистограмма и KDE)
- Распределения всех признаков в сетке 2×4
- Scatter plots топ-6 признаков против качества
- Горизонтальная диаграмма корреляций
- Box plots по категориям качества
4. Статистика
📋 Таблица с метриками качества
| Метрика | Значение |
|---|---|
| Среднее качество | 5.82 |
| Медиана качества | 6.00 |
| Стандартное отклонение | 0.87 |
| Минимальное качество | 3 |
| Максимальное качество | 9 |
| Диапазон | 6 |
🔢 Ключевые числа
- Общее количество образцов: 6497
- Количество признаков: 12 физико-химических + 1 целевой
- Наиболее частое качество: 6 (≈35% образцов)
- Категории качества:
- Low (1-4): ~8% образцов
- Medium (5-6): ~67% образцов
- High (7-9): ~25% образцов
5. Ключевые находки
🎯 Выводы из анализа
-
Распределение качества: Оценки сконцентрированы вокруг значений 5-6, что указывает на нормальное распределение с небольшим смещением в сторону более высоких оценок.
-
Наиболее влиятельные признаки:
- Алкоголь имеет самую высокую положительную корреляцию с качеством
- Плотность показывает сильную отрицательную корреляцию
- Летучая кислотность отрицательно влияет на качество
-
Категориальные различия:
- Вина высокой категории имеют значительно более высокое содержание алкоголя
- Низкокачественные вина характеризуются повышенной летучей кислотностью
- Сульфаты также важны для дифференциации категорий качества
-
Визуальные закономерности:
- Четко прослеживаются линейные зависимости для некоторых признаков
- Наблюдаются кластеры в scatter plots, указывающие на возможные подгруппы вин
6. Файлы
📁 Созданные файлы
- распределение целевой переменнойtarget_distrib.png- распределения всех признаковfeatures_distrib.png- scatter plots признаков против качестваtarget_vs_features.png- диаграмма корреляций с качествомcorrelation_bars.png- box plots по категориям качестваby_category.png
🗑️ Удалённые файлы
- FILE_UPDATE_REPORT.md - автосгенерированная штука где написано всё что есть в репо
- CONTRIBUTING.md - написано всё что надо сделать
- PANDAS_CHEATSHEET.md - шпаргалка по pandas
- MATPLOTLIB_CHEATSHEET.md - шпаргалка по matplotlib
- CODE_REQUIREMENTS.md - требования к коду
- ASSIGNMENTS_README.md - полная документация к заданиям