code-review-101-Slava1111
0. Информация о рецензируемых работах 📌
gitverse профили: discocat, pacost
1. Информация о студенте 📌
Кравченко Владислава Романовна, РИ-150911, номер задания - №10
2. Описание задания 📑
В рамках данного задания осуществляется исследовательский анализ данных (EDA) датасета рукописных цифр Digits. Цель — провести многоклассовую классификацию, изучить особенности цифровых изображений и выявить ключевые статистики по признакам и целевой переменной.
3. Выполненные работы 📈
Загрузка данных: Загружены данные датасета Digits с 64 признаками (пикселями 8x8) и целевой переменной с цифрами 0-9.
Анализ целевой переменной: Проведен подсчет количества образцов каждой цифры и вычислены процентные доли.
Анализ признаков: Рассчитаны общие статистики по пиксельным значениям — среднее, максимум, минимум и стандартное отклонение.
Визуализация:
Построено распределение цифр столбчатой и круговой диаграммами (файлы target_distribution).
Показаны примерные изображения каждой цифры в сетке 2x5 (файл sample_images).
Выполнен анализ интенсивности пикселей через гистограммы и статистику по цифрам для интенсивности, дисперсии и количества ненулевых пикселей. (файл pixel_analysis)
Созданы тепловые карты средних изображений для каждой цифры. (файл mean_heatmaps)
4. Статистика 📊
| Метрика | Значение |
|---|---|
| Среднее пиксельное значение | около 4.5 |
| Максимальное пиксельное значение | 16 |
| Минимальное пиксельное значение | 0 |
| Среднее стандартное отклонение | ~6.3 |
| Размер датасета | 1797 образцов |
| Количество классов | 10 (цифры 0-9) |
5. Ключевые находки 📥
Цифры распределены примерно равномерно.
По каждой цифре средняя интенсивность и дисперсия пикселей различаются, что отражает уникальность почерка и структуры.
Количество ненулевых пикселей варьируется у разных цифр, показывая разную «заполненность» изображения.
Тепловые карты отображают характерные области, где для каждой цифры яркость пикселей максимальна, что хорошо подходит для распознавания.
Выводы из анализа: Проведенный анализ подтвердил, что датасет рукописных цифр содержит сбалансированное количество примеров для каждого класса и выраженные отличия по пиксельной интенсивности и распределению. Это делает Digits удобным для обучения моделей многоклассовой классификации. Визуализации помогают лучше понять вариации внутри каждого класса и выявить характерные образцы, что полезно при построении и оценке моделей машинного обучения.
6. Файлы 📎
Список созданных и удалённых файлов:
Созданы README.md, 10_digits_mean_heatmaps.png, 10_digits_pixel_analysis.png, 10_digits_sample_images.png 10_digits_target_distribution.png, 10_digits_target_distribution_pie.png
Удалены FILE_UPDATE_REPORT.md, CONTRIBUTING.md