code-review-101-Slava1111

0
README.md

0. Информация о рецензируемых работах 📌

gitverse профили: discocat, pacost


1. Информация о студенте 📌

Кравченко Владислава Романовна, РИ-150911, номер задания - №10


2. Описание задания 📑

В рамках данного задания осуществляется исследовательский анализ данных (EDA) датасета рукописных цифр Digits. Цель — провести многоклассовую классификацию, изучить особенности цифровых изображений и выявить ключевые статистики по признакам и целевой переменной.


3. Выполненные работы 📈

Загрузка данных: Загружены данные датасета Digits с 64 признаками (пикселями 8x8) и целевой переменной с цифрами 0-9.

Анализ целевой переменной: Проведен подсчет количества образцов каждой цифры и вычислены процентные доли.

Анализ признаков: Рассчитаны общие статистики по пиксельным значениям — среднее, максимум, минимум и стандартное отклонение.

Визуализация:

Построено распределение цифр столбчатой и круговой диаграммами (файлы target_distribution).

Показаны примерные изображения каждой цифры в сетке 2x5 (файл sample_images).

Выполнен анализ интенсивности пикселей через гистограммы и статистику по цифрам для интенсивности, дисперсии и количества ненулевых пикселей. (файл pixel_analysis)

Созданы тепловые карты средних изображений для каждой цифры. (файл mean_heatmaps)


4. Статистика 📊

МетрикаЗначение
Среднее пиксельное значениеоколо 4.5
Максимальное пиксельное значение16
Минимальное пиксельное значение0
Среднее стандартное отклонение~6.3
Размер датасета1797 образцов
Количество классов10 (цифры 0-9)

5. Ключевые находки 📥

Цифры распределены примерно равномерно.

По каждой цифре средняя интенсивность и дисперсия пикселей различаются, что отражает уникальность почерка и структуры.

Количество ненулевых пикселей варьируется у разных цифр, показывая разную «заполненность» изображения.

Тепловые карты отображают характерные области, где для каждой цифры яркость пикселей максимальна, что хорошо подходит для распознавания.

Выводы из анализа: Проведенный анализ подтвердил, что датасет рукописных цифр содержит сбалансированное количество примеров для каждого класса и выраженные отличия по пиксельной интенсивности и распределению. Это делает Digits удобным для обучения моделей многоклассовой классификации. Визуализации помогают лучше понять вариации внутри каждого класса и выявить характерные образцы, что полезно при построении и оценке моделей машинного обучения.


6. Файлы 📎

Список созданных и удалённых файлов:

Созданы README.md, 10_digits_mean_heatmaps.png, 10_digits_pixel_analysis.png, 10_digits_sample_images.png 10_digits_target_distribution.png, 10_digits_target_distribution_pie.png

Удалены FILE_UPDATE_REPORT.md, CONTRIBUTING.md