code-review-101-AnnaVyy

0
README.md

Анализ датасета рукописных цифр (Digits)

Информация о рецензируемых работах

GitVerse профили: NikaO13, AnnaVyy

Информация о студенте

  • ФИО: Болтинских Анна Яновна
  • Группа: РИ-150922/1
  • Номер задания: 10

Описание задания

Что нужно анализировать:

  • Датасет рукописных цифр Digits (8×8 пикселей)
  • Распределение целевой переменной (цифры 0-9)
  • Статистику пиксельных признаков
  • Интенсивность и характеристики изображений

Выполненные работы

Загрузка данных

  • Загрузка датасета с помощью sklearn.datasets.load_digits()
  • Преобразование в DataFrame с 64 пиксельными признаками
  • Добавление целевой переменной (digit)

Анализ целевой переменной

  • Анализ распределения цифр от 0 до 9
  • Проверка сбалансированности классов
  • Расчет процентного соотношения каждой цифры

Анализ признаков

  • Статистический анализ 64 пиксельных признаков
  • Расчет средней интенсивности, дисперсии, стандартного отклонения
  • Анализ ненулевых пикселей

Визуализация

  • Столбчатые и круговые диаграммы распределения цифр
  • Примеры изображений каждой цифры в сетке 2×5
  • Тепловые карты средних изображений
  • Анализ интенсивности пикселей

Статистика

Таблица с метриками

МетрикаЗначение
Размер датасета1,797 примеров
Количество классов10 цифр (0-9)
Размер изображений8×8 пикселей
Количество признаков64
Диапазон значений пикселей0-16
Средняя интенсивность пикселей4.884
Среднее ненулевых пикселей32.7
Стандартное отклонение распределения2.75

Ключевые числа

  • 1797 - общее количество примеров
  • 178-183 - диапазон количества примеров на класс
  • 64 - количество пиксельных признаков
  • 32.7 - среднее количество активных пикселей
  • 4.884 - средняя интенсивность пикселей

Ключевые находки

  1. Высокая сбалансированность - распределение цифр практически равномерное (±2.75 стандартное отклонение)
  2. Оптимальная размерность - 64 признака обеспечивают баланс между информативностью и сложностью
  3. Различия в сложности цифр - цифры 1 и 7 имеют более простые визуальные паттерны
  4. Уникальные тепловые карты - каждая цифра имеет характерное распределение интенсивности пикселей

Выводы из анализа

  1. Датасет идеально подходит для задач классификации благодаря сбалансированности и четким визуальным различиям
  2. Пиксельное представление 8×8 сохраняет достаточную информацию для распознавания рукописных цифр
  3. Наблюдаемые визуальные различия между цифрами подтверждают возможность успешной классификации
  4. Статистические показатели демонстрируют хорошее качество данных для машинного обучения

Файлы

Список созданных файлов:

  • assignment.py
    - основной код анализа
  • 10_digits_target_distribution.png
    - распределение цифр
  • 10_digits_sample_images.png
    - примеры изображений цифр
  • 10_digits_pixel_analysis.png
    - анализ интенсивности пикселей
  • 10_digits_mean_heatmaps.png
    - тепловые карты средних изображений
  • README.md
    - данный отчёт
  • requirements.txt
    - зависимости проекта
  • .gitignore
    - игнорируемые файлы
  • Figure_1.png
  • Figure_2.png
  • Figure_3.png
  • Figure_4.png

Список удалённых файлов:

  • CONTRIBUTING.md
  • FILE_UPDATE_REPORT.md
  • Figure_1.png
  • Figure_2.png
  • Figure_3.png
  • Figure_4.png

Используемые технологии

  • Python 3
  • Pandas
  • NumPy
  • Matplotlib
  • Seaborn
  • Scikit-learn