code-review-101-AnnaVyy
5 месяцев назад
4 месяца назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
4 месяца назад
4 месяца назад
README.md
Анализ датасета рукописных цифр (Digits)
Информация о рецензируемых работах
GitVerse профили: NikaO13, AnnaVyy
Информация о студенте
- ФИО: Болтинских Анна Яновна
- Группа: РИ-150922/1
- Номер задания: 10
Описание задания
Что нужно анализировать:
- Датасет рукописных цифр Digits (8×8 пикселей)
- Распределение целевой переменной (цифры 0-9)
- Статистику пиксельных признаков
- Интенсивность и характеристики изображений
Выполненные работы
Загрузка данных
- Загрузка датасета с помощью sklearn.datasets.load_digits()
- Преобразование в DataFrame с 64 пиксельными признаками
- Добавление целевой переменной (digit)
Анализ целевой переменной
- Анализ распределения цифр от 0 до 9
- Проверка сбалансированности классов
- Расчет процентного соотношения каждой цифры
Анализ признаков
- Статистический анализ 64 пиксельных признаков
- Расчет средней интенсивности, дисперсии, стандартного отклонения
- Анализ ненулевых пикселей
Визуализация
- Столбчатые и круговые диаграммы распределения цифр
- Примеры изображений каждой цифры в сетке 2×5
- Тепловые карты средних изображений
- Анализ интенсивности пикселей
Статистика
Таблица с метриками
| Метрика | Значение |
|---|---|
| Размер датасета | 1,797 примеров |
| Количество классов | 10 цифр (0-9) |
| Размер изображений | 8×8 пикселей |
| Количество признаков | 64 |
| Диапазон значений пикселей | 0-16 |
| Средняя интенсивность пикселей | 4.884 |
| Среднее ненулевых пикселей | 32.7 |
| Стандартное отклонение распределения | 2.75 |
Ключевые числа
- 1797 - общее количество примеров
- 178-183 - диапазон количества примеров на класс
- 64 - количество пиксельных признаков
- 32.7 - среднее количество активных пикселей
- 4.884 - средняя интенсивность пикселей
Ключевые находки
- Высокая сбалансированность - распределение цифр практически равномерное (±2.75 стандартное отклонение)
- Оптимальная размерность - 64 признака обеспечивают баланс между информативностью и сложностью
- Различия в сложности цифр - цифры 1 и 7 имеют более простые визуальные паттерны
- Уникальные тепловые карты - каждая цифра имеет характерное распределение интенсивности пикселей
Выводы из анализа
- Датасет идеально подходит для задач классификации благодаря сбалансированности и четким визуальным различиям
- Пиксельное представление 8×8 сохраняет достаточную информацию для распознавания рукописных цифр
- Наблюдаемые визуальные различия между цифрами подтверждают возможность успешной классификации
- Статистические показатели демонстрируют хорошее качество данных для машинного обучения
Файлы
Список созданных файлов:
- основной код анализаassignment.py- распределение цифр10_digits_target_distribution.png- примеры изображений цифр10_digits_sample_images.png- анализ интенсивности пикселей10_digits_pixel_analysis.png- тепловые карты средних изображений10_digits_mean_heatmaps.png- данный отчётREADME.md- зависимости проектаrequirements.txt- игнорируемые файлы.gitignore- Figure_1.png
- Figure_2.png
- Figure_3.png
- Figure_4.png
Список удалённых файлов:
- CONTRIBUTING.md
- FILE_UPDATE_REPORT.md
- Figure_1.png
- Figure_2.png
- Figure_3.png
- Figure_4.png
Используемые технологии
- Python 3
- Pandas
- NumPy
- Matplotlib
- Seaborn
- Scikit-learn