ML

0
10 месяцев назад
10 месяцев назад
README.md

Цель

Разработать классификатор, который определяет, является ли электронное письмо спамом или нет.

Инструкция по запуску ноутбука по классификации спама

Назначение файлов

  • data/spam.csv
    — основной датасет с email-сообщениями и метками (
    0
    — ham,
    1
    — spam).
  • notebooks/spam_classifier.ipynb
    — Jupyter-ноутбук с полным циклом работы: предобработка текста, векторизация, обучение моделей, визуализация ROC-кривой и предсказания.
  • requirements.txt
    — список всех Python-библиотек, необходимых для запуска ноутбука.
  • README.md
    — текущий файл с инструкциями по использованию проекта.

Установка зависимостей

  1. Создайте виртуальное окружение:
  1. Запустите его:

для Linux/macOS:

Для Windows:

  1. Установите зависимости:

Запуск ноутбука

  1. Откройте терминал и запустите виртуальное окружение:

для Linux/macOS:

Для Windows:

  1. Запустите Jupyter Notebook:
  1. Перейдите в директорию

    notebooks/
    и откройте файл
    spam_classifier.ipynb
    .

  2. Последовательно выполните все ячейки сверху вниз.

Для получения предсказания по новому тексту, необходимо запустить последние две ячейки в ноутбуке, где:

  • Первая создает функцию дял предобработки текстовых данных.
  • Вторая создает пайплайн и делает предсказание на примере текста.