links_parser

0

Описание

Парсер ссылок в файлах и инэт страницах

Языки

  • Python100%
README.md

links_parser

Технический паспорт: Парсер ссылок

1. Обзор системы

1.1 Назначение приложения

Приложение представляет собой многофункциональный парсер ссылок с графическим интерфейсом, который позволяет:

  • Извлекать ссылки из локальных файлов
  • Парсить ссылки с веб-страниц
  • Экспортировать найденные ссылки в различных форматах

1.2 Технические характеристики

  • Язык: Python 3.x
  • Библиотеки:
    • tkinter
      (GUI)
    • requests
      (HTTP-запросы)
    • BeautifulSoup
      (парсинг HTML)
    • pandas
      (работа с данными)
    • threading
      (многопоточность)

2. Архитектура приложения

2.1 Модули и компоненты

  1. Константы:

    • MEDIA_TYPES
      : Типы медиафайлов
    • FONT_TYPES
      : Типы шрифтов
    • OTHER_TYPES
      : Прочие типы файлов
  2. Функции парсинга:

    • clean_url()
      : Очистка URL
    • extract_links_from_file()
      : Извлечение ссылок из файлов
    • extract_links_from_url()
      : Извлечение ссылок с URL
    • is_valid_url()
      : Валидация URL
  3. Класс

    ParserApp
    :

    • Основной класс графического интерфейса
    • Управление процессом парсинга
    • Настройка UI

2.2 Алгоритмы парсинга

  • Regex-парсинг:
    • Использует регулярные выражения
    • Поддерживает множество паттернов URL
  • BeautifulSoup-парсинг:
    • Парсинг HTML-документов
    • Извлечение ссылок из тегов

3. Механизмы работы

3.1 Извлечение ссылок

Методы извлечения:

  1. Из локальных файлов
    • Поддержка различных форматов
    • Многопоточный режим парсинга
  2. С веб-страниц
    • HTTP/HTTPS запросы
    • Обработка исключений

3.2 Фильтрация и валидация

  • Очистка URL от посторонних символов
  • Проверка корректности ссылок
  • Фильтрация по схеме и домену

3.3 Экспорт данных

  • Форматы: JSON, HTML
  • Режимы экспорта:
    • Полный (с сохранением всех метаданных)
    • Сокращенный

4. Интерфейс пользователя

4.1 Функциональные вкладки

  • Парсинг файлов
  • Парсинг URL

4.2 Элементы управления

  • Выбор директории
  • Фильтрация типов файлов
  • Прогресс-бар
  • Кнопки управления процессом

5. Обработка ошибок

5.1 Типы обрабатываемых исключений

  • Ошибки чтения файлов
  • Проблемы сетевых запросов
  • Ошибки парсинга

5.2 Механизмы обработки

  • Логирование ошибок
  • Мягкое продолжение работы
  • Информативные сообщения пользователю

6. Производительность

6.1 Оптимизации

  • Многопоточный парсинг
  • Использование очередей
  • Асинхронная обработка данных

6.2 Ограничения

  • Зависимость от GIL в Python
  • Ограничения по количеству одновременно обрабатываемых файлов

7. Безопасность

7.1 Меры защиты

  • Таймауты для сетевых запросов
  • Валидация входных данных
  • Экранирование специальных символов

8. Примеры использования

8.1 Парсинг локальных файлов

8.2 Парсинг URL

9. Зависимости и требования

9.1 Необходимые библиотеки

  • tkinter
  • requests
  • beautifulsoup4
  • pandas

9.2 Совместимость

  • Python 3.7+
  • Кроссплатформенное приложение

10. Перспективы развития

10.1 Планируемые улучшения (не мной... AI 😂)

  • Поддержка дополнительных форматов
  • Расширенные настройки фильтрации
  • Интеграция с внешними сервисами

10.2 Потенциал масштабирования

  • Модульная архитектура
  • Легкость добавления новых функций

Заключение

Парсер ссылок - мощный инструмент для автоматизированного извлечения URL из различных источников с гибкими настройками и удобным интерфейсом.

*чистка файлов (шаблоны\дополнения\прочая ерунда, которую можно скачать бесплатно, но там куева хуча ссылок хз куда и почему, парсер ссылок по URL не было запланировано... просто бонус👻)