links_parser
Описание
Парсер ссылок в файлах и инэт страницах
Языки
- Python100%
год назад
год назад
README.md
links_parser
Технический паспорт: Парсер ссылок
1. Обзор системы
1.1 Назначение приложения
Приложение представляет собой многофункциональный парсер ссылок с графическим интерфейсом, который позволяет:
- Извлекать ссылки из локальных файлов
- Парсить ссылки с веб-страниц
- Экспортировать найденные ссылки в различных форматах
1.2 Технические характеристики
- Язык: Python 3.x
- Библиотеки:
(GUI)tkinter(HTTP-запросы)requests(парсинг HTML)BeautifulSoup(работа с данными)pandas(многопоточность)threading
2. Архитектура приложения
2.1 Модули и компоненты
-
Константы:
: Типы медиафайловMEDIA_TYPES: Типы шрифтовFONT_TYPES: Прочие типы файловOTHER_TYPES
-
Функции парсинга:
: Очистка URLclean_url(): Извлечение ссылок из файловextract_links_from_file(): Извлечение ссылок с URLextract_links_from_url(): Валидация URLis_valid_url()
-
Класс
:ParserApp- Основной класс графического интерфейса
- Управление процессом парсинга
- Настройка UI
2.2 Алгоритмы парсинга
- Regex-парсинг:
- Использует регулярные выражения
- Поддерживает множество паттернов URL
- BeautifulSoup-парсинг:
- Парсинг HTML-документов
- Извлечение ссылок из тегов
3. Механизмы работы
3.1 Извлечение ссылок
Методы извлечения:
- Из локальных файлов
- Поддержка различных форматов
- Многопоточный режим парсинга
- С веб-страниц
- HTTP/HTTPS запросы
- Обработка исключений
3.2 Фильтрация и валидация
- Очистка URL от посторонних символов
- Проверка корректности ссылок
- Фильтрация по схеме и домену
3.3 Экспорт данных
- Форматы: JSON, HTML
- Режимы экспорта:
- Полный (с сохранением всех метаданных)
- Сокращенный
4. Интерфейс пользователя
4.1 Функциональные вкладки
- Парсинг файлов
- Парсинг URL
4.2 Элементы управления
- Выбор директории
- Фильтрация типов файлов
- Прогресс-бар
- Кнопки управления процессом
5. Обработка ошибок
5.1 Типы обрабатываемых исключений
- Ошибки чтения файлов
- Проблемы сетевых запросов
- Ошибки парсинга
5.2 Механизмы обработки
- Логирование ошибок
- Мягкое продолжение работы
- Информативные сообщения пользователю
6. Производительность
6.1 Оптимизации
- Многопоточный парсинг
- Использование очередей
- Асинхронная обработка данных
6.2 Ограничения
- Зависимость от GIL в Python
- Ограничения по количеству одновременно обрабатываемых файлов
7. Безопасность
7.1 Меры защиты
- Таймауты для сетевых запросов
- Валидация входных данных
- Экранирование специальных символов
8. Примеры использования
8.1 Парсинг локальных файлов
8.2 Парсинг URL
9. Зависимости и требования
9.1 Необходимые библиотеки
- tkinter
- requests
- beautifulsoup4
- pandas
9.2 Совместимость
- Python 3.7+
- Кроссплатформенное приложение
10. Перспективы развития
10.1 Планируемые улучшения (не мной... AI 😂)
- Поддержка дополнительных форматов
- Расширенные настройки фильтрации
- Интеграция с внешними сервисами
10.2 Потенциал масштабирования
- Модульная архитектура
- Легкость добавления новых функций
Заключение
Парсер ссылок - мощный инструмент для автоматизированного извлечения URL из различных источников с гибкими настройками и удобным интерфейсом.
*чистка файлов (шаблоны\дополнения\прочая ерунда, которую можно скачать бесплатно, но там куева хуча ссылок хз куда и почему, парсер ссылок по URL не было запланировано... просто бонус👻)