pandas-shredder
Описание
Пакет, предоставляющий интерфейс для нарезки Pandas.DataFrame на отдельные файлы с заданным количеством строк в каждом из них
Языки
- Python100%
pandas-shredder
Пакет, предоставляющий интерфейс для нарезки Pandas.DataFrame на отдельные файлы с заданным количеством строк в каждом из них.
Оглавление
Установка
Выполните в терминале команду:
В вашем коде выполните импорт:
Ссылка на пакет в PyPI
Пример использования
Пример использования с пояснениями
Предположим у вас есть файл big_data.csv на 7 000 000 строк, расположенный в C:\Documents.
И у вас существует потребность сделать из него несколько файлов формата xlsx на 500 000 строк каждый.
Shredder поможет Вам реализовать эту задумку в несколько строк кода.
Создайте DataFrame на основе данных из вашего файла C:\Documents\big_data.csv
Импортируйте из пакета и инициализируйте его экзмепляр.
- путь к каталогу, в который будут сохранены выходные файлы.directory- расширение / формат выходных файлов. Доступно:extension,xlsx,csv,json,htmlxml- максимальное количество строк в одном выходном файле.lines_per_serving
Запустите измельчитель вызовом метода , передав в него набор данных и имя для выходных файлов.
- экземпляр pandas.DataFrame, который нарезается на файлы заданного размераdataframe- имя, для файлов с результатом. К имени каждого файла будет добавлен префикс с номером файла.filename- опционально. Произвольные именованные аргументы, которые поддерживаются методами DataFrame:**kwarg,to_excel(),to_csv(),to_html(),to_xml(). Набор доступных аргументов зависит от выбранного на этапе инициализации экземпляраto_json()значения в свойствеShredder.extension
В результате выполнения кода, в каталоге C:\Documents\result вас будут ожидать файлы:
- 1_small_data.xlsx
- 2_small_data.xlsx
- 3_small_data.xlsx
- ...
Для сохранения данных в файлы, используются стандартные методы pandas. Вы можете сконфигурировать процесс сохранения через именованные аргументы переданные в вместо .
Например:
Возможные именованные аргументы зависят от выбранного в расширения. Ознакомьтесь с таблицей ниже, что бы узнать больше.
| extension | pandas method |
|---|---|
| csv | to_csv() |
| xlsx | to_excel() |
| html | to_html() |
| json | to_json() |
| xml | to_xml() |
Возможные исключения
UnsupportedFileFormatError
Будет брошено в ситуации, когда указанное в значение не является одним из: , , , ,
DirectoryDoesNotExistError
Будет брошено в ситуации, когда указанное в значение не является существующим в системе каталогом (папкой).
NegativeNumberOfRowsError
Будет брошено в ситуации, когда указанное в значение меньше или равно 0.
LineLimitHasBeenExceededError
Будет брошено в ситуации, когда количество строк в меньше значения, заданного в .