Следите за новостями GitVerse в нашем телеграм-канале

Коммиты

Коммиты: 3737

Автор

год назад

release: 2.18.0

Автор

год назад

Corrects an issue where `self._ex_iterable` was erroneously used instead of `ex_iterable`, when both Distributed Data Parallel (DDP) and multi num_worker are used concurrently. This improper usage led to the generation of incorrect `shards_indices`, subsequently causing issues with the control flow responsible for worker creation. The fix ensures the appropriate iterable is used, thus providing a more accurate determination of whether a new worker should be instantiated or not.

Автор

год назад

* fix data_files when passing data_dir * add test * fix tests

Автор

год назад

An auto converstion for torch if the dataset format is uint16 or uint32 Co-authored-by: Quentin Lhoest <42851186+lhoestq@users.noreply.github.com>

Автор

год назад

* Change default compression argument for JsonDatasetWriter Change default compression type from None to "infer", to align with pandas' defaults * Fix incorrect default json compression when writing to buffer * fix empty space --------- Co-authored-by: Quentin Lhoest <42851186+lhoestq@users.noreply.github.com>

Автор

год назад

Co-authored-by: Quentin Lhoest <42851186+lhoestq@users.noreply.github.com>

Автор

год назад

* Use tool.ruft.lint to silence deprecation messages * Bump ruff to 0.3.0 * Update pre-commit config * Remove black section from pyproject.toml

Автор

год назад

* apply new ruff * bump ruff version

Автор

год назад

* data_files: support fsspec 2023.12.0 glob * fsspec: unpin version upper bound * fsspec: pin max version to <=2024.2.0 * data_files: remove unsupported fsspec-specific ** globbing * data_files: update resolve_pattern ** behavior docstring * fix split case with either prefix or suffix --------- Co-authored-by: Quentin Lhoest <lhoest.q@gmail.com> Co-authored-by: Quentin Lhoest <42851186+lhoestq@users.noreply.github.com>

Автор

год назад

base parquet batch_size on parquet row group size

Автор

год назад

Автор

год назад

Update GH Actions to Node 20

Автор

год назад

* Test JSON builder with list of strings * Make JSON builder support array of strings

Автор

год назад

Автор

год назад

Update the print message for chunked_dataset in the process.mdx batch processing section for clarity and accuracy

Автор

год назад

* Updated Quickstart Notebook link * Small fix * Nit --------- Co-authored-by: Mario Šaško <mariosasko777@gmail.com>

Автор

год назад

* Improve error message for gated datasets on load Internal Slack discussion: https://huggingface.slack.com/archives/C02V51Q3800/p1708424971135029 * Point to dataset page URL * Harmonise error message

Автор

год назад

Автор

год назад

Автор

год назад

Автор

год назад

* Undo the changes in `arrow_writer.py` from #6636 See #6663. * Add test * Apply suggestions from code review * Nits --------- Co-authored-by: mariosasko <mariosasko777@gmail.com>

Автор

год назад

Автор

год назад

Автор

год назад

* docmunent usage of hfh cli instead of git * minor

Автор

год назад

minor multi gpu doc improvement

Автор

год назад
1
2
3
4
5
...
125

Использование cookies

Мы используем файлы cookie в соответствии с Политикой конфиденциальности и Политикой использования cookies.

Нажимая кнопку «Принимаю», Вы даете АО «СберТех» согласие на обработку Ваших персональных данных в целях совершенствования нашего веб-сайта и Сервиса GitVerse, а также повышения удобства их использования.

Запретить использование cookies Вы можете самостоятельно в настройках Вашего браузера.