🍷Fineweb, le dataset "de qualité" proposé en open source pour entrainer vos LLMs

Hugging face a publié en mai 2024 un long et intéressant article sur la façon de construire un jeux de données de qualité pour que les LLMs puissent reposer sur des informations factuellement correctes.

Il a été publié pour soutenir le lancement de fineweb, un énorme jeu de plus de 50TB de données.

Inscrivez-vous à la newsletter enyaré

Pas de spam, pas de partage avec des tiers. Juste vous et moi.

Discussion des membres