Luca Soldaini – Medium

Luca Soldaini

Published in
Ai2 Blog

Dolma: 3 Trillion Token Open Corpus for Language Model Pretraining

We released Dolma, OLMo’s pretraining dataset. Dolma open dataset of 3 trillion tokens. Available on HuggingFace under the ImpACT license

Aug 18, 2023

Aug 18, 2023

Luca Soldaini

Luca Soldaini

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams