Harvard annonce une nouvelle initiative qui mettra 1 million de livres gratuits à disposition des acteurs de l’intelligence artificielle pour entraîner leurs modèles. Celui-ci prépare aussi un projet pour scanner des millions d’articles de presse.
0 𝕏
© Paolo Gallo / Shutterstock.com 𝕏
Les modèles d’intelligence artificielle comme ChatGPT ou Gemini ont besoin de beaucoup de ressources informatiques, de beaucoup d’énergie, mais aussi de beaucoup de données d’entraînement. Et pour fournir de nouvelles données qui permettront aux laboratoires d’IA d’entraîner leurs modèles d’intelligence artificielle, Harvard va créer une immense base de données d’un million de livres, via son nouveau projet Institutional Data Initiative.
Des livres tombés dans le domaine public, réunis dans un jeu de données pour l’IA
Ces données pourront être exploitées pour entraîner les prochains modèles d’IA, puisqu’il s’agit d’œuvres tombées dans le domaine public et qui ne sont donc plus protégées par le droit d’auteur. Selon le magazine Wired, ce jeu de données est cinq fois plus volumineux que Books3, un jeu de données que le groupe Meta a utilisé pour entraîner son modèle Llama.
200% Deposit Bonus up to €3,000 180% First Deposit Bonus up to $20,000Un projet soutenu par Google, Microsoft et OpenAI
Le projet est soutenu par OpenAI et Microsoft, avec la participation de Google, via son initiative Google Books. L’objectif est de mettre tous les acteurs sur le même pied d’égalité, étant donné que le jeu de données sera accessible gratuitement. En effet, si les grandes organisations comme OpenAI ou Google peuvent sortir leurs chéquiers pour accéder à des textes protégés par le droit d’auteur, cela peut être plus compliqué pour une petite startup.
D’autres jeux de données vont arriver
En outre, l’Initiative de données institutionnelles de Harvard ne compte pas s’arrêter là, puisqu’elle collabore déjà avec la Boston Public Library pour numériser des millions d’articles de presse qui sont déjà dans le domaine public. Et d’après Wired, l’université est ouverte à d’autres partenariats.
Sinon, il est à noter qu’il ne s’agit pas de la seule initiative de ce genre. Par exemple, en mars 2024, la plateforme Hugging Face a publié un jeu de données comprenant un total de 500 milliards de mots, avec des textes en anglais, en français, en néerlandais, en espagnol, en allemand et en italien.
- Le développement des modèles d’intelligence artificielle générative ne requiert pas seulement des puces et de l’énergie, puisqu’il faut aussi avoir une immense quantité de données d’entraînement
- Harvard s’engage dans un nouveau projet consistant à publier un jeu de données de 1 million de livres tombés dans le domaine public. Ces données pourront être exploitées par les laboratoires d’IA
- Harvard travaille également sur un autre projet consistant à numériser des millions d’articles de presse.
[ ]