Categories: Auto

Harvard va publier 1 million de livres gratuitement : une mine d’or pour l’IA

Spread the love

Harvard annonce une nouvelle initiative qui mettra 1 million de livres gratuits à disposition des acteurs de l’intelligence artificielle pour entraîner leurs modèles. Celui-ci prépare aussi un projet pour scanner des millions d’articles de presse.

0 𝕏

© Paolo Gallo / Shutterstock.com 𝕏

Les modèles d’intelligence artificielle comme ChatGPT ou Gemini ont besoin de beaucoup de ressources informatiques, de beaucoup d’énergie, mais aussi de beaucoup de données d’entraînement. Et pour fournir de nouvelles données qui permettront aux laboratoires d’IA d’entraîner leurs modèles d’intelligence artificielle, Harvard va créer une immense base de données d’un million de livres, via son nouveau projet Institutional Data Initiative.

Des livres tombés dans le domaine public, réunis dans un jeu de données pour l’IA

Ces données pourront être exploitées pour entraîner les prochains modèles d’IA, puisqu’il s’agit d’œuvres tombées dans le domaine public et qui ne sont donc plus protégées par le droit d’auteur. Selon le magazine Wired, ce jeu de données est cinq fois plus volumineux que Books3, un jeu de données que le groupe Meta a utilisé pour entraîner son modèle Llama.

200% Deposit Bonus up to €3,000 180% First Deposit Bonus up to $20,000

Un projet soutenu par Google, Microsoft et OpenAI

Le projet est soutenu par OpenAI et Microsoft, avec la participation de Google, via son initiative Google Books. L’objectif est de mettre tous les acteurs sur le même pied d’égalité, étant donné que le jeu de données sera accessible gratuitement. En effet, si les grandes organisations comme OpenAI ou Google peuvent sortir leurs chéquiers pour accéder à des textes protégés par le droit d’auteur, cela peut être plus compliqué pour une petite startup.

D’autres jeux de données vont arriver

En outre, l’Initiative de données institutionnelles de Harvard ne compte pas s’arrêter là, puisqu’elle collabore déjà avec la Boston Public Library pour numériser des millions d’articles de presse qui sont déjà dans le domaine public. Et d’après Wired, l’université est ouverte à d’autres partenariats.

Sinon, il est à noter qu’il ne s’agit pas de la seule initiative de ce genre. Par exemple, en mars 2024, la plateforme Hugging Face a publié un jeu de données comprenant un total de 500 milliards de mots, avec des textes en anglais, en français, en néerlandais, en espagnol, en allemand et en italien.

  • Le développement des modèles d’intelligence artificielle générative ne requiert pas seulement des puces et de l’énergie, puisqu’il faut aussi avoir une immense quantité de données d’entraînement
  • Harvard s’engage dans un nouveau projet consistant à publier un jeu de données de 1 million de livres tombés dans le domaine public. Ces données pourront être exploitées par les laboratoires d’IA
  • Harvard travaille également sur un autre projet consistant à numériser des millions d’articles de presse.

[ ]

Teilor Stone

Teilor Stone has been a reporter on the news desk since 2013. Before that she wrote about young adolescence and family dynamics for Styles and was the legal affairs correspondent for the Metro desk. Before joining Thesaxon , Teilor Stone worked as a staff writer at the Village Voice and a freelancer for Newsday, The Wall Street Journal, GQ and Mirabella. To get in touch, contact me through my teilor@nizhtimes.com 1-800-268-7116

Share
Published by
Teilor Stone

Recent Posts

An imam from Gard suspected of rape: after a first complaint was filed, a second has just been filed by a lawyer

La justice a classé la première plainte contre l’imam. Une deuxième a été déposée par…

46 minutes ago

Road crime in Gard: the promise of a “ruthless and uncompromising criminal policy” from the Alès public prosecutor

Audience de comparutions immédiates, ce lundi 23 décembre, au tribunal d'Alès. MIDI LIBRE - CHARLES…

46 minutes ago

Des cadeaux pour les enfants, des toreros réunis, des vidéos qui cartonnent : l’essentiel de l’actualité en région

Tous les soirs à 20 h 30, retrouvez l’essentiel de l’actualité en région sur midilibre.fr. Tous les…

46 minutes ago

Vic-Fezensac dévoile les ganaderias de 2025 et un solo de Morenito de Aranda

Morenito de Aranda réalisera le premier solo de l'histoire de Vic-Fezensac. Midi Libre - Philippe…

46 minutes ago

Drought or floods: seven Gard municipalities recognized as being in a state of natural disaster

Une opération de curage sur la RD 286, à La Grand-Combe, avait été notamment nécessaire.…

2 hours ago

In the pastry shops of Montpellier, for Christmas, the Yule log is always a hit

Kindly feminist logs at Lume in the Gares district. Midi Libre - CODO It's been…

2 hours ago