Categories: Auto

Harvard va publier 1 million de livres gratuitement : une mine d’or pour l’IA

Spread the love

Harvard annonce une nouvelle initiative qui mettra 1 million de livres gratuits à disposition des acteurs de l’intelligence artificielle pour entraîner leurs modèles. Celui-ci prépare aussi un projet pour scanner des millions d’articles de presse.

0 𝕏

Les modèles d’intelligence artificielle comme ChatGPT ou Gemini ont besoin de beaucoup de ressources informatiques, de beaucoup d’énergie, mais aussi de beaucoup de données d’entraînement. Et pour fournir de nouvelles données qui permettront aux laboratoires d’IA d’entraîner leurs modèles d’intelligence artificielle, Harvard va créer une immense base de données d’un million de livres, via son nouveau projet Institutional Data Initiative.

Des livres tombés dans le domaine public, réunis dans un jeu de données pour l’IA

Ces données pourront être exploitées pour entraîner les prochains modèles d’IA, puisqu’il s’agit d’œuvres tombées dans le domaine public et qui ne sont donc plus protégées par le droit d’auteur. Selon le magazine Wired, ce jeu de données est cinq fois plus volumineux que Books3, un jeu de données que le groupe Meta a utilisé pour entraîner son modèle Llama.

200% Deposit Bonus up to €3,000 180% First Deposit Bonus up to $20,000

Un projet soutenu par Google, Microsoft et OpenAI

Le projet est soutenu par OpenAI et Microsoft, avec la participation de Google, via son initiative Google Books. L’objectif est de mettre tous les acteurs sur le même pied d’égalité, étant donné que le jeu de données sera accessible gratuitement. En effet, si les grandes organisations comme OpenAI ou Google peuvent sortir leurs chéquiers pour accéder à des textes protégés par le droit d’auteur, cela peut être plus compliqué pour une petite startup.

D’autres jeux de données vont arriver

En outre, l’Initiative de données institutionnelles de Harvard ne compte pas s’arrêter là, puisqu’elle collabore déjà avec la Boston Public Library pour numériser des millions d’articles de presse qui sont déjà dans le domaine public. Et d’après Wired, l’université est ouverte à d’autres partenariats.

Sinon, il est à noter qu’il ne s’agit pas de la seule initiative de ce genre. Par exemple, en mars 2024, la plateforme Hugging Face a publié un jeu de données comprenant un total de 500 milliards de mots, avec des textes en anglais, en français, en néerlandais, en espagnol, en allemand et en italien.

Le développement des modèles d’intelligence artificielle générative ne requiert pas seulement des puces et de l’énergie, puisqu’il faut aussi avoir une immense quantité de données d’entraînement
Harvard s’engage dans un nouveau projet consistant à publier un jeu de données de 1 million de livres tombés dans le domaine public. Ces données pourront être exploitées par les laboratoires d’IA
Harvard travaille également sur un autre projet consistant à numériser des millions d’articles de presse.

[ ]

Teilor Stone

Teilor Stone has been a reporter on the news desk since 2013. Before that she wrote about young adolescence and family dynamics for Styles and was the legal affairs correspondent for the Metro desk. Before joining Thesaxon , Teilor Stone worked as a staff writer at the Village Voice and a freelancer for Newsday, The Wall Street Journal, GQ and Mirabella. To get in touch, contact me through my teilor@nizhtimes.com 1-800-268-7116

Next Game Awards 2024 : les 5 choses à retenir des Oscars du jeu vidéo »

Previous « Tennis de table : en coupe d’Europe, les féminines de l’Alliance Nîmes-Montpellier visent les huitièmes de finale

Battle in the Nîmes right, very eloquent young people, stabbed to death… the essential news in the region

L'essentiel de l'information en région chaque soir sur Midilibre.fr - Midi Libre Every evening at…

9 minutes ago

Sciense

“It was like a video game”, “we were hanging on to the seats” NBA teams surprised by driving in Paris

The coaches of Indiana and San Antonio humorously returned to the eventful bus journey between…

9 minutes ago

News

He is the subject of an arrest warrant: sentenced to three years in prison in November, the “king of the scam” Marco Mouly is believed to be in Israel

While he was sentenced on November 12 by the courts to three years in prison…

9 minutes ago

News

Battle in the Nîmes right, very eloquent young people, stabbed to death… the essential news in the region

L'essentiel de l'information en région chaque soir sur Midilibre.fr - Midi Libre Every evening at…

9 minutes ago

Sport

European reference in kayak polo, Montpellier 3M canoe-kayak UC is preparing for the coming season on the Lez

Les féminines du club championnes de France 2024. 3MCKUC Installé à la base nautique de…

1 hour ago

Sport

“You always hate the best, that's very French”: Benoît Paillaugue before Stade Toulousain – MHR

Benoît Paillaugue appeared before the press this Thursday, January 23. As usual, the former scrum-half…

1 hour ago

Harvard va publier 1 million de livres gratuitement : une mine d’or pour l’IA

Des livres tombés dans le domaine public, réunis dans un jeu de données pour l’IA

Un projet soutenu par Google, Microsoft et OpenAI

D’autres jeux de données vont arriver

Recent Posts

Battle in the Nîmes right, very eloquent young people, stabbed to death… the essential news in the region

“It was like a video game”, “we were hanging on to the seats” NBA teams surprised by driving in Paris

He is the subject of an arrest warrant: sentenced to three years in prison in November, the “king of the scam” Marco Mouly is believed to be in Israel

Battle in the Nîmes right, very eloquent young people, stabbed to death… the essential news in the region

European reference in kayak polo, Montpellier 3M canoe-kayak UC is preparing for the coming season on the Lez

“You always hate the best, that's very French”: Benoît Paillaugue before Stade Toulousain – MHR