Harvard annonce une nouvelle initiative qui mettra 1 million de livres gratuits à disposition des acteurs de l’intelligence artificielle pour entraîner leurs modèles. Celui-ci prépare aussi un projet pour scanner des millions d’articles de presse.
0 𝕏
© Paolo Gallo / Shutterstock.com 𝕏
Les modèles d’intelligence artificielle comme ChatGPT ou Gemini ont besoin de beaucoup de ressources informatiques, de beaucoup d’énergie, mais aussi de beaucoup de données d’entraînement. Et pour fournir de nouvelles données qui permettront aux laboratoires d’IA d’entraîner leurs modèles d’intelligence artificielle, Harvard va créer une immense base de données d’un million de livres, via son nouveau projet Institutional Data Initiative.
Ces données pourront être exploitées pour entraîner les prochains modèles d’IA, puisqu’il s’agit d’œuvres tombées dans le domaine public et qui ne sont donc plus protégées par le droit d’auteur. Selon le magazine Wired, ce jeu de données est cinq fois plus volumineux que Books3, un jeu de données que le groupe Meta a utilisé pour entraîner son modèle Llama.
200% Deposit Bonus up to €3,000 180% First Deposit Bonus up to $20,000Le projet est soutenu par OpenAI et Microsoft, avec la participation de Google, via son initiative Google Books. L’objectif est de mettre tous les acteurs sur le même pied d’égalité, étant donné que le jeu de données sera accessible gratuitement. En effet, si les grandes organisations comme OpenAI ou Google peuvent sortir leurs chéquiers pour accéder à des textes protégés par le droit d’auteur, cela peut être plus compliqué pour une petite startup.
En outre, l’Initiative de données institutionnelles de Harvard ne compte pas s’arrêter là, puisqu’elle collabore déjà avec la Boston Public Library pour numériser des millions d’articles de presse qui sont déjà dans le domaine public. Et d’après Wired, l’université est ouverte à d’autres partenariats.
Sinon, il est à noter qu’il ne s’agit pas de la seule initiative de ce genre. Par exemple, en mars 2024, la plateforme Hugging Face a publié un jeu de données comprenant un total de 500 milliards de mots, avec des textes en anglais, en français, en néerlandais, en espagnol, en allemand et en italien.
[ ]
L'essentiel de l'information en région chaque soir sur Midilibre.fr - Midi Libre Every evening at…
The coaches of Indiana and San Antonio humorously returned to the eventful bus journey between…
While he was sentenced on November 12 by the courts to three years in prison…
L'essentiel de l'information en région chaque soir sur Midilibre.fr - Midi Libre Every evening at…
Les féminines du club championnes de France 2024. 3MCKUC Installé à la base nautique de…
Benoît Paillaugue appeared before the press this Thursday, January 23. As usual, the former scrum-half…