Harvard annonce une nouvelle initiative qui mettra 1 million de livres gratuits à disposition des acteurs de l’intelligence artificielle pour entraîner leurs modèles. Celui-ci prépare aussi un projet pour scanner des millions d’articles de presse.
0 𝕏
© Paolo Gallo / Shutterstock.com 𝕏
Les modèles d’intelligence artificielle comme ChatGPT ou Gemini ont besoin de beaucoup de ressources informatiques, de beaucoup d’énergie, mais aussi de beaucoup de données d’entraînement. Et pour fournir de nouvelles données qui permettront aux laboratoires d’IA d’entraîner leurs modèles d’intelligence artificielle, Harvard va créer une immense base de données d’un million de livres, via son nouveau projet Institutional Data Initiative.
Ces données pourront être exploitées pour entraîner les prochains modèles d’IA, puisqu’il s’agit d’œuvres tombées dans le domaine public et qui ne sont donc plus protégées par le droit d’auteur. Selon le magazine Wired, ce jeu de données est cinq fois plus volumineux que Books3, un jeu de données que le groupe Meta a utilisé pour entraîner son modèle Llama.
200% Deposit Bonus up to €3,000 180% First Deposit Bonus up to $20,000Le projet est soutenu par OpenAI et Microsoft, avec la participation de Google, via son initiative Google Books. L’objectif est de mettre tous les acteurs sur le même pied d’égalité, étant donné que le jeu de données sera accessible gratuitement. En effet, si les grandes organisations comme OpenAI ou Google peuvent sortir leurs chéquiers pour accéder à des textes protégés par le droit d’auteur, cela peut être plus compliqué pour une petite startup.
En outre, l’Initiative de données institutionnelles de Harvard ne compte pas s’arrêter là, puisqu’elle collabore déjà avec la Boston Public Library pour numériser des millions d’articles de presse qui sont déjà dans le domaine public. Et d’après Wired, l’université est ouverte à d’autres partenariats.
Sinon, il est à noter qu’il ne s’agit pas de la seule initiative de ce genre. Par exemple, en mars 2024, la plateforme Hugging Face a publié un jeu de données comprenant un total de 500 milliards de mots, avec des textes en anglais, en français, en néerlandais, en espagnol, en allemand et en italien.
[ ]
La justice a classé la première plainte contre l’imam. Une deuxième a été déposée par…
Audience de comparutions immédiates, ce lundi 23 décembre, au tribunal d'Alès. MIDI LIBRE - CHARLES…
Tous les soirs à 20 h 30, retrouvez l’essentiel de l’actualité en région sur midilibre.fr. Tous les…
Morenito de Aranda réalisera le premier solo de l'histoire de Vic-Fezensac. Midi Libre - Philippe…
Une opération de curage sur la RD 286, à La Grand-Combe, avait été notamment nécessaire.…
Kindly feminist logs at Lume in the Gares district. Midi Libre - CODO It's been…