IA libre et souveraine : mythe ou réalité ?

IA libre et souveraine : mythe ou réalité ? === Atelier proposé pour la conférence LibreABC du 9 septembre 2025 (www.libreabc.ch) * **Pablo Iriarte**, Coordinateur du pôle Informatique documentaire Bibliothèque de l'Université de Genève * Durée : atelier de 90 min. * Niveau : 🌶 débutant Note: Depuis le lancement de ChatGPT fin 2022 nous assistons à un développement fulgurant des IA génératives et à une escalade de la part des géants de la Tech. L’adoption par le grand public de ces outils et son intégration progressive dans toutes les sphères de la vie questionne : existent-il des alternatives plus transparentes et fiables ? des IA génératives plus respectueuses de la protection de données et de la vie privée ? des modèles de langage (LLM) entrainés avec des données vérifiés et respectant le droit d’auteur ? des outils moins gourmands en énergie ? qui peuvent être utilisés localement au niveau personnel ou institutionnel ? Au delà du « open washing », utilisé à tort par certains acteurs, un bon nombre de techniques et outils « open source » ont émergé au tour de l’IA, à commencer par la plateforme Hugging Face, la pléthore de LLMs « ouverts » disponibles gratuitement, ainsi que la palette de logiciels libres associés. L’objectif de cet atelier est de débattre sur tous ces aspects et d’évaluer les possibilités d’appropriation de ces outils et d’une utilisation responsable, individuellement et via l’intégration de ces techniques aux systèmes d’information que nous gérons. --- ## Plan 1. Introduction (30 min) 2. Exercices pratiques (30 min) 3. Débat & conclusion (30 min) --- ## 1. Introduction * $R$évolutions de l'information * IA Open‑source : définition * Open‑washing : l'usage abusif du terme "open" * Biais et "hallucinations" * Code d'éthique * Souveraineté numérique * Maîtrise des données et respect du copyright * Consommation énergetique * L'IA est partout * Les modèles "ouverts" --- ### $R$évolutions de l'information * Avec Gutenberg l'information peut être **réproduite** * Avec les catalogues et bases de données elle peut être **recherchée** * Avec le WWW (et l'OA), elle devient **accessible** * Avec les smartphones elle est **disponible** partout * Avec l'IA elle peut être calculée et **générée** --- ### IA Open‑source : définition (1) Un système d'IA mis à disposition en garantissent les libertés suivantes : * **Utiliser** le système sans demander d'autorisation * **Étudier** le fonctionnement et inspecter ses composants * **Modifier** le système et changer les résultats * **Partager** le système avec ou sans modifications Source https://opensource.org/ai/open-source-ai-definition ---- ### IA Open‑source : définition (2) * Ces libertés s'appliquent à la fois à un système pleinement fonctionnel et aux éléments qui le composent * Une condition préalable à l'exercice de ces libertés est d'**avoir accès à la forme préférée** pour apporter des modifications au système ---- ### IA Open‑source : définition (3) La méthode privilégiée pour apporter des modifications à un système d'apprentissage automatique doit inclure tous les éléments ci-dessous : * Informations sur les données * Code * Paramètres ---- ### IA Open‑source : définition (4) Informations sur les données : informations suffisamment détaillées sur les données utilisées pour former le système afin qu'une personne qualifiée puisse construire un système équivalent. ---- ### IA Open‑source : définition (5) Les informations sur les données doivent inclure : * la description complète y c. les données non partageables * la provenance des données, leur portée et leurs caractéristiques * la manière dont elles ont été obtenues et sélectionnées ---- ### IA Open‑source : définition (6) Les informations sur les données doivent aussi inclure : * les procédures d'étiquetage et les méthodologies de traitement et de filtrage * une liste de toutes les données d'entraînement accessibles au public et où les obtenir * une liste de toutes les données d'entraînement pouvant être obtenues auprès de tiers --- ### Open‑washing : l'usage abusif du terme "open" * Bonnes intentions au départ... (OpenAI) * Pour parler d'un modèle partiellement fermé (Meta et Google) --- ### Biais et "hallucinations" (1) * Dis-moi quels sont tes données et je te dirais quels sont tes biais... ![](https://www.societybyte.swiss/wp-content/uploads/2023/11/iStock-1473925431-1030x580.jpg) https://www.societybyte.swiss/fr/2023/11/14/comment-de-nouveaux-outils-detectent-et-attenuent-les-biais-dans-les-systemes-dia/ ---- ### Biais et "hallucinations" (2) * Du perroquet stochastique aux "hallucinations" Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜; Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610–623. https://doi.org/10.1145/3442188.3445922 ---- ### Biais et "hallucinations" (3) Anthropomorphisme ![](https://dis.unige.ch/pad/uploads/654571d7-80c5-4c2e-99ba-e5c0300d7c80.png) https://www.theverge.com/23604075/ai-chatbots-bing-chatgpt-intelligent-sentient-mirror-test --- ### Code d'éthique > **3. Responsabilités à l'égard de la société** > k) s'engagent à utiliser des technologies de traitement de l'information de manière raisonnée, notamment en veillant à la transparence des algorithmes ou des procédés d'intelligence artificielle ; Source : https://www.bibliosuisse.ch/fr/membres/codedethique --- ### Souveraineté numérique > « la souveraineté numérique est la maîtrise de notre présent et de notre destin tels qu'ils se manifestent et s'orientent par l'usage des technologies et des réseaux informatiques » > https://fr.wikipedia.org/wiki/Souverainet%C3%A9_num%C3%A9rique --- ### Maîtrise des données et respect du copyright (1) > **3. Responsabilités à l'égard de la société** > d) reconnaissent le droit à la propriété intellectuelle des auteur·e·s et autres ayants droit, et s'engagent à le respecter ; Source : https://www.bibliosuisse.ch/fr/membres/codedethique ---- ### Maîtrise des données et respect du copyright (2) Données de ChatGPT (2020) ![](https://dis.unige.ch/pad/uploads/2f42507b-64f5-4d0f-9541-cb4fd7b3f1fd.png) Brown, T. B. [et al] (2020). Language Models are Few-Shot Learners. arXiv. https://doi.org/10.48550/arXiv.2005.14165 ---- ### Maîtrise des données et respect du copyright (3) ![](https://dis.unige.ch/pad/uploads/70d98aea-5d14-47bd-ba74-dcb3ca5b0a6b.png) https://actualitte.com/article/115254/legislation/facebook-admet-s-etre-appuye-sur-des-livres-pirates-pour-former-son-ia --- ### Consommation énergetique > **3. Responsabilités à l'égard de la société** > utilisent, de manière efficiente et respectueuse de l’environnement, les ressources et les moyens mis à leur disposition, dans un esprit de développement durable ; Source : https://www.bibliosuisse.ch/fr/membres/codedethique ---- ### Consommation énergetique (2) > “it’s estimated that training OpenAI’s GPT-4 took over $100 million and consumed 50 gigawatt-hours of energy, enough to power San Francisco for three days.” > [O'Donnell J & Crownhart C, MIT Technology Review 2025](https://www.technologyreview.com/2025/05/20/1116327/ai-energy-usage-climate-footprint-big-tech/) --- ### Consommation énergetique (3) L'énergie nécessaire pour générer une réponse : * Llama 3.1 8B : 114 Joules (ampoule de 100W pendant 1 secconde) * Llama 3.1 405B : 6706 Joules (ampoule de 100W pendant 1 minute ou énergie pour faire un espresso) > Source : [O'Donnell J & Crownhart C, MIT Technology Review 2025](https://www.technologyreview.com/2025/05/20/1116327/ai-energy-usage-climate-footprint-big-tech/) --- ### Consommation énergetique (4) L'énergie nécessaire pour générer une réponse : * ChatGPT: nombre de paramètres secret (estimé à 1T) et reçoit 1 milliard de questions par jour Gemini : nombre de paramètres secret, Google reçoit 15 milliards de queries par jour * Cerveau humain (20B de neurones et 1500T de synapses) : 12W (12 Joules par sec.), 20% de la cosommation du corps > Source : [O'Donnell J & Crownhart C, MIT Technology Review 2025](https://www.technologyreview.com/2025/05/20/1116327/ai-energy-usage-climate-footprint-big-tech/) --- ### L'IA est partout ![https://theresanaiforthat.com](https://dis.unige.ch/pad/uploads/28329b22-9b34-44b1-a936-9dd3e6410a1a.png) https://theresanaiforthat.com --- ### Les modèles ouverts (1) ![https://actu.epfl.ch/news/apertus-un-modele-de-langage-multilingue-ouvert-et/](https://actu.epfl.ch/image/156722/2216x1244.jpg) https://actu.epfl.ch/news/apertus-un-modele-de-langage-multilingue-ouvert-et/ ---- ### Les modèles ouverts (2) | LLM | Données ouverts | Tester | | ------------------ | ------------------------- | ------------------------------------------------------------- | | Apertus | ✅ | [Swiss-AI](https://www.swiss-ai.org/apertus) - [Bac à sable](https://publicai.co/) | | OLMo | ✅ | [Ai2](https://allenai.org/olmo) - [Bac à sable](https://playground.allenai.org/) | | Bloom | ✅ | https://bigscience.huggingface.co/ [Install sur votre ordi] | | Lucie | ✅ | https://lucie.chat/ [Install sur votre ordi] | ---- ### Les modèles "ouverts" (3) | LLM | Données ouverts | Tester | | ------------------ | ------------------------- | ------------------------------------------------------------- | | Llama 3 | ❌ | DuckDuckGo https://duck.ai | | LLaMA 2 | ❌ | HuggingChat https://huggingface.co/blog/llama2#demo | | Claude | ❌ | DuckDuckGo https://duck.ai | ---- ### Les modèles "ouverts" (4) | LLM | Données ouverts | Tester | | ------------------ | ------------------------- | ------------------------------------------------------------- | | Mistral 7B | ❌ | Mistral https://mistral.ai ou DuckDuckGo https://duck.ai | | Gemma | ❌ | gpt4all https://gpt4all.io [Install sur votre ordi] | | DeepSeek | ❌ | DeepSeek https://www.deepseek.com/en | ---- ### Les modèles "ouverts" (5) | LLM | Données ouverts | Tester | | ------------------ | ------------------------- | ------------------------------------------------------------- | | DeepSeek-V2 | ❌ | gpt4all https://gpt4all.io [Install sur votre ordi] | | Phi-4 | ❌ | gpt4all https://gpt4all.io [Install sur votre ordi] | | gpt-oss | ❌ | [OpenAI](https://openai.com/index/introducing-gpt-oss/) https://gpt4all.io [Install sur votre ordi] | Voir ~70 autres https://github.com/eugeneyan/open-llms ---- ### Les modèles "ouverts" (6) ![https://osai-index.eu/the-index](https://dis.unige.ch/pad/uploads/ca93b557-8c6b-4f64-96cd-944c9663f766.png) Source : https://osai-index.eu/the-index --- ## 2. Exercices pratiques 1. Installer d'un modèle en local / utilisation en ligne 2. Choisir un des modèles "ouverts" et remplir la grille de European OS AI Index 3. Test avec des questions pièges 4. Debrief --- ## 3. Débat & conclusion * Les modèles "open source" sont-il réellement libres ? * Quels conditions pour arriver à la souverainneté numérique ? * Comment garantir la transparence de la provenance des données d'entraînement ? * Comment proteger nos données personnels ? * Comment diminuer notre empreinte carbonne liée à l'IA ?