Présentation du questionnaire et entretiens réalisés. Démarche de science ouverte . Liste de logiciels Open Source. Bibliographie.
Le questionnaire vise à mieux comprendre les pratiques de publication des codes sources au sein de l’ESR et à définir les freins et les besoins associés à leur partage. Il était composé de 33 questions, dont 15 optionnelles (recensement d’un projet).
Le questionnaire a été diffusé sur une période très courte (du 3 au 20 septembre) et a pu recueillir dans ce laps de temps plus de 223 réponses complètes et 457 réponses incomplètes (c’est à dire des réponses au questionnaire interrompues avant soumission finale). L’analyse se porte sur les réponses complètes, c’est-à-dire soumises, mais en intégrant néanmoins des informations supplémentaires issues des réponses dites incomplètes.
L’analyse du questionnaire a été complétée par la tenue d’entretiens avec différentes personnes impliquées dans la publication de codes sources et de profils variés (voir en annexe la liste des personnes interviewées).
La partie optionnelle de recensement de projets a été complétée par 24 personnes et pourra alimenter dans un second temps l’initiative http://code.etalab.gouv.fr.
Le questionnaire a été réalisé via limesurvey. Les données complètes ont été exportées en csv et anonymisées (suppression des colonnes dont les informations permettent de retrouver les personnes ayant répondu au questionnaire). L’analyse des données et l’obtention des graphiques ont été réalisé avec le langage de programmation Python. Un Jupyter Notebook est mis à disposition sur framagit https://framagit.org/inno3/open-source-esr.
Le questionnaire a permis de recenser 24 projets open source publiés ou qui auraient vocation à l’être.
Parmi ces projets, on compte 9 organismes de l’ESR n’ayant pas encore ouvert de compte sur code.etalab.gouv.fr pour y déposer les codes sources des logiciels libres qu’ils produisent.
Nom du groupe | Plateforme | Dépôts url | Nombre de dépôts | Info url | Description |
---|---|---|---|---|---|
GNU Data Language / Observatoire de Paris et CNRS | github | https://github.com/gnudatalanguage | 4 | - | GDL is a domain-specific programming language and a data analysis environment. |
Group of neuroanatomy | github | 30 | Neuroanatomy applied and theoretical | ||
Ecole Nationale d’Ingénieurs de Tarbes (ENIT) | Prowhy.org | http://www.prowhy.org/redmine/projects/prowhy/repository | 1 | http://www.prowhy.org/redmine/projects/prowhy | ProWhy est un logiciel libre et gratuit, support des processus de résolution de problèmes en entreprise. |
LIMA / CEA LIST | github | https://github.com/aymara | 23 | https://aymara.github.io/lima/ | A multilingual Natural Language Processing (NLP) suite |
CNVMap / INRAE | sourcesup | https://sourcesup.renater.fr/projects/cnvmap | ? | http://moulon.inrae.fr/news/2020/01/cnvmap-ou-le-recyclage-de-donn%C3%A9es-pour-localiser-les-duplications-dans-les-g%C3%A9nomes/ | CNVmap (logiciel libre sous forme d'un paquet R disponible à tous) cartographier des variants structuraux à partir de données servant à la construction de cartes génétiques |
hackinscience | framagit | https://framagit.org/hackinscience | 3 | https://www.hackinscience.org/about/ | hackinscience.org source code repository |
Brian / INSERM, Sorbonne, Imperial College London | github | https://github.com/brian-team | 23 | https://briansimulator.org/ | Brian is a free, open source simulator for spiking neural networks. |
LMGC90 / CNRS-Université de Montpellier | gitlab | https://git-xen.lmgc.univ-montp2.fr/lmgc90/lmgc90_user | 1 | https://hal.archives-ouvertes.fr/hal-01899254/document | Open platform dedicated to the modeling of large collections of interacting objects (2D/3D). |
Hacketafac / Université de Bordeaux | sourcesup | https://sourcesup.renater.fr/projects/hacketafac | 1 | http://hacketafac.u-bordeaux.fr/ | Thème WordPress développé pour l'organisation du concours d'innovation étudiant de l'université de Bordeaux "Hacke ta fac - Transforme ton campus", sur la base du thème Hackathon conçu par Phuse |
Bien que le code du Scikit-learn-MOOC soit déjà répertorié sur code.etalab.gouv par l’INRIA, le code source de Scikit-learn ne s’y trouve pas encore :
Scikit-learn / INRIA | github | https://github.com/scikit-learn | 9 | https://scikit-learn.org/stable/ | machine learning in Python |
Plusieurs dépôts de code recensés par le questionnaire sont hébergés sur des comptes personnels.
code.etalab.gouv.fr étant destiné au référencement des comptes institutionnels, ces projets ne peuvent être répertoriés malgré leur rattachement à l’ESR. Cela montre une des difficultés pour le suivi des productions logicielles de l’ESR.
Ci-dessous le tableau de 4 projets concernés :
Nom du projet/orga | Plateforme | Dépôts url | Nombre de dépôts | Info url | Description |
---|---|---|---|---|---|
FedilabTube / Fedilab | Framagit | https://framagit.org/tom79/fedilab-tube | 2 | - | This project groups two different apps. TubeAcad, a Peertube Android app for French academic authorities. All is in French. Its use is limited to some instances. The other app is TubeLab a Peertube Android app working for all instances. |
PANDORAE / médialab Sciences Po | github | https://github.com/Guillaume-Levrier/PANDORAE | 1 | https://guillaume-levrier.github.io/PANDORAE/ | A data retrieval & exploration protocol designed to investigate science and policy processes |
pecebl / CNRS | github | https://github.com/looninho/pecebl | 1 | - | eBeam Lithography simulation and Proximity Effect Correction |
OnLine Analysis Form (OLAF) / Institut Charles Gerhardt Montpellier (ICGM) et Université de Montpellier | github | - | https://lmp.edu.umontpellier.fr/2020/09/02/demandes-danalyses/ | Logiciel de traitement de demandes d’analyses du laboratoire de mesures physiques de l’université de Montpellier |
Le questionnaire a permis de repérer d’autres projets open source développés au sein de l’ESR déjà publiés mais non-répertoriés sur code.etalab.gouv.fr même si les organismes de rattachements y sont déjà présents :
Nom du projet/orga | Plateforme | Dépôts url | Nombre de dépôts | Info url | Description |
---|---|---|---|---|---|
pm2 / INRIA | INRIA forge | 5 | PM2 is a low level generic runtime system which integrates multithreading management (Marcel) and a high performance multi-cluster communication library (Madeleine). | ||
MAS4Data / SMAC (Univ. Lille et INRIA) | github | 1 | https://github.com/cristal-smac | Multiagent systems for processing very large datasets | |
ScaIA / SMAC (Univ. Lille et INRIA) | github | 1 | https://github.com/cristal-smac | library of algorithms which aim at forming coalitions of individuals around some activities | |
SageMath / UPEM | sagemath | 1 | https://www.sagemath.org/index.html | logiciel libre de mathématiques sous licence GPL. Il combine la puissance de nombreux programmes libres dans une interface commune basée sur le langage de programmation Python. | |
PlaTon / UPEM | github | https://github.com/PremierLangage | 22 | PLaTon est une plateforme moderne d’exercices multi-matières avec auto-correction | |
Gaspard2 / Univ. Lille et INRIA | INRIA forge | - | - | Integrated Development Environment (IDE) for SoC visual co-modeling. It allows modeling, simulation and code generation of SoC applications and hardware architectures. | |
N2S3 / Univ. Lille | Sourcesup | https://sourcesup.renater.fr/projects/n2s3/ | 5 | https://sourcesup.renater.fr/wiki/n2s3/start | Neural Network Scalable Spiking Simulator |
Projets développés au sein de l’ESR mais hébergés sur des comptes personnels :
Nom du projet/orga | Plateforme | Dépôts url | Nombre de dépôts | Info url | Description |
---|---|---|---|---|---|
Ponio / Univ. Rennes 1 | github | 1 | Python library for study of numerical integrators for solve linear transport equation | ||
MetaShARK / MNHN | github | 1 | https://metashark.pndb.fr/ | MetaShARK (Metadata Shiny Automated Resource & Knowledge) is a R shiny app allowing the user to get information about Ecological Metadata Language and to fill in metadata for datasets according to this standard. |
Par ailleurs, le projet PLUME (20062013) fourni 406 fiches descriptives et validées de logiciels dont 95 logiciels issus de l’Enseignement Supérieur et de la Recherche.1
Outils |
---|
SciKitLearn : Il s’agit d’une bibliothèque Python spécialisée dans le cas du machine learning. Python langage de programmation open source est employé largement dans le milieu académique et plus largement des data science, c’est-à-dire tout le site entreprenarial de la donnée et de sa gestion. SciKitLearn est donc une librairie clef dans le développement des travaux d’IA. |
GarganText : Logiciel libre pour l’exploration interactive de grands corpus numériques. Il est développé à l’ISC-PIF par l’équipe “Digital Humanities” en partenariat avec plusieurs institutions et projets. |
Gephi : Logiciel pour visualiser, analyser et explorer en temps réel les graphes (aussi appelés réseaux ou données relationnelles) de tout type. Sorte de Photoshop pour les réseaux, l’utilisateur interagit avec la représentation graphique, manipule les structures, formes et couleurs pour en révéler les propriétés cachées via des saillances visuelles. |
OpenFLUID (Software environment for modelling Fluxes In Landscapes) : plate-forme logicielle de simulation de flux dans le paysage. Elle permet la construction de modèles et l’exécution de simulations. Dédiée à la modélisation des flux dans les paysages complexes, OpenFLUID est basé sur une représentation topologique de l’espace sous forme d’unités spatiales connectées et une modélisation des processus basée sur un couplage de simulateurs. |
ORFEOToolBox : logiciel de traitement de données de télédétection impulsé par le CNES en 2002. Le projet a évolué avec un tournant important en 2006 concernant les modalités de gouvernance. Pour faire vivre le projet et faciliter l’enrichissement par des contributions externes du logiciel, les membres du projet ont noté l’intérêt de détailler les processus de prise de décision et de tenir au courant des choix émis dans un souci de transparence et d’équité entre l’ensemble des contributeurs. C’est ainsi qu’une gouvernance ouverte s’est développée avec la constitution d’un comité directeur au sein du projet, mais aussi le rattachement à la fondation OSGeo. Un tel rattachement s’est traduit par un mentoring, bénéfique à la professionnalisation du projet, et à sa diffusion accrue2. |
Infrastructures spécifiques à l’ESR |
---|
OpendreamKit : Infrastructure de recherche qui vise à créer et renforcer des environnements de recherche virtuels. Développée dans un premier temps pour soutenir la recherche en mathématique, cette e-infrastructure peut s’adapter à de nombreux autres domaines de recherche. Ce projet coordonné par des scientifiques du Laboratoire de Recherche en Informatique - LRI (UPSud/CNRS) a été financé par l’Europe dans le cadre d’un programme H2020 |
FUN-MOOC : Plateforme qui offre plus de 540 cours conçus par des professeurs d’universités et d’écoles françaises et par leurs partenaires académiques internationaux. Cette plateforme a été lancée par le Ministère de l’Enseignement supérieur et de la Recherche en octobre 2013, cette initiative vise à accompagner le développement des formations tirant pleinement profit du levier numérique et accessibles au plus grand nombre. Elle se base sur le code source de la plateforme nord-américaine EdX. FUN est aujourd’hui un GIP (groupement d’intérêt public). [à ajouter partie analyse de FUN les manquements etc. entretien Laurent David] |
HumaNum : Très grande infrastructure de recherche (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines et sociales. Elle met à disposition un ensemble de services pour le stockage, le traitement, l’exposition, le signalement, la diffusion et la conservation sur le long terme des données numériques de la recherche. HumaNum propose par exemple plusieurs services basés sur des instances open source (Gitlab, QGIS) |
ISIA (Information System for Infrastructure Administration of AnaEE‐ France) : dans le cadre d’AnaEE France, le CNRS a développé une plate-forme ISIA (Information System for Infrastructure Administration of AnaEE‐ France) diffusée publiquement sous une licence Libre et Open Source. |
Infrastructure générique |
---|
Les compilateurs (not. gcc) & Git sont des composants essentiels de la recherche aujourd’hui. Disponibles pour tout le monde, ces outils sont un véritable levier de productivité. "Il est nécessaire de financer les projets d’infrastructure". Si on veut baser une stratégie souveraine et pérenne autour des LL, il faut être capable d’identifier les projets qui ont un impact substantiel sur l’activité de recherche. (François Pellegrini) |
Autres |
---|
Scenari Plateforme : Scenari est un environnement de conception open source de solutions éditoriales et documentaires métiers pour créer et structurer des contenus, les publier sur différents canaux et les exploiter. Il a été conçu au sein de l’UTC et est aujourd’hui maintenu au sein d’une structure associative soutenue par une SpinOff de l’UTC (Kelis). |
VidéoLAN (VLC) : développé initialement au sein du bureau des étudiants de l’École Centrale Paris |
CHOCO – Solveur de programmation par contraintes Choco (bibliothèque open source, librairie Java) |
GPAC – Plateforme open source de création, distribution et lecture de contenus multimédias interactifs <https://www.imt.fr/Item-portfolio/gpac-plateforme-open-source-de-creation-distribution-et-lecture-de-contenus-multimedias-interactifs/> |
OpenAir – Plateforme de développement open source hardware/software sur les communications radio numérique <https://www.imt.fr/Item-portfolio/openair-plateforme-de-developpement-open-source-hardware-software-sur-les-communications-radio-numerique/> |
Gama Plateform |
L’étude s’appuie par ailleurs sur des informations collectées auprès de personnes provenant de différentes organisations attachées à l’enseignement supérieur et à la recherche : MESRI, CEREMA, INSHS, CNRS, INRAE, AMUE, Université de Bordeaux, Software Heritage, , Médialab (SciencesPo Paris), CNRM, CEA , URFIST, HackinScience, CNES, une SATT . s.
Listes des personnes interrogées ou ayant contribué à la réalisation du rapport
Voici la liste des personnes interrogées dont les propos ont été cités et ayant validé la mention de leur nom dans le rapport.
Pascal Berteaud, directeur général du CEREMA.
Antoine Blanchard, responsable du bureau impulsion, service Innovation. Université de Bordeaux.
Laurent David, ancien dévelopeur au sein du GIP FUN (France Université Numérique) de 2014-2017 et actuellement président de CALL Learning.
Roberto Di Cosmo, professeur d’informatique, détaché chez l’INRIA, membre du laboratoire PPS (IRIF/Université de Paris) et directeur de l’initiative Software Heritage.
Konrad Hinsen, directeur de recherche au CNRS (Centre de Biophysique Moléculaire, Orléans.
Julien Palard, co-fondateur de Hackinscience, développeur et formateur indépendant Python.
Guillaume Plique, ingénieur de recherche au Medialab (SciencePo Paris).
David Rongeat, responsable numérique AMUE (Agence de Mutualisation des Universités et Établissements) et Bertarnd Mocquet, expert numérique AMUE.
Ce rapport a été relu et annoté par Bastien Guerry (Etalab/DINUM) en premier lieu. Par la suite, il a fait également l’objet d’une relecture attentive de Lionel Maurel, Roberto Di Cosmo et Teresa Gomez-Diaz que nous remercions pour leurs précieux commentaires.
Baudin Véronique. « Pourquoi diffuser un logiciel développé dans un laboratoire ou une université avec une licence libre ? | Ressource PLUME ». Text. PLUME, 140909. https://projet-plume.org/ressource/pourquoi-diffuser-en-libre#1.
Broca, Sébastien. Utopie du logiciel libre. Neuvy-en-Champagne: Le Passager Clandestin, 2013.
Collège « logiciels libres et open source » (CoSO). « Note d’opportunité sur la valorisation des logiciels issus de la recherche ». Ouvrir la Science (CoSO), 2019. https://www.ouvrirlascience.fr/note-dopportunite-sur-la-valorisation-des-logiciels-issus-de-la-recherche.
Di Cosmo, Roberto. « Archiving and Referencing Source Code with Software Heritage ». In Mathematical Software – ICMS 2020, édité par Anna Maria Bigatti, Jacques Carette, James H. Davenport, Michael Joswig, et Timo de Wolff, 362‑73. Lecture Notes in Computer Science. Cham: Springer International Publishing, 2020. https://doi.org/10.1007/978-3-030-52200-1_36.
Eghbal, Nadia. Roads and Bridges : The Unseen Labor Behind Our Digital Infrastructure. Ford Foundation, 2016.
Flichy, Patrice. « Internet ou la communauté scientifique idéale ». Réseaux 17, no 97 (1999): 77‑120. https://doi.org/10.3406/reso.1999.2168.
Gomez-Diaz, Teresa, et Tomas Recio. « On the Evaluation of Research Software: The CDUR Procedure ». F1000Research 8 (26 novembre 2019): 1353. https://doi.org/10.12688/f1000research.19994.2.
Gomez-Diaz, Teresa, et Genevieve Romier. « Research Software Management Plan template, V3.2 », avril 2018. https://hal.archives-ouvertes.fr/hal-01802565.
Gruson-Daniel, Célya. « Chapitre 1 – Open : Les Différentes Facettes Du ‘Numérique’ ». In Numérique et Régime Français Des Savoirs En~action : L’open En Sciences. Le Cas de La Consultation République Numérique (2015), 2018. https://phd-cgd.pubpub.org/pub/facettes-numerique-fr.
Gruson-Daniel Célya. « Numérique et régime français des savoirs en~action : l’open en sciences. Le cas de la consultation République numérique (2015) ». Université Paris Descartes, 2018. https://doi.org/10.5281/zenodo.1491292.
Gruson-Daniel Célya, et Benjamin Jean. « Conjuguer open source et science ouverte : opportunités et leviers d’action ». Inno3, 2019. https://inno3.fr/actualite/conjuguer-open-source-et-science-ouverte-opportunites-et-leviers-daction.
Hinsen, Konrad, et Nicolas P. Rougier. « ReScience ». In Open science, transparence et évaluation. Perspectives et enjeux pour les chercheurs. Bordeaux, France: URFIST Bordeaux, 2017. https://hal.archives-ouvertes.fr/hal-01573262.
Meyer, Morgan, et Susan Molyneux-Hodgson. « « Communautés épistémiques » : une notion utile pour théoriser les collectifs en sciences ? » Terrains travaux n° 18, no 1 (18 août 2011): 141‑54.
Neylon Cameron. « Principles for Open Scholarly Infrastructures », 2015. https://cameronneylon.net/blog/principles-for-open-scholarly-infrastructures/.
Perkel, Jeffrey M. « Challenge to Scientists: Does Your Ten-Year-Old Code Still Run? » Nature 584, no 7822 (24 août 2020): 656‑58. https://doi.org/10.1038/d41586-020-02462-7.
ReScience/ten-years. 2019. Reprint, ReScience organization, 2020. https://github.com/ReScience/ten-years.
W Maxwell, John, Erik Hanson, Leena Desai, Carmen Tiampo, Kim O’Donnell, Avvai Ketheeswaran, Melody Sun, Emma Walter, et Ellen Michelle. Mind the Gap: A Landscape Analysis of Open Source Publishing Tools and Platforms. 1re éd. PubPub, 2019. https://doi.org/10.21428/6bc8b38c.2e2f6c3f.