MediaTech
Un outil open source conçu pour convertir automatiquement les données publiques brutes des administrations en ressources fiables et prêtes à l’usage pour l’intelligence artificielle.

MediaTech, c’est quoi ?
Un outil open source développé pour transformer des données publiques brutes (issues d’administrations) en données prêtes à l’emploi pour l’intelligence artificielle de manière automatisée.
À quoi ça sert concrètement ?
-
Télécharger automatiquement des jeux de données publics (ex : Service-Public.fr, Légifrance…)
-
Nettoyer, structurer et vectoriser ces données (pour qu’elles soient comprises par une IA ou utiles pour de la recherche sémantique)
-
Les stocker dans une base de données PostgreSQL
-
Les exporter facilement (en fichiers Parquet, vers Hugging Face, Albert API etc.)
Pourquoi c’est utile ?
-
Les données publiques sont souvent difficiles à exploiter directement.
-
MEDIATECH les rend accessibles, normalisées et prêtes pour :
-
des chatbots publics,
-
des moteurs de recherche augmentés (RAG),
-
ou toute application IA dans l’administration.
-
Côté technique :
-
L’exécution des différentes pipelines de données est possible directement depuis le Airflow instancié dans la VM
-
Tout est aussi pilotable en ligne de commande (
mediatech
) ou avec un script (update.sh
) -
Utilise Airflow + Docker + PostgreSQL + Python
-
Compatible avec Hugging Face pour la publication de datasets
-
Met à jour automatiquement ces collections publiques présentes sur Albert API (à venir)
En résumé :
MEDIATECH, c’est l’usine de traitement automatisée des données publiques vectorisées : elle prépare les données et s’assure de leur mise à jour pour qu’on puisse enfin les utiliser intelligemment dans les services publics boostés à l’IA.
À propos
MediaTech est portée par ALLiaNCE.
Ce service numérique est sponsorisé par Direction interministérielle du numérique
- Sécurité : pas encore audité
En quelques dates
Investigation
Construction
3 septembre 2025
Accélération
Transfert
Pérennisé