France Télévisions mise sur une adoption pragmatique de l’IA générative

France Télévisions se concentre sur un nombre limité de cas d’usage de l’IA générative voués à être déployés à l’échelle du groupe. À cela s’ajoute des projets plus innovants spécifiques aux métiers de l’information, comme le marquage de reportages et l’identification des signaux faibles pouvant renseigner sur la naissance de phénomènes sociaux d’envergure.

Chez France Télévisions, l’adoption de l’IA ne date pas d’hier. Elle a été formellement structurée à partir de 2019 avec la création du département Data et Intelligence Artificielle (daIA).

En 2021, le service audiovisuel public disait récolter les premiers fruits de ce travail. Il s’agissait en premier lieu de traiter les métadonnées des programmes diffusés par le groupe afin d’en faciliter la gestion, la promotion et le découpage publicitaire.

Le speech to text au service des téléspectateurs et des journalistes

La même année, France Télévisions travaillait sur le sous-titrage en direct. Ce système a été mis en place à la fin de l’année 2024 sur France Info TV en OTT (en anglais : over-the-top service), à savoir depuis l’application France TV ou le site Web du groupe. « Nous avons deux pistes de sous-titrages. Celle qui nous intéresse ici s’appelle “français automatique”. Pourquoi ce nom ? Parce que des personnes sous-titrent manuellement les contenus six heures par jour », explique Frédéric Brochard, directeur des technologies et des systèmes d’information de France Télévisions.

« Nous n’avions pas le budget pour étendre ce sous-titrage manuel. [Avec l’IA] nous avons pu ajouter à un coût très raisonnable 12 heures de sous-titrage supplémentaire, ce qui est une avancée importante pour les personnes sourdes et malentendantes ».

L’indisponibilité du service sur la TNT s’explique par le fait que ce système automatique nécessite un délai de quelques secondes pour effectuer le traitement. « De la sorte, en OTT, la voix et le sous-titre sont quasiment synchrones », assure le DSI.

Ici, France Télévisions s’appuie sur la technologie de la startup britannique SpeechMatics, spécialisée dans la reconnaissance vocale et la transcription. « Nous l’avons vue faire des progrès considérables », assure Frédéric Brochard. Le groupe a bénéficié de la coopération avec la société qui a elle-même profité des améliorations de la technologie ASR (Automatic Speech Recognition) ces dernières années, sous l’impulsion des travaux de Meta et OpenAI.

En parlant d’OpenAI, le DSI de France Télévisions considère que le modèle Whisper n’est pas particulièrement adapté au direct. En revanche, l’éditeur Dalet a incorporé le modèle de Speech to Text dans l’outil de montage des rédactions du groupe.

« Nous avions déjà mis en place une solution de transcript de rushes il y a trois ans, mais c’était déceptif », relate Frédéric Brochard. « Désormais, lorsque les journalistes reviennent de leur tournage avec des rushes, ils les ingèrent à l’intérieur de la plateforme Dalet. Et à ce moment-là, ils peuvent déclencher la transcription », poursuit-il. « Une fois que vous avez la transcription, si par exemple quelqu’un a parlé de course de voile dans un interview, vous tapez “course de voile” et cela vous amène à l’endroit sur la piste audio et vidéo ».

Un gain de temps pour les journalistes qui peuvent sélectionner et effectuer un pré-montage des rushes avant de fournir les pistes aux monteurs.

MedIAGen, l’assistant IA privé de France Télévisions

L’autre projet phare du moment se nomme MedIAGen. Si la charte des journalistes de France Télévisions interdit la rédaction et la production de contenus avec l’IA générative, la technologie peut être utilisée pour accélérer les recherches d’informations. « Nous avons constaté que les salariés de l’entreprise effectuent 300 000 visites par mois sur des IA publiques », affirme Frédéric Brochard. « Cela peut être dangereux ».

« Nous avons constaté que les salariés de l’entreprise effectuent 300 000 visites par mois sur des IA publiques. Cela peut être dangereux ».
Frédéric BrochardDirecteur des technologies et des systèmes d’information, France Télévisions

L’assistant privé hébergé sur les tenants cloud de France Télévisions permet d’appeler différents LLM, dont ceux d’OpenAI, de Google, et de Mistral pour répondre à des questions sur des documents longs. Une bibliothèque de prompts accompagne la disponibilité de cet équivalent privé d’un ChatGPT.

« Les journalistes peuvent y charger des documents de plusieurs centaines de pages de manière sécurisée et ceux-là alimentent un système RAG », décrit le DSI.  

MedIAGen cible en premier lieu les journalistes, mais tous les employés bénéficieront de cet assistant. Actuellement, 1 200 personnes ont accès à l’outil. Les 9 000 salariés devraient être équipés d’ici le mois d’octobre.

En sus de MedIAGen pour l’ensemble des collaborateurs et de la technologie speech to text pour les journalistes, documentaristes et monteurs, les ressources humaines ont participé au déploiement de RAIPONSE, un chabot RH intégré dans Teams avec l’aide de Witivio et Expertime. « Je peux directement le questionner sur Teams afin de connaître le nombre de jours de congés qu’il me reste ou toute autre question liée à mon statut dans l’entreprise », illustre Romuald Rat, directeur délégué TechLab chez France Télévisions.

Les équipes IT de France Télévisions auront également le droit à un système RAG pour chercher des informations concernant les procédures et les moyens de résoudre de potentiels problèmes connus. Celui-ci devrait être disponible à partir du mois de mai.

En outre, France Télévisions prépare un « tronc commun de formations » à l’échelle du groupe.

« Nous ne croyons pas que l’IA générative modifie tout du jour au lendemain. En revanche, elle représente un changement en profondeur au cours des dix prochaines années ».
Frédéric BrochardDirecteur des technologies et des systèmes d’information, France Télévisions

« C’est un changement de taille par rapport à 2021. Nous ne croyons pas que l’IA générative modifie tout du jour au lendemain. En revanche, elle représente un changement en profondeur au cours des dix prochaines années. C’est très important d’embarquer tous les salariés dans ce train », souligne Frédéric Brochard. « Nous formons tout le monde avec des modules génériques. Et, évidemment, nous proposons des modules spécifiques en fonction des métiers et des outils utilisés ».

Le tronc commun de formation est basé sur sept modules en cours de déploiement. Ils devraient tous être disponibles à la fin du mois de mai. Un module sera consacré aux méthodes un peu plus avancées de prompt engineering.

En parallèle, l’université France Télévisions prépare trois autres formations plus longues.

« Cet accompagnement est fondamental », considère Romuald Rat. « Les outils de type ChatGPT représentent pour 90 % des gens leur premier accès volontaire à l’IA. Si les salariés appréhendent bien la technologie, cela sera plus simple pour eux ».

Marquer les contenus vérifiés pour lutter contre la désinformation

Ces enjeux sont finalement communs à bon nombre d’entreprises. En revanche, en tant que groupe média, il doit sensibiliser et prendre des mesures contre les deep fakes. De fait, les médias du groupe peuvent voir leur JT ou leurs articles détournés à différentes fins, dont la diffusion de fausses informations et d’éléments de propagande.

« Il y a une sensibilisation aux deep fakes, mais surtout il y a un travail autour du standard C2PA (Coalition for Content Provenance and Authenticity) », indique le DSI.

C2PA est une coalition créée en 2021 par Microsoft, Adobe, soutenu par ARM, BBC, Intel et Trupic.

Depuis, des acteurs comme Amazon, Google, Meta, OpenAI, Sony et des groupes média, dont France TV ou encore Financial Times ont adhéré au projet.

La coalition C2PA développe un standard ouvert afin de tracer l’authenticité et la provenance de différents types de média.

« En 2021, nous pensions encore que nous allions réussir, avec l’aide de partenaires technologiques, à débusquer les fakes. Le temps passant, nous nous rendons compte que c’est le sommet d’un Everest probablement inatteignable ».
Frédéric BrochardDirecteur des technologies et des systèmes d’information, France Télévisions

« En 2021, nous pensions encore que nous allions réussir, avec l’aide de partenaires technologiques, à débusquer les fakes », raconte Frédéric Brochard. « Le temps passant, nous nous rendons compte que c’est le sommet d’un Everest probablement inatteignable. Les technologies sont de plus en plus performantes : il est de plus en plus difficile de déceler le vrai du faux. Au fond, ce n’était pas une bonne approche ».

Avec le standard C2PA, il s’agit plutôt de prouver l’authenticité et la provenance des contenus. « Les mots sont importants : la coalition entend assurer la provenance et l’authenticité d’un contenu. Cela veut dire qu’une image ou vidéo marquée peut être générée par une IA et identifiée comme telle », précise le DSI.

C’est d’ailleurs la raison pour laquelle Adobe et OpenAI participent au projet C2PA.

À l’inverse, France Télévisions veut assurer l’authenticité et la provenance des productions de ses journalistes.

« Nous allons prendre une image ou une vidéo et y apposer ce que la coalition nomme un manifeste qui chez nous se matérialise sous la forme d’un macaron cliquable », explique Frédéric Brossard. « Le macaron vous dit que cette vidéo a été tournée par France Télévisions à telle date et que nous en sommes bien les créateurs. Si vous essayez de la manipuler, le manifeste disparaît ».

Le groupe média a travaillé avec un autre membre de la coalition, Dalet, pour mettre en place ce marquage numérique (qui n’est pas un watermark ou un filigrane invisible).

Dalet a publiquement diffusé le compte rendu d’un POC fait avec France Télévisions consacré au marquage du « Journal de 20 h » de France 2 et de ses reportages.

Durant ce POC, après validation éditoriale, les fichiers finaux des reportages montés et leurs métadonnées ont été automatiquement signés à l’aide d’une technologie de chiffrement comprise dans le standard C2PA.

Le manifeste est un fichier JSON et les données essentielles correspondent à un petit modèle de données conçu avec l’aide des journalistes.

Il permet d’afficher le nom du propriétaire du certificat (France Télévisions), du producteur (le 20 h de France 2), la date de diffusion, le titre du reportage, les noms des journalistes, les références de droit d’auteur et un bouton de contact.

 Or, les métadonnées sont généralement fragmentées entre les différents outils de la chaîne de production.

Cela a demandé d’adapter les outils de montage et de gestion des médias afin de réunir les bonnes métadonnées ainsi que d’adapter un lecteur vidéo pouvant afficher le fameux macaron. Pour l’instant, les acteurs du marché n’ont pas standardisé l’implémentation de C2PA. Il est toutefois partiellement pris en charge par YouTube. Dalet rapporte également différentes étapes pour assurer la validité des certificats.

Pour France Télévisions, l’implémentation à l’échelle de C2PA réclame de revoir sa plateforme interne de gestion des reportages, mais aussi les applications Web, TV et mobile de France Info, principale chaîne d’informations du groupe. Un travail en cours d’évaluation. D’autres contenus seront marqués, dont les JT, les contenus consacrés aux réseaux sociaux ou encore les replays de contenus préalablement diffusés en direct.

« Nous allons essayer de déployer ce dispositif dans les mois à venir », annonce Frédéric Brochard. « En tant que service public, notre vocation est d’être pionnier sur ces technologies de marquage. Le lien de confiance qu’on a avec les Français ne peut être que renforcé par l’usage de ces technologies. Et nous invitons d’ailleurs l’ensemble du marché à suivre cette démarche ».

Identifier les signaux faibles des phénomènes sociaux avec l’IA

Avec Patrick Fasso, directeur de la technique et des systèmes d’information de Radio France, Frédéric Brochard a participé à la création d’un club des directions technologiques de l’audiovisuel public. Selon Romuald Rat, les membres de ce club se sont réparti les cas d’usage et les types de technologie d’IA afin de dénicher les produits technologiques les plus pertinents pour leurs besoins respectifs.

Avec Radio France, la DSI de France Télévisions travaille sur un projet consistant à détecter à l’aide d’une IA les « signaux faibles » d’une tendance ou d’un mouvement social de fond.

« Quand l’on revoit le film des gilets jaunes, nous avons été surpris par l’ampleur du mouvement et je pense que les grandes réactions nationales partagent ce constat », évoque Frédéric Brochard. « Nous avons 24 éditions régionales, nous produisons énormément de contenus pour les sessions quotidiennes Ici 12-13 et 19-20. Ce n’est pas humainement possible de visionner tous les sujets. Il est donc difficile d’en tirer des corrélations afin d’identifier un phénomène social », poursuit-il. « Ici, il ne s’agit pas de remplacer les femmes et les hommes, mais d’utiliser l’IA pour effectuer une tâche qu’ils ne sont pas capables de faire à la même échelle ».

Une approche dite pragmatique, utile et responsable

En interne, ces projets d’IA s’inscrivent dans l’approche « PURE » : Pragmatisme, Utile, et REsponsable. 

« Nous ne voulons pas faire décoller une fusée », image Romuald Rat. « Nous ne voulons pas faire quelque chose d’époustouflant qui ne concerne qu’un nombre restreint de personnes ».

« Nous voulons nous adresser au plus grand nombre : le speech to text est utilisé par 700 personnes et sera mis à disposition de plus de 3 000 collaborateurs à l’été », ajoute-t-il. « Nous n’avons pas beaucoup de cas d’usage, mais ils construisent quelque chose ».

Outre le travail sur la véracité de l’information, France Télévisions tente de limiter l’impact environnemental de ses déploiements. Cela passe principalement par des compromis concernant la puissance de calcul, évaluée au temps nécessité par au traitement d’une tâche, tandis que les serveurs cloud utilisés sont situés en France ou en Europe. En clair, le service doit rester utile, même s’il n’est pas parfait. Dans un même temps, la reprise de contrôle sur le Shadow AI doit aussi éviter la transmission de fichiers parfois volumineux vers des services dont le groupe ignore l’empreinte carbone. Enfin, un travail est en cours pour évaluer les émissions carbone des différents services utilisés par le groupe. « C’est une véritable problématique pour toutes les directions informatiques : je sais combien cela coûte, mais je ne connais pas l’impact carbone d’une heure de speech to text à partir d’une vidéo », illustre Romuald Rat.

Pour approfondir sur IA appliquée, GenAI, IA infusée