#21

Frédéric Filloux

Qualité de l’info et machine learning : le pari de Deepnews.ai

19/12/2019

Newsletter, intelligence artificielle, sélection et curation qualitative dans un monde d’informations devenu obèse… Ce sont ces trois paramètres que Frédéric Filloux tente de réconcilier avec Deepnews Digest. Journaliste et éditeur, devenu entrepreneur, il a créé Deepnews.ai il y a deux ans, alors qu’il était boursier de la John S.Knight à Stanford. Depuis quelques mois, son produit vitrine, une newsletter hebdomadaire, offre gratuitement à l’abonné une sélection de 25 articles sur une thématique donnée (en anglais uniquement pour l’instant). L’originalité, c’est que le choix des articles a été fait par un algorithme sur la base de critères de qualité.

Distinguer l’information de commodité (accessible facilement, reproduite des centaines de fois et à faible valeur ajoutée) et l’information de qualité : telle est l’ambition de Frédéric Filloux, pour aider le secteur des médias à remettre la valeur au bon endroit.

Dans ce nouvel épisode d’A parte, il nous explique sa démarche, son séjour californien et le fonctionnement de Deepnews.ai.

Pour aller plus loin
L’essentiel de l’épisode

A Parte : Qu’est-ce que le Deepnews.ai Digest ?

Frédéric Filloux : “C'est la première itération de la technologie qu'on a développée. Cette technologie, c'est un algorithme qui permet de donner à un article un score de qualité. Ce n'est pas un score de véracité - on n'a pas construit un détecteur de fake news - mais c'est un score qui va mesurer la profondeur éditoriale, qui est en mesure de quantifier le travail journalistique qui est derrière un article. Deepnews Digest, c'est simplement une newsletter, très largement automatisée, sur un sujet donné. On collecte 600 sources. L'algorithme fait son tri puis sélectionne les 25 articles qui sont les plus pertinents en termes de qualité éditoriale. La newsletter est gratuite, car c’est la vitrine de la technologie. Mais l'idée, c'est de développer des verticales beaucoup plus thématiques destinées à un marché beaucoup professionnel. Là, elles seront payantes.“

Tu parles de 600 sources originelles. Il y a donc une sélection humaine qui a été faite ?

“On a décidé de travailler sur un corpus un peu fermé. On a regardé chacune de nos sources dans le détail : des journaux, des publications universitaires, mais aussi des petites sources. C'est une des spécificités de Deepnews à laquelle je tiens énormément. On part du principe que sur internet existent des articles extrêmement riches et très largement sous-exploitée. Sur tous les sujets, il y a un niveau d'expertise absolument phénoménal. Nous avons vocation à détecter ce niveau d'expertise.“

Comment font les humains qui sélectionnent les sources pour repérer ces “petites” sources ?

“On cherche et on discute entre nous. Pour les Deepnews Digest spécialisées, on aura recours à des experts sur chaque sujet pour valider les sources. De toute façon, ce serait totalement inefficace de crawler l'intégralité du web. Chaque jour, 100 millions de liens sont injectés sur Internet qui viennent de 80 millions de sources. Trier cela - Google le fait -, c'est un travail absolument titanesque. Donc l'idée c'est plutôt d'aller chercher un peu les sources à la main. Et même quand on choisit les sources à la main, on se retrouve avec un volume énorme de copies. Sur les émeutes à Hong-Kong, en quelques heures, on avait déjà 4500 articles. C’est sur ce corpus qu’on fait tourner l’algorithme qui va mettre une note de 1 à 5. Cette note n'a pas vocation à être vue par le public. Nous ne sommes pas des arbitres. C’est simplement un outil de ranking interne et cela nous sert à catégoriser et à faire la sélection.“

L’algorithme est basé sur du machine learning. Êtes-vous capables de savoir comment cet algorithme fonctionne ?

“Non. Parce que c'est un vrai algorithme d'une machine learning qui est construit sur un réseau de neurones convolutionnel. C’est un réseau qui est habituellement utilisé pour la reconnaissance d'images. L’algorithme va chercher ces images dans des volumétries gigantesques. Pour le texte, c'est plus compliqué parce qu’aucun data set n’existe, qui aurait été labellisé de la manière suivante : ceci est un article bon, ceci est un article moyen, ceci est un article mauvais. Donc on a dû recréer tout ça. Résultat : notre algorithme est une boîte noire car il va regarder des informations au travers d'une espèce de tamis, composé de 25 millions de petits points, qu’on appelle des paramètres (weight en anglais). C'est en passant les articles au travers de ce tamis qu’il va mesurer et qu'il va déterminer la qualité de l’article.

L'inconvénient d’une boîte noire, c'est qu'on ne sait pas ce qu'il se passe. L'avantage, c'est que c'est impossible à casser. J'avoue que ça a été super important dans toutes les évaluations qu'on a faites. Je ne suis pas du tout data scientist moi-même mais une de mes obsessions c'était d’avoir un produit “full proof”, c'est-à-dire qu'on ne pouvait pas tromper. De ce côté-là, on est blindé.“

Vous vérifiez manuellement les résultats obtenus par l’algorithme. Sont-ils bons ?

“On a un taux d'exactitude qui est de l'ordre de 85 %. Même si, en toute honnêteté, ça marche sur très bien sur certains sujets mais moins bien sur d'autres. Le modèle algorithmique n'ayant pas été nourri avec des articles sportifs, on est assez mauvais sur le sport. en revanche, sur tout ce qui est politique, affaires étrangères, business, on est quand même bons.“

Comment l’idée de Deepnews a-t-elle germé dans ton esprit ? Tu as obtenu la John S.Knight Fellowship de Stanford...

“Je suis arrivé à Stanford en août 2016, à la fin de la campagne électorale américaine. On voyait alors poindre les fake news et la manipulation de l'information. Cela inquiétait tout le monde. Moi, je m'intéressais depuis un certain temps à tout ce qui est intelligence artificielle dans le domaine de l'image et puis je me suis intéressé à ce qu'on appelle le Natural language processing, le traitement du langage naturel. Là, je me suis rendu compte que c'était une tâche totalement illusoire de vouloir détecter des fake news avec de l'intelligence artificielle. Le seul moyen de détecter de la fausse information, c'est une vérification humaine. Or, rappelez-vous, il y a 100 millions de liens mis en ligne chaque jour. Aujourd'hui, il y a 188 entités dans le monde qui font du fact-checking. Si on prend la capacité de production de ses 188 entités, on arrive à entre 3 000 et 5 000 articles traités par mois. Ce n'est même pas une goutte d'eau !

Donc j’ai finalement décidé de prendre les choses dans l’autre sens. Au lieu d'avoir une approche pour détecter les fake news, je me suis dit qu'on allait détecter la qualité. Pour prendre une métaphore qui vaut ce qu'elle vaut, au lieu de purifier l'eau du Gange un verre à la fois, je construis un petit aimant qui va faire remonter les nutriments pour prendre leur énergie et laisser les éléments toxiques en bas.“

Mais une fake news peut être si bien faite que l’algorithme pourra quand même la faire remonter parmi les articles jugés les plus qualitatifs...

“Oui, mais on évite cet écueil, parce qu'on fait une sélection des sources en amont. Il y a deux catégories d'informations. D’abord celle qu'on appelle la “commodity news”, que vous allez retrouver partout de la même manière et qui n'a aucune valeur ajoutée. Elle est super abondante et n’a aucune valeur économique. Puis il y a l'information à valeur ajoutée, précisément celle qu’on veut détecter.“

Pour revenir à ton parcours, un parcours de journaliste, qu'est-ce qui t’a amené à réfléchir à tout cela ?

“Ce n'est plus tout-à-fait du journalisme mais on essaie de rapprocher le journalisme des sciences informatiques et de l'intelligence artificielle. On a passé des heures et des jours à discuter à discuter avec nos data scientists pour leur faire comprendre ce qu'était un article de bonne qualité par opposition à un article sans valeur ajoutée. On a fait un énorme travail pour voir comment tout ça pouvait être mis en algorithme. Et puis une des choses que j'ai retenu de mes deux années à Stanford, c'est que la démocratie était terriblement en danger. Aujourd'hui, on n'a plus aucun processus électoral dans le monde qui ne soit perturbé par de la mauvaise information.

Je pense qu'il y a une espèce d'urgence citoyenne à faire en sorte que l'information de qualité soit plus visible, plus attractive et plus accessible notamment pour la génération des millenials qui va voter.

Le business model de l'information est complètement détruit aujourd'hui. Prenez une page une page web de n’importe quel média. Quelle que soit la nature de l'article - soit un article de synthèse tout bête soit un article qui a réclamé six semaines de travail par trois personnes plus relu par deux éditeurs -, le prix de la publicité qui est à côté est exactement le même. On est dans le seul système au monde dans lequel il n'y a aucune transmission entre le coût de production et la valeur que va payer en l'occurrence un annonceur. Donc je me suis dit que si on trouvait un moyen de scorer les articles, cela pourrait donner une indication au marché publicitaire qu'il valait mieux mettre des pubs de qualité, donc plus onéreuses et plus rentables, sur l'article de qualité, lequel va attirer des structures démographiques de lectorat meilleures. D’ailleurs les annonceurs commencent à se dire qu'il faut se replier sur des trucs de qualité, mais si ce n'est pas gagné encore.“

En quoi ton projet a-t-il évolué lors de ton séjour à Stanford ?

“Au départ, j'avais une approche journalistique très déterministe qui consistait à dire : moi, journaliste, depuis depuis mon magistère, je suis capable de détecter l'information de qualité en isolant 30 à 35 critères de qualité. Et puis un de mes vieux mentors m'a dit que ma méthode était mauvaise et qu’il fallait que je fasse la sélection grâce à du machine learning, et même du deep learning. Il fallait prendre des gros jeux de volumes d'articles, les mettre dans un algorithme et voir ce qui se passait. Je me suis donc intéressé à tout ça et j’ai travaillé d’abord avec des étudiants de Stanford, puis avec ceux de l’école Centrale, à Paris.“

Tu ne pouvais pas rester à San Francisco ?

“Il y a une équation économique : à compétences égales, un ingénieur français coûte 4 à 5 fois moins cher. D’ailleurs, à l’avenir, on va avoir du mal à s’aligner avec la Silicon Valley, où ces ingénieurs vont partir.“

Quel est le business model de Deepnews ?

“Au départ, on voulait offrir le service aux médias. Et puis on a vu qu'on allait s'épuiser dans le fait de négocier un, deux, trois contrats. D'où l'idée de lancer ce système de newsletters. Au cours de l’année 2020, on devrait lancer entre 15 et 30 newsletter thématiques : sur les voitures autonomes, sur le futur de la nourriture, sur la reconnaissance faciale, sur le venture capital, sur l’exploration spatiale... On a identifié une série de sujets dans des secteurs projetés vers le futur. Ce sont des secteurs économiques dans lesquels il y a un gros appel d'air en termes d'emplois, de financements et de vrais challenges techniques. L'information y est assez mal organisée. Donc l’idée, c'est d'organiser et de structurer l’information sur le secteur et d'offrir à l’abonné les 25 articles qu’il doit lire sur son sujet chaque semaine. Par la suite, on fera des offres plutôt en self-service, mais les newsletters vont nous occuper pour les deux prochaines années. C’est un système scalable, c'est-à-dire qu'on peut produire des newsletters avec un travail humain qui ne prendra qu’une heure par semaine.“

Qui dit scalabilité, dis chercher des fonds. Est-ce que vous cherchez des fonds ?

“Les médias n’intéressent pas le venture capital parce qu'il juge que l'industrie des médias est en train de mourir, qu’elle est mal gérée et pas assez tech. Le secteur n'est pas suffisamment attractif. Donc on ira chercher des formes différentes comme des business angels. Et puis de toute façon, j'aime assez l'idée d’être une boîte qui peut s'auto-financer.“

Crédits

Réalisateur.rice.s : Elise Colette et Jean-Baptiste Diebold

Réalisation et post-production : Raphaël Bellon

Design graphique : Benjamin Laible

Communication : Laurie Lejeune

Générique et habillage sonore : Boris Laible

Production : Ginkio