Retour aux articles

Réseaux sociaux et datamining : des algorithmes vont-ils devenir aviseurs fiscaux ?

Tech&droit - Données

01/10/2019

Algorithmes, machine learning, data mining, plateforme, réseaux sociaux. La lutte contre la fraude fiscale des particuliers pourrait franchir une nouvelle étape si l’un des articles du projet de loi de finances pour 2019 est voté tel quel. Mais à quel prix, notamment côté protection de la vie privée ?

2019 restera l’année où les réseaux sociaux et les plateformes en ligne sont entrés dans un projet de loi de finances. Et pas pour imposer une taxe sur tels ou tels services, mais pour y introduire la possibilité de puiser les traces d’une éventuelle infraction dans la manne des informations déposées publiquement par les utilisateurs de services numériques.

Une expérimentation à la redoutable efficacité
L’article 57 du projet de loi de finances tel que déposé le 27 septembre 2019 à l’Assemblée nationale (TA AN n° 2272, 2018-2019) pose en effet le cadre d’une expérimentation qui promet de beaux débats au Parlement.

De quoi s’agit-il ? D’un nouveau champ d’action pour le traitement automatisé de données dénommé, côté administration fiscale, « ciblage de la fraude et valorisation des requêtes » (CFVR). Cet algorithme développé depuis 2013 a pour objectif d’améliorer la détection de la fraude et le ciblage des contrôles fiscaux. Et côté direction générale des douanes et droits indirects, l’exploitation de son patrimoine de données dématérialisées est confiée depuis 2016, au service d’analyse de risque et de ciblage (SARC) en vue de réaliser des traitements de type « datamining » dans le domaine de la lutte contre la fraude.

Des algorithmes qui se sont avérés tellement efficaces (alors même que les expérimentations étaient limitées par le volume des données, à savoir les données de l’administration et celles publiées par des acteurs institutionnels) que l’administration entend désormais aller plus loin.

L’objectif de cet article est donc de permettre de détecter, grâce aux réseaux sociaux et aux plateformes de mise en relation (c’est-à-dire les plateformes de mise en relation de plusieurs parties en vue de la vente d'un bien, type Leboncoin ou PAP, de la fourniture d'un service ou de l'échange ou du partage d'un contenu, type Twitter, ou Facebook, d'un bien ou d'un service), les activités économiques non déclarées ou les redevables qui ne seraient pas en règle vis-à-vis de leurs obligations fiscales ou sociales et ce, sans avoir recours à une intervention humaine, laborieuse, coûteuse et nécessairement moins étendue.

En pratique, le projet d’article 57 prévoit ainsi que, « À titre expérimental et pour une durée de trois ans, pour les besoins de la recherche des infractions mentionnées aux b et c du 1 de l'article 1728, aux articles 1729, 1791, 1791 ter, aux 3°, 8° et 10° de l’article 1810 du Code général des impôts, ainsi qu’aux articles 411, 412, 414, 414-2 et 415 du Code des douanes, l’administration fiscale et l’administration des douanes et droits indirects peuvent, chacune pour ce qui la concerne, collecter et exploiter au moyen de traitements informatisés et automatisés n’utilisant aucun système de reconnaissance faciale les contenus, librement accessibles, publiés sur internet par les utilisateurs des opérateurs de plateforme en ligne mentionnés au 2° du I de l'article L. 111-7 du Code de la consommation ».

L’exposé des motifs de cet article prend même le soin, non sans une ironie certaine, de préciser que ce traitement lui permettra de mieux détecter des comportements frauduleux « sans créer d’obligation déclarative nouvelle pour les contribuables et les opérateurs économiques ».

Reste beaucoup, beaucoup d’interrogations. Car si côté entreprises, des traitements croisant plusieurs bases de données (v. Stéphanie Schaer, pilote et initiatrice de la start-up d’État « Signaux Faibles » : « L’algorithme de Signaux Faibles peut réellement contribuer à la préservation d’emplois et à la pérennité d’entreprises », Actualités du droit, 10 avr. 2019) sont déjà déployés, notamment pour mieux prévenir les difficultés des entreprises, côté particulier ce scannage massif des réseaux sociaux et autres plateformes pour récolter des données et les analyser au prisme d’une éventuelle fraude soulève de nombreuses craintes.

Certes, le texte prévoit des garanties : « Lorsqu’elles sont de nature à concourir à la constatation des infractions mentionnées au premier alinéa, les données collectées sont conservées pour une durée maximale d’un an à compter de leur collecte et sont détruites à l’issue de ce délai. Toutefois, lorsqu’elles sont utilisées dans le cadre d'une procédure pénale, fiscale ou douanière, ces données peuvent être conservées jusqu’au terme de la procédure. Les autres données sont détruites dans un délai maximum de trente jours à compter de leur collecte ».

Et il ne s’agit, pour l’instant que :

d’une expérimentation pour une durée de trois ans ;
limitée aux manquements les plus graves ;
encadrée par un décret en Conseil d’État, soumis à l’avis de la Commission nationale de l’informatique et des libertés
avec obligation de remettre au Parlement un rapport six mois avant la fin de cette expérimentation (notamment « pour évaluer si l’amélioration de la détection des fraudes est proportionnée à l’atteinte portée au respect de la vie privée » précise l’exposé des motifs) ; ce qui soit dit en passant, revient à reconnaître qu’il y aura bien atteinte à la vie privée des internautes.

Les réserves plus que marquées de la CNIL
La CNIL n’aura eu qu’un mois pour examiner un projet d’article, qui pourrait « avoir des impacts substantiels s’agissant de la vie privée » (CNIL, délibération n° 2019-114, 12 sept. 2019). Ce qu’elle a déploré, tout en listant néanmoins plusieurs imprécisions et alertant sur des risques plus ou moins calibrés.

Inquiétude sur l’information et la liberté d’expression des internautes. – Le premier grief de la CNIL porte sur la connaissance qu’auront les internautes de la mise en place de ce traitement : « la Commission rappelle que la seule circonstance que les données soient accessibles sur internet, et que les personnes aient éventuellement conscience qu'un potentiel risque d'aspiration de leurs données existe, ne suffit pas pour que les administrations qui souhaitent les exploiter soient exonérées de l'obligation de collecter ces données de manière loyale et licite. A ce titre, elle sera particulièrement vigilante quant aux modalités d'information des personnes concernées ». D’autant que « la création volontaire de profils sur les plateformes en ligne n'emporte pas, par principe, la possibilité de leur aspiration ainsi que de leur rediffusion sur d'autres supports non maîtrisés par les personnes concernées ». Au passage, cette notion de « maîtrise » est intéressante : les droits reconnus par le RGPD montreraient-ils leurs limites (v. Consommation de services numériques gratuits : à quel prix ?, Actualités du droit, 23 sept. 2019) ?

Autre incertitude, l'impact sur les usages des utilisateurs de ces services numériques : cette collecte massive est en effet « susceptible de modifier, de manière significative, le comportement des internautes qui pourraient alors ne plus être en mesure de s'exprimer librement sur les réseaux et plateformes visés et, par voie de conséquence, de rétroagir sur l'exercice de leurs libertés ».

Les zones d’ombres relevées par la CNIL.- Clairement, la rédaction de cet article 57 ne satisfait pas la CNIL. Cette autorité s’interroge notamment sur la proportionnalité entre l’ampleur de la collecte et l’objectif recherché : « une telle atteinte ne saurait être admise que si elle apparaît strictement nécessaire et proportionnée au but poursuivi et qu'elle présente des garanties suffisantes au regard du respect des principes fondamentaux du droit à la protection des données personnelles ». Tout en considérant qu’en l’état actuel du texte, cette proportionnalité n’est pas assurée.

Quels sont les contenus visés ?- Autre point d’incertitude, les contenus concernés par ce scan algorithmique : pour la CNIL, le texte n’est pas clair, « dans la mesure où, en pratique, cette notion (de contenus librement accessibles publiés sur internet) pourra renvoyer à des réalités différentes selon la politique de confidentialité de la plateforme en ligne concernée ». Et pour cette autorité, aucune ambiguïté possible : « cette notion conduit à exclure, par exemple, la collecte de données au moyen d'identités d'emprunts ou par des comptes spécialement créés par l'administration à cet effet ». Reste que si ces algorithmes sont prévus pour être auto-apprenants (aucune précision à ce stade dans le texte), on voit mal comment contrôler à terme ce point…

Autre incertitude pointées, les auteurs de ces contenus, car « le projet d'article ne contient aucune précision sur la personne ayant publié les données collectées (un individu en particulier ou les tiers pouvant être amenés à émettre des commentaires sur cette dernière) ou sur la nature de ces données dès lors qu'elles figurent dans des contenus librement accessibles et publiés sur internet ». Ce que l’on sait en revanche, c’est que, à ce stade, aucun traitement ne pourra être appliqué sur des photos (interdiction de mise en œuvre de dispositif de reconnaissance faciale).

La nature des fraudes concernées ne satisfait pas non plus la CNIL.- La CNIL s’interroge notamment sur la pertinence de recourir à un tel dispositif pour les :

infractions visées à l'article 1791du CGI ;
contribuables ayant d'ores et déjà reçu une mise en demeure de l'administration fiscale pour défaut de production d'éléments sur le fondement de l'article 1728-1)-b) du CGI (dans cette hypothèse, l'infraction aura déjà été caractérisée) ;
infractions portant sur des contraventions de deuxième et troisième classe (C. douanes, art. 411 et 412).

Un traitement qui pourra légitimer des contrôles fiscaux ? A priori, non. Car pour la CNIL, il est « indispensable que la mise en œuvre des traitements projetés (…) ne conduise pas à la programmation de contrôles automatiques mais ne soit qu'un indicateur permettant de mieux guider les enquêteurs dans l'exercice de leurs missions. Elle prend acte de l'engagement du ministère de ne procéder à aucun contrôle automatique à partir des traitements mis en œuvre ».

Les points de contrôle de la CNIL.- Pour pouvoir auditer la proportionnalité de cette collecte au regard du droit à la vie privée post mise en œuvre de ce traitement, la CNIL a établi une liste précise d’indicateurs à lui fournir :

une description des conditions de mise en œuvre techniques et opérationnelles des traitements créés sur ce fondement ;
la liste précise des catégories de données, des indicateurs et des informations
utilisés;
la liste exhaustive des sites/sources internet sur lesquels les données auront été collectées ;
le détail des algorithmes éventuellement implémentés, de leur paramétrage et de leur fonctionnement ;
les résultats quantifiés obtenus, comprenant notamment les recettes estimées
et les coûts engendrés résultant du dispositif mis en œuvre ;
une description du protocole d'évaluation mis en œuvre pour l'appréciation de la qualité de la méthode ;
des éléments chiffrés sur l'exercice des droits ;
les mesures de sécurité mises en place afin d'assurer la confidentialité et l'intégrité des données collectées ;
les éléments relatifs au fonctionnement des traitements, aux éventuelles difficultés rencontrées, aussi bien éthiques, juridiques et techniques.

Un ministre de l’action et des comptes publics qui se veut rassurant
À la suite des réactions qui ne sont pas faites attendre très longtemps, Gérald Darmanin a tenu à rappeler que « La lutte contre la fraude est une priorité pour le Gouvernement. Elle doit s’adapter aux évolutions de la société, ce qui nécessite d’en moderniser les outils. Par cette expérimentation, le Gouvernement entend apporter une réponse aux limites de nos systèmes de détection actuels, dans un cadre rigoureux et contrôlé par le Parlement et la CNIL » (Ministère de l’action et des comptes publics, 1^er oct. 2019).

Tout en insistant sur la volonté de prendre le temps de la discussion parlementaire pour rassurer sur les garanties entourant ce déploiement d’algorithmes, le ministre rappelle néanmoins que « Le choix du Gouvernement de mettre en œuvre cette expérimentation par la voie législative, qui n’était pas juridiquement requise, traduit la volonté d’organiser un débat démocratique qui permettra au législateur d’apporter de nouvelles garanties fondamentales si nécessaire ».

Nul besoin d’être devin pour imaginer que les futures discussions parlementaires sur cet article vont être longues, âpres et techniques…

Source : Actualités du droit