Projet:Sources/Chez Manon



Chez Manon
« Un ruisseau à nombreuses sources ne tarit jamais. »
Proverbe camerounais.
Chez Manon est l'espace de convivialité du Projet:Sources. Il accueille quelques brèves discussions, par exemple pour discuter du sourçage d'un article, demander une information, ou causer du projet…
Ci-contre, notre muse à tous, Manon, vue par le peintre Ingres.
|
![]() |
- Du 5 au 11 janvier 2007
- Du 11 au 28 janvier 2007
- Du 29 janvier au 23 février 2007
- Du 23 février au 14 mai 2007
- Du 14 mai au 28 juin 2007
- Du 28 juin au 10 octobre 2007
- Du 10 octobre 2007 au 10 février 2008
- Du 10 février au 2 juillet 2008
- Du 2 juillet 2008 au 1er décembre 2009
- Du 1er décembre 2009 au 18 octobre 2010
- Du 4 novembre 2010 au 24 avril 2013
- Du 24 avril 2013 au 17 mai 2021
- Du 17 mai 2021 au 18 août 2023
- Du 19 août 2023 au 5 juin 2024
- À partir du 17 mai 2024
Enquête : genAI et plagiat dans les sources de Wikipédia
[modifier | modifier le code]Présentation et discussion • Analyse initiale (148) • NDD à analyser 1 (284) • NDD à analyser 2 (400)
Bonjour à toutes et à tous,
Fin , Jules* a été contacté par Jean-Marc Manach (Manhack), journaliste pour le média Next, qui au cours d’une enquête a découvert plusieurs centaines de sites web utilisant des IA génératives (abrégées genAI). Le fait qu’au moins l’un d’entre eux, le site d’information L’Observatoire de l’Europe, ait certains de ses articles rédigés par un auteur fictif, utilisés sur Wikipédia, l’a incité à nous contacter. Il a proposé à Jules de lui fournir la liste des sites web identifiés afin de déterminer lesquels sont utilisés sur Wikipédia, la liste étant soumise à embargo jusqu’à publication de l’enquête de presse ; en échange, il apprécierait que la communauté wikipédienne lui fasse remonter les sites web genAI qu’elle détecte.
Au vu de l’ampleur du projet, il est apparu nécessaire d’être deux wikipédiens pour analyser les sites web signalés par Jean-Marc Manach.Pa2chant.bis a accepté de rejoindre le projet et nous avons travaillé tous les deux de mi-novembre à mi-décembre, y consacrant plusieurs dizaines d’heures.
Next et le service Checknews de Libération (partenaires sur ce dossier) ont désormais bouclé leur enquête, que vous pouvez retrouver dans les liens ci-dessous :
- Jean-Marc Manach, « [Enquête] Plus de 1 000 médias en français, générés par IA, polluent le web (et Google) », sur Next, .
- Jean-Marc Manach, « Comment reconnaître les sites (d’infos) générés par des IA ? », sur Next, .
- Sébastien Gavois, « [Outils Next] Une extension Chrome et Firefox pour être alerté des sites GenAI », sur Next, .
- Florian Gouthière et Jacques Pezet, « Faux rédacteurs, vrais profits : comment l’intelligence artificielle parasite l’info », Libération, (lire en ligne).
- Florian Gouthière, « Comment le site «Next», partenaire de «Libé», a identifié un millier de sites d’informations générés par IA », Libération, (lire en ligne).
Il est temps de publier notre propre enquête. Bonne lecture !
Méthodologie
[modifier | modifier le code]Sur 327 sites fournis par Next, 14 avaient déjà été identifiés lors des enquêtes menées à l’été 2022 sur Avisa Partners et Nativiz, un peu moins de 160 sont présents sur Wikipédia. Nous en avons examiné 148, qui sont présents dans l’espace principal.
Nous avons examiné chacun des sites avec les objectifs suivants :
- évaluer s’ils ont recours à des genAI ;
- évaluer s’ils ont recours à de la traduction automatique ou à de la reformulation par IA (plagiat) ;
- évaluer s’ils font du native advertising ou diffusent des contenus sponsorisés (dissimulés ou non) ;
- évaluer de manière générale leur qualité.
Par ailleurs, nous avons vérifié, pour chaque site web, par qui étaient effectuées les insertions sur Wikipédia. Dans la majeure partie de cas, une vérification d’un échantillon aléatoire a permis de constater que les ajouts étaient faits de bonne foi. Lorsque cela était nécessaire (suspicion de spam ou d’insertions par des comptes rémunérés), nous avons opéré une vérification systématique des ajouts.
Pour chaque site examiné, nous avons indiqué ce que nous préconisons que la communauté fasse : mise en liste noire, suppression des liens, remplacement des liens par une version archivée (lorsque les liens ne sont plus accessibles, que le site a été « vampirisé », et que c’était auparavant une source acceptable).
Résultats
[modifier | modifier le code]Les résultats détaillés, site par site, sont consultables sur la sous-page suivante : Enquête genAI : analyse détaillée.
Les cas les plus fréquents sont les sites entièrement produits à partir de gen-AI et ceux plagiant d’autres sites web (avec traduction automatique ou réécriture par IA). Il est possible que certains plagiats soient manuels, ce qui fondamentalement ne change pas grand chose sur l’absence de qualité du site.
Autre cas de figure courant : le site (de qualité ou non) a eu une première vie, durant laquelle des liens ont été insérés sur Wikipédia, puis le nom de domaine a été racheté par un tiers — généralement une entreprise de SEO ou de monétisation par la publicité de fermes à contenus, le but étant de profiter de l’audience web du site — qui s’est mis à publier des contenus gen-AI.
Certains liens, qui contiennent des articles sponsorisés ou relèvent du native advertising, ont servi à des usages promotionnels sur l’encyclopédie. Quelques autres ont fait l’objet de spam.
De manière chiffrée, sur 148 sites analysés : 105 ont recours à de l’IA pour la rédaction des textes ; 65 recourent au plagiat (avec ou sans traduction, avec ou sans reformulation par IA) ; 81 ne sont pas transparents (pas de mentions légales, mentions mensongères, auteurs fictifs, etc.) ; 51 sont des sites vampirisés ; 7 ont fait l’objet de spam sur Wikipédia ; 18 ont servi à des modifications promotionnelles sur Wikipédia ; 2 sont clairement des faux-positifs. (NB : d’autres sites, dont l’usage de l’IA n’est pas bien établi, ont été retirés de la liste de Next, mais nous ne les considérons pas comme des faux positifs car ils posent d’autres problèmes : plagiat, etc.)
S’agissant des ajouts faits de bonne foi, ils sont souvent l'œuvre de contributeurs expérimentés, voire très expérimentés, y compris lorsqu’il s’agit de sites de très mauvaise qualité (pas d’auteurs, pas de mentions légales, traduction automatique manifeste, etc.).
Conclusion
[modifier | modifier le code]Nous vous laissons désormais vous emparer de ce matériau et en discuter : Enquête genAI : analyse détaillée.
Merci à Jean-Marc Manach de nous avoir partagé la liste des noms de domaine qu’il a identifiés et sans lequel cette enquête n’existerait pas. Merci à 0x010C pour le support technique en début d’enquête, à savoir la récupération automatisée de l’insertion de certains liens à partir des dumps.
Du travail pour tous
[modifier | modifier le code]Par ailleurs, depuis la conclusion de notre enquête wikipédienne, Jean-Marc Manach a identifié plus de 700 autres sites web avec des contenus genAI ou contenant des plagiats. Avec un script créé pour l’occasion, nous avons ramené ce nombre à une liste de 284 sites web présents sur Wikipédia, liste mise à disposition sur Enquête genAI : noms de domaine à analyser (pas le même lien que ci-dessus). Ces 284 sites s’ajoutent donc aux 148 déjà passés en revue : nous comptons sur l’analyse collaborative pour poursuivre le travail que nous avons entrepris.
— Jules* discuter et Pa2chant.bis (discuter) le 6 février 2025 à 11:25 (CET)
Discussions
[modifier | modifier le code]Un grand bravo pour tout ce travail effectué pour débusquer tous ces sites ! Skimel (discuter) 6 février 2025 à 13:43 (CET)
- J'ai l'impression qu'il y a aussi pas mal de recyclage de noms de domaines.
- Par exemple: https://fr.wikipedia.org/wiki/Sp%C3%A9cial:Recherche_de_lien/geekopolis.fr pointe sur une page de 2015, et visiblement, c'était une page d'un événement il y a 10 ans (cf le contexte d'un des liens)
- De même, https://fr.wikipedia.org/wiki/Sp%C3%A9cial:Recherche_de_lien/journees-prevention-santepublique.fr montre qu'il y a aussi un recyclage de page d'événement. Je n'ai pas lu les articles (donc c'est peut être mentionné), mais ça me semble être assez souvent le cas (autre exemple: https://fr.wikipedia.org/wiki/Sp%C3%A9cial:Recherche_de_lien/printempsfrancais.fr ). Misc (discuter) 6 février 2025 à 14:06 (CET)
- C'est ce que l'on a appelé « vampirisme », @Misc, pour la partie déjà analysée (cf. les étiquettes). — Jules* discuter 6 février 2025 à 14:07 (CET)
- Ah j'ai lu en diagonal et j'ai pas vu que c'était un lien différent de celui d'en bas. Misc (discuter) 6 février 2025 à 14:16 (CET)
- J'ai lue diagonale la liste des sites, et je suis tombé sur la site officiel d'une de mes anciennes boites. Donc comme le dit Misc oui il y a du recyclage, de noms de domaine aussi. GPZ Anonymous (discuter) 6 février 2025 à 15:12 (CET)
- Ah j'ai lu en diagonal et j'ai pas vu que c'était un lien différent de celui d'en bas. Misc (discuter) 6 février 2025 à 14:16 (CET)
- C'est ce que l'on a appelé « vampirisme », @Misc, pour la partie déjà analysée (cf. les étiquettes). — Jules* discuter 6 février 2025 à 14:07 (CET)
Merci pour votre impressionnant travail qui permet la vigilance, le maintien et la qualité de notre encyclopédie. --RawWriter (discuter) 6 février 2025 à 15:39 (CET)
- Merci à Jules* et Pa2chant.bis pour votre dévouement . Des centaines de liens qui n'ont rien à faire dans une encyclopédie ! Bravo pour votre vigilance ! --JMGuyon (discuter) 6 février 2025 à 19:05 (CET)
- Bravo pour cet énorme et fastidieux travail qui a le mérite de mettre en lumière un phénomène de plus en plus problématique. Mais... (je vais me prendre une volée de bois vert) était-ce vraiment utile d'un point de vue encyclopédique ? Rien qu'en parcourant la liste des noms de domaine on se doute que la qualité et la fiabilité de 90% d'entre eux ne risquent pas d'être au rendez-vous. Et en accédant aux pages d'accueil de la plupart je vois principalement des sites de relais d'actualités dans un domaine bien ciblé ou des sites promotionnels. Par nature ceux-ci ne véhiculent pas d'informations dignes d'intérêt pour une encyclopédie, et les règles de WP recommandent d'utiliser des sources secondaires de qualité. Bref, genAI ou pas, on n'y est pas. Desman31 (discuter) 6 février 2025 à 19:37 (CET)
- Pas de volée de bois vert
. En effet, @Desman31, la plupart de ces sites, genAI ou non, ne sont pas de qualité. Mais on a voulu le démontrer : le temps d'analyse n'a pas servi qu'à regarder l'aspect genAI, mais aussi la présence de plagiat, de publicités dissimulées, et l'absence de rédacteurs humains, l'absence de mentions légales. Cela permet de caractériser de manière plus fine les problèmes rencontrés pour chaque site web et permet ce qu'on est en train de faire là, d'en discuter, et de sensibiliser. Et l'aspect genAI, et plus encore les plagiats avec IA, méritent quand même d'être davantage connus de la communauté, car c'est un phénomène nouveau et qu'il est plus facile de tomber dans le panneau : quand c'est bien fait, le résultat fait sérieux, et pour cause il y a reprise et paraphrase de sources de presse.
- « Rien qu'en parcourant la liste des noms de domaine on se doute que la qualité et la fiabilité de 90% d'entre eux ne risquent pas d'être au rendez-vous. » Et pourtant ils sont largement utilisés sur Wikipédia, pour certains… — Jules* discuter 6 février 2025 à 20:53 (CET)
- Pas de volée de bois vert
- Bravo pour cet énorme et fastidieux travail qui a le mérite de mettre en lumière un phénomène de plus en plus problématique. Mais... (je vais me prendre une volée de bois vert) était-ce vraiment utile d'un point de vue encyclopédique ? Rien qu'en parcourant la liste des noms de domaine on se doute que la qualité et la fiabilité de 90% d'entre eux ne risquent pas d'être au rendez-vous. Et en accédant aux pages d'accueil de la plupart je vois principalement des sites de relais d'actualités dans un domaine bien ciblé ou des sites promotionnels. Par nature ceux-ci ne véhiculent pas d'informations dignes d'intérêt pour une encyclopédie, et les règles de WP recommandent d'utiliser des sources secondaires de qualité. Bref, genAI ou pas, on n'y est pas. Desman31 (discuter) 6 février 2025 à 19:37 (CET)
Voilà de quoi nous occuper pour les longues soirées d'hiver. Merci pour l'intense travail effectué. Jules* : il me semble essentiel de faire remonter le point vers le Bulletin des administrateurs également pour une discussion sur le sujet --> nous pourrions acter le passage d'un très grand nombre d'URL vers la liste noire, chose qui n'est pas usuelle, et mérite une mention au collège des admins, à mon avis. On ne va pas s'en sortir si on passe au fil de l'épée les liens 1 à 1, il va falloir, de mon point de vue, un nettoyage plus poussé voire radical. Lebrouillard demander audience 6 février 2025 à 18:14 (CET)
- J'ai mis un ptit mot sur le BA en même temps que je publiais l'enquête, @Lebrouillard
: Wikipédia:Bulletin des administrateurs/2025/Semaine 6#Enquête genAI et plagiat dans les sources de Wikipédia : sites à blacklister ?.
- Je suis d'accord avec toi qu'un ajout groupé des sites (pour lesquels nous l'avons préconisé, si la communauté/les admins sont d'accord) sur la liste noire serait optimal. — Jules* discuter 6 février 2025 à 18:18 (CET)
- Hello, comme je proposais à Jules sur une autre page: je me demande s'il ne faudrait pas, lors de la suppression de ces références, indiquer un refnec ou quelque chose si le contenu (désormais non sourcé) reste en place. Vous en pensez quoi? Triton (discuter) 7 février 2025 à 00:54 (CET)
- c'est ce que je tente de faire lorsqu'on a un souci de ce genre, ça permet au lectorat de trouver d'autres sources et améliorer les articles, ça me semble donc une excellente idée @Triton - Lupin (discuter) 7 février 2025 à 10:26 (CET)
- Pour ce que ça vaut, c'est souvent, soit sourçable assez facilement autrement (puisque par nature la génération par IA ne fait rien d'original), soit juste faux et à retirer carrément (cas d'hallucinations, ou quand l'auteur du prompt a demandé à développer une brève - l'IA brode allègrement). L'ajout de refnec est possible, mais pas un premier choix, si possible. Blinking Spirit (discuter) 7 février 2025 à 11:16 (CET)
- Hello, ça rejoint ce que vous dites, mais pour l'instant j'ai eu quatre grands cas de figure, avec diverses variations :
- Remplacement par une source de meilleure qualité (notamment car la source retirée était un plagiat d'une source de qualité pouvant être identifiée) ;
- Ajout de refnec car info potentiellement encyclopédique mais pas pris le temps de chercher une autre source ;
- Suppression de l'info, car anecdotique, probablement pas encyclopédique, promotionnelle (parfois, était sourcée par une fausse source secondaire en fait paraphrase/plagiat, par IA ou non, d'un communiqué de presse).
- Rien, soit parce qu'il y a déjà une autre référence, soit parce que l'info ne nécessite pas d'être sourcée.
- — Jules* discuter 7 février 2025 à 13:03 (CET)
- Bonjour, pour deux articles pour lesquels j'avais cité par méconnaissance varactu.fr la notification de Jules et la mention [refnec] m'ont permis d'être informé et de retrouver facilement des sources originelles (varmatin.com ou nicematin.com). Merci à tout ceux qui ont lancé ce projet indispensable de désinfox de WP. -- Gnrc (discuter) 8 février 2025 à 11:53 (CET)
- Bravo pour ce travail formidable
. Un premier tour de piste me conduit à penser à une autre façon que la suppression/remplacement par ref nec. Pas par mansuétude mais parce que ça source parfois des faits qui peuvent avoir un apport encyclopédique in fine, et surtout par pédagogie vis à vis des tentatives de manipulations ou de pub indirecte en loucedé sur Wp. Si un contributeur insère avec bonne foi, un tag "source insuffisante" avec commentaire de diff renvoyant vers le lien du diag me paraît un bon premier rappel vers le droit chemin, (surtout s'il a l'article en suivi). De plus, on gagne du temps si on veut avancer avec un minimum de rapidité (car il y a un gros gros taf..), et il sera toujours possible d'être plus radical ultérieurement. Limfjord69 (discuter) 8 février 2025 à 16:11 (CET)
- Hello @Limfjord69. Dans le même style, il y a une autre possibilité que j'ai évoquée plus bas : celle de notifier les auteurs d'insertions, en leur fournissant nom de l'article et diff, directement depuis la section d'analyse du site, afin de leur laisser l'opportunité d'effectuer les corrections nécessaires. — 𝒥𝓊𝓁ℯ𝓈 * 💬 8 février 2025 à 16:20 (CET)
- Bravo pour ce travail formidable
- Bonjour, pour deux articles pour lesquels j'avais cité par méconnaissance varactu.fr la notification de Jules et la mention [refnec] m'ont permis d'être informé et de retrouver facilement des sources originelles (varmatin.com ou nicematin.com). Merci à tout ceux qui ont lancé ce projet indispensable de désinfox de WP. -- Gnrc (discuter) 8 février 2025 à 11:53 (CET)
- Hello, ça rejoint ce que vous dites, mais pour l'instant j'ai eu quatre grands cas de figure, avec diverses variations :
- Pour ce que ça vaut, c'est souvent, soit sourçable assez facilement autrement (puisque par nature la génération par IA ne fait rien d'original), soit juste faux et à retirer carrément (cas d'hallucinations, ou quand l'auteur du prompt a demandé à développer une brève - l'IA brode allègrement). L'ajout de refnec est possible, mais pas un premier choix, si possible. Blinking Spirit (discuter) 7 février 2025 à 11:16 (CET)
- c'est ce que je tente de faire lorsqu'on a un souci de ce genre, ça permet au lectorat de trouver d'autres sources et améliorer les articles, ça me semble donc une excellente idée @Triton - Lupin (discuter) 7 février 2025 à 10:26 (CET)
- Hello, comme je proposais à Jules sur une autre page: je me demande s'il ne faudrait pas, lors de la suppression de ces références, indiquer un refnec ou quelque chose si le contenu (désormais non sourcé) reste en place. Vous en pensez quoi? Triton (discuter) 7 février 2025 à 00:54 (CET)
Participation de WP à l'extension de Next.ink
[modifier | modifier le code]Si j'ai bien compris, l'extension Firefox/Chrome recense les sites détectés et WP pourrait-il y participer de manière plus générale/officielle ? Par exemple, pourrait-on :
- intégrer de nouvelles détections qu'on ferait de notre côté ;
- rajouter une fonction faisant un surlignage d'url correspondant à un site de la liste. Ça ferait une alerte préalable quand on a des relais de ces sites, y compris par du sourçage sur WP (et ça nous faciliterait le suivi...) ;
- renvoyer à une documentation dans le style de l'analyse détaillée. Là, le "Plus d'infos" de leur alerte renvoie vers leur article d'enquête et on pourrait avoir plus précis/direct, peut-être simplement donner le lien vers la page WP.
--Fabius Lector (discuter) 6 février 2025 à 13:35 (CET)
- Hello @Fabius Lector. Oui pour le premier point, c'est même une proposition de @Manhack. Pour le reste, je le laisse répondre. (Mais pour les sites qu'on mettra en liste noire, plus besoin d'être alerté pour leur insertion sur WP, puisqu'elle sera impossible.) — Jules* discuter 6 février 2025 à 13:38 (CET)
- Bonjour, et désolé de répondre avec retard, mais mes journées sont plutôt chargées avec cette enquête...
- Je profite de l'occasion pour remercier une fois de plus (mais publiquement, cette fois) @Jules* & @Pa2chan.bis pour le travail considérable qu'ils ont effectués à partir de la liste de sites GenAI que j'ai identifiés.
- Pour répondre @Fabius Lector, il suffit de cliquer sur le bouton de l'extension pour pouvoir nous adresser, via un formulaire, la mention d'un site GenAI susceptible d'être rajouté.
- Nous avons décidé de ne pas rendre publique la liste intégrale des sites GenAI que nous avons identifiés, pour ne pas faire de "name & shame" (en mettant sur le même plan les petits éditeurs opportunistes avec ceux qui industrialisent le process), mais aussi pour ne pas aider ceux qui voudraient améliorer leurs générateurs AI.
- Seules les URL mentionnées dans WP comme "sources" le sont, afin de permettre aux contributeurs de l'encyclopédie de vérifier si la mention est légitime, ou pas.
- J'ai transmis votre proposition de surlignage des liens au développeur de l'extension, qui n'en est qu'à sa V1 (encore à approuver par Chrome, btw). -- Manhack (discuter) 7 février 2025 à 17:21 (CET)
leparisien.fr
[modifier | modifier le code]genAI Nombreux guides d'achat rédigés par IA depuis début 2025 avec des patterns similaires. Malheureusement, vous n'autorisez pas les liens leparisien sur votre wiki, ce qui n'est pas juste ni éthique. — Le message qui précède, non signé, a été déposé par Ecowatcher75 (discuter) (là)
- C'est possible (les sites de presse ont souvent des sous-domaine publicitaires avec des pratiques vraiment nazes), mais là vous n'êtes pas très précis.
- En revanche, merci de vous être manifesté, ça m'a permis de repérer et reverter votre spam pour lespailles.com sur notre wiki, doublé d'un spam pour la version anglophone du même site commercial, drinking-straw.com, sur Wikipédia en anglais (où il avait déjà été annulé). Et de bloquer votre compte.
- — Jules* discuter 6 février 2025 à 22:28 (CET)
- Ok, je viens de comprendre « vous n'autorisez pas les liens leparisien sur votre wiki » — et ça explique que vous n'ayez pas été précis. Certains sous-domaines du Parisien sont déjà bloqués (on peut voir lesquels dans MediaWiki:Spam-blacklist), précisément car il s'agit de publi-rédactionnel ; c'est donc tout à fait juste et éthique. Les articles du Parisien, eux, peuvent être partagés sur Wikipédia sans souci.
— Jules* discuter 6 février 2025 à 22:40 (CET)
Analyse des 284 sites supplémentaires
[modifier | modifier le code]Hello,
Quand on aura fini le ménage (merci, vous êtes plusieurs à bosser dessus !) sur les 148 sites déjà analysés, il y en aura 284 autres à analyser. Je publierai demain quelques conseils pour le faire, en m'appuyant sur la manière dont Pa2chant.bis et moi avons bossé (là, détente puis dodo). — Jules* discuter 6 février 2025 à 23:47 (CET)
Fait.
- Par ailleurs, pour info, svp ne commencez pas tout de suite le nettoyage des liens, pour la raison indiquée. (Ping @GPZ Anonymous : pas grave pour les trois-quatre que tu as déjà nettoyés.) Et d'ailleurs, aussi, ce serait ptet pas plus mal d'avoir au moins deux regards pour chaque site (comme on l'a fait avec Pa2chant.bis), avant d'agir ? À discuter.
- — Jules* discuter 7 février 2025 à 15:20 (CET)
- Bonjour @Jules*, @Pa2chant.bis En terme de détection de texte généré par IA, vous vous appuyez sur quel type d'outil ? GPZ Anonymous (discuter) 7 février 2025 à 17:14 (CET)
- Perso je n'ai pas utilisé d'outil automatisé (j'ai toujours lu qu'ils n'étaient pas très fiables, et @manhack dit la même chose [https://next.ink/165310/comment-reconnaitre-les-sites-dinfos-generes-par-des-ia/ dans son papier), uniquement de la détection manuelle ; j'ai mis quelques conseils ici. — Jules* discuter 7 février 2025 à 17:24 (CET)
- Comme indiqué dans l'article consacré à la méthodologie de mon enquête, ainsi que dans le mode d'emploi que j'avais publié en 2023, je n'utilise pas d'outil de détection des contenus GenAI, au vu du trop grand nombre de faux positifs et faux négatifs que ces IA génèrent elles-mêmes.
- L'article consacré à l'extension que nous avons développé résume par ailleurs la grille de lecture (liste non cumulative, ni exhaustive) nous ayant permis de détecter les sites d'info contenant des articles nous semblant avoir été (en tout ou partie) générés par IA. -- Manhack (discuter) 7 février 2025 à 17:30 (CET)
- C'est bon, j'ai récupéré cette nuit la liste des insertions sur Wikipédia, grâce à cet outil qui m'a été signalé par son auteur et que j'ai adapté à la marge.
- J'ai donc obtenu une magnifique liste de 4638 insertions. Le but étant d'identifier des éventuels ajouts publicitaires ou spam, j'ai retiré de la liste les ajouts de liens sur les pdd (d'articles, d'utilisateurs, etc.), sur l'espace Wikipédia (surtout le Bistro et l'Oracle ; ainsi que les DRP car pas exploitable, ajout par le bot dans les pages d'archives), sur la page d'analyse elle-même ^^, et enfin sur les pages projet. J'ai laissé les ajouts dans l'espace Utilisateur, car souvent ce sont des ajouts dans des pages de brouillon, ce qui peut être intéressant dans une perspective antipub.
- Ce filtrage ramène la liste à 3 788 résultats. Je pense partager le fichier (qui n'aura vraiment d'intérêt que quand on aura analysé les sites !) avec quelques contributeurs du Projet:Antipub.
- Mais, perspective antipub mise à part, on pourra aussi envisager un partage public, pour les sites où ce sera pertinent, cette fois-ci pour notifier les contributeurs auteurs des ajouts et leur permettre de corriger directement. À réfléchir.
- — 𝒥𝓊𝓁ℯ𝓈 * 💬 8 février 2025 à 14:55 (CET)
- Bonjour @Jules*, @Pa2chant.bis En terme de détection de texte généré par IA, vous vous appuyez sur quel type d'outil ? GPZ Anonymous (discuter) 7 février 2025 à 17:14 (CET)
Proposition d'Esprit Fugace
[modifier | modifier le code]Cf. Discussion Projet:Sources/Enquête genAI : analyse détaillée, par Esprit Fugace. — 𝒥𝓊𝓁ℯ𝓈 * 💬 8 février 2025 à 14:58 (CET)
- Pour débroussailler un peu :
- J'imaginais une interface un peu similaire aux RA, avec des fonds colorés permettant de voir le niveau de traitement (à traiter, diagnostic fait, liens virés, blacklistage)
- Une demande = un site, avec un début d'argumentaire sur pourquoi le site est suspect (de plagiat / génération IA, pas juste d'être un site de merde)
- Archivage automatique (pour garder une trace), là aussi comme les RA (demander à El pitareio si NaggoBot peut s'en charger ?)
- Traitement par 3 fois : 1 demandeur, 1 traitant, 1 admin (y compris admin d'interface) pour le blacklistage du site, ce qui permettrait de limiter les effets de bords (blacklistages de sites finalement légitimes).
- Sur une page genre Projet:Sources/Suspicions de GenAI (ou autre titre, j'ai pas trop d'idées).
- Il me semble que ça permettrait de traiter les sites les uns après les autres, en mode "routine", en assurant un suivi des traitements et un archivage correct.
- Vous en pensez quoi ? Esprit Fugace (discuter) 8 février 2025 à 15:13 (CET)
- Je trouve que c'est une bonne idée (pour prendre le relai quand on aura fini de traiter les deux listes actuelles). — 𝒥𝓊𝓁ℯ𝓈 * 💬 8 février 2025 à 15:22 (CET)
- Beaucoup de bien. --Pa2chant.bis (discuter) 8 février 2025 à 16:22 (CET)
- Bonne idée. Girart de Roussillon (Discrepance ?) 8 février 2025 à 22:25 (CET)
- Oui bonne idée ! Ce qui serait aussi intéressant c'est d'avoir des indications sur la manière de détecter ce genre de site. En ce qui me concerne je ne me sens pas du tout compètent pour savoir si un site est susceptible d'être un plagiat ou généré par AI, et je ne pense pas qu'y allait au "feeling" soit un bon moyen. Mais ça je pense que @Jules* et @Pa2chant.bis ont à présent acquis une grande expérience pourront nous la transmettre. RawWriter (discuter) 8 février 2025 à 23:12 (CET)
- Hello @RawWriter. J'ai listé quelques conseils d'analyse ici, dans le premier encadré (d'ailleurs, si tu veux compléter, @Pa2chant.bis, NHP !). Ce sont des conseils pour quand il y a déjà un doute, mais sinon, de manière plus basique, lors de la recherche de sources pour un article, des réflexes à avoir, àmha :
- regarder si les articles sont signés par des auteurs (et si oui, vérifier leur existence sur le web) ;
- regarder si le site a une équipe de rédaction digne de ce nom ;
- regarder s'il y a des mentions légales et une page « Qui sommes-nous ? ».
- Si un site est géré par des gens inconnus ou sans compétence dans le domaine, il ne peut pas être utilisé sur Wikipédia comme une source secondaire de qualité. Voir aussi Aide:Identifier des sources fiables. — 𝒥𝓊𝓁ℯ𝓈 * 💬 8 février 2025 à 23:56 (CET)
- Bonjour @Jules*, merci pour ces indications et conseils. Et pour le basique c'est un peu ce que je faisais déjà. Mon questionnement était surtout comment reconnaitre une AI et vos conseils sont bien utiles. RawWriter (discuter) 9 février 2025 à 17:39 (CET)
- Hello @RawWriter. J'ai listé quelques conseils d'analyse ici, dans le premier encadré (d'ailleurs, si tu veux compléter, @Pa2chant.bis, NHP !). Ce sont des conseils pour quand il y a déjà un doute, mais sinon, de manière plus basique, lors de la recherche de sources pour un article, des réflexes à avoir, àmha :
- Oui bonne idée ! Ce qui serait aussi intéressant c'est d'avoir des indications sur la manière de détecter ce genre de site. En ce qui me concerne je ne me sens pas du tout compètent pour savoir si un site est susceptible d'être un plagiat ou généré par AI, et je ne pense pas qu'y allait au "feeling" soit un bon moyen. Mais ça je pense que @Jules* et @Pa2chant.bis ont à présent acquis une grande expérience pourront nous la transmettre. RawWriter (discuter) 8 février 2025 à 23:12 (CET)
- Bonne idée. Girart de Roussillon (Discrepance ?) 8 février 2025 à 22:25 (CET)
- Beaucoup de bien. --Pa2chant.bis (discuter) 8 février 2025 à 16:22 (CET)
- Je trouve que c'est une bonne idée (pour prendre le relai quand on aura fini de traiter les deux listes actuelles). — 𝒥𝓊𝓁ℯ𝓈 * 💬 8 février 2025 à 15:22 (CET)
- Un grand merci pour ce travail, qui met en lumière un thème dont j'ignorais quasiment tout. Beau travail et belle pédagogie. Tilcago (discuter) 1 avril 2025 à 10:32 (CEST)
Faux sites d'infos pour générer de la source
[modifier | modifier le code]Attention, j'ai l'impression que certains de ces sites peuvent très bien refourguer de la com préparée par une entreprise cliente, ce qui génère de la fausse source. J'ai l'impression de voir cela avec un site internet turc (Projet:Sources/Enquête genAI : analyse détaillée#rayhaber.com). Pour l'article Skyworth Auto, n'ayant pas réussi à trouver les infos mentionnées, j'ai préféré supprimer le passage. Girart de Roussillon (Discrepance ?) 8 février 2025 à 23:29 (CET)
Point d'étape 1
[modifier | modifier le code]Hello,
Petit point d'étape, une semaine après la publication de l'enquête. Pour commencer, merci à toutes et à tous pour votre participation au nettoyage et à l'analyse !
- Sur Projet:Sources/Enquête genAI : analyse détaillée (sites déjà analysés), l'écrasante majorité des sites a été traitée, dont 106 placés en liste noire. Il reste une vingtaine de sites à traiter, souvent avec plus d'une centaines de liens, et pour lesquels le traitement est parfois chronophage (par ex : remplacer les liens par leur version archivée). Pour vous éviter de les chercher, je les ai listés :
- afriquinfos.com
- aquitaineonline.com
- mobilicites.com
contreinfo.info- afriquesports.net
- musiqueurbaine.fr
- ginjfo.com (analyse communautaire souhaitée)
- miroir-mag.fr
- laminute.info
- sciencepost.fr
- gagadget.com
- gamereactor.fr (analyse communautaire souhaitée)
- cafebabel.fr
- homemedia.fr
- 59hardware.net
- legrisou.fr
- matbe.com
- ziknation.com
- observatoiredeleurope.com (cf. pdd de l'ODS)
- angersmag.info
- bigouden.tv
- essoneinfo.fr
- danseclassique.info (analyse communautaire souhaitée)
- Sur Projet:Sources/Enquête genAI : noms de domaine à analyser (sites à analyser), 56 sites (environ 20 % du total) ont fait l'objet d'une première analyse, qui doit être complétée par l'analyse de contributeurs tiers, avant actions éventuelles (nettoyage, mise en liste noire). Le reste des sites web demeure à analyser, cf. le mode d'emploi. Il n'y a pas d'urgence, c'est un marathon, pas un sprint, et l'essentiel est d'avoir une évaluation collaborative de qualité, qui permet aussi collectivement de gagner en compétences dans la détection des contenus genAI et autres fermes de contenus.
Votre aide est la bienvenue et je vais laisser un petit mot sur la pdd de l'ODS et sur le Bistro. — Jules* 💬 12 février 2025 à 22:10 (CET)
- P.-S. : mon activité wikipédienne (entre autres) est fortement ralentie par un retour de tendinite bras droit, donc je vais être moins actif sur ce dossier, en tout cas en clics et en écriture, désolé. Mais je lirai vos analyses. — Jules* 💬 14 février 2025 à 16:41 (CET)
400 de plus
[modifier | modifier le code]Hello,
Environ la moitié des 284 sites à analyser a fait l'objet d'une analyse par un bénévole (pour beaucoup par Aelxen, très motivé) : il faut ensuite qu'une deuxième personne valide l'analyse initiale pour commencer à traiter (supprimer ou remplacer les liens, quand c'est ce qui est préconisé).
D'autre part, Next a identifié plusieurs milliers de sites web genAI supplémentaires. Parmi eux, 400 noms de domaine sont présents sur Wikipédia et devront à leur tout être analysés. Je les ai ajoutés dans une liste distincte : Projet:Sources/Enquête genAI : noms de domaine à analyser/2.
Toutes les bonnes volontés sont les bienvenues. (J'espère pouvoir mettre la main à la pâte prochainement.)
— Jules* 💬 31 mars 2025 à 14:20 (CEST)
"Dictionnaire des wallonsé" par la Région wallonne
[modifier | modifier le code]Bonjour,
En s'interrogeant dernièrement sur les pages belges, et leurs absentes, on évoquait une personnalité. Dans ma recherche, je suis du coup tombé sur https://connaitrelawallonie.wallonie.be/fr/wallons-marquants/dictionnaire-des-wallons
Je me demandais si ce type de sources ne pourrait pas être considérée comme tertiaire ? Un avis sur la qualité de cette source ? Nanoyo (discuter) 21 février 2025 à 09:56 (CET)
- Ce site ne semble pas accessible depuis des IP basées en France, Roumanie et aux Pays-Bas. Je ne suis pas parvenu à le consulter, peut-être que l'absence de réponse à ton message s'explique par cela (son inaccessibilité depuis des IP basées ailleurs qu'en Belgique). Ticomolow (discuter) 1 mai 2025 à 21:32 (CEST)
- Hello, c'est tout récent et c'est normal. Le SPW a subi une énorme attaque informatique et a shutdown l'ensemble de ses sites jusqu'à pouvoir garantir leur sécurité en remise en ligne. Je suis d'ailleurs étonné que ça n'en parle pas encore sur WP. L'ensemble des sites gouvernementaux et publics de la moitié du pays en shutdown depuis bientot une semaine. Une énorme enquête interne, externe et internationale en cours. La crainte d'une attaque-test pour un enjeu plus gros... Nanoyo (discuter) 1 mai 2025 à 21:37 (CEST)
Occurrences de Wikinews dans les articles...
[modifier | modifier le code]Bonjour tout le monde,
il y a actuellement 115 articles qui utilisent Wikinews sur Wikipédia. Pour rappel, d'après la recommandation WP:WPS, Wikinews n'est évident pas une source fiable pour nos articles. Si vous pouvez aider à retirer les liens, ça serait sympa
! Tout n'est pas à jeter, certains liens sont pertinents, mais dans la plus part des cas, il existe des sources secondaires, sinon il faut remplacer par {{refsou}} ou {{refnec}}.
Bonne journée, 🐢 Monsieur Tortue (💬) 2 mars 2025 à 17:39 (CET)
- Bonjour
Mr Tortue : « Tout n'est pas à jeter, certains liens sont pertinents » => vous voulez dire qu'il faut conserver certains liens vers Wikinews ? Si oui, comment on fait pour faire la différence entre le bon lien vers Wikinews et le mauvais lien ? Merci d'avance Bienbom (discuter) 24 mars 2025 à 11:41 (CET)
- Bonsoir Bienbom
, quand je parle du « bon lien » (et pas du bon chasseur
), je pense notamment à ceux sur les pages comme Janvier 2010 en sport (« Visitez Wikinews pour lire... » en haut à droite) ou bien tout simplement sur Wikinews. Mais sinon oui, pratiquement tout lien wikinews qui se trouve dans une balise ref devrait être remplacé ou supprimé. Bonne soirée, 🐢 Monsieur Tortue (💬) 25 mars 2025 à 22:55 (CET)
- Merci pour la réponse, j'ai compris cette fois. Bienbom (discuter) 26 mars 2025 à 11:09 (CET)
- Bonsoir Bienbom
Jean Tosti
[modifier | modifier le code]Bonjour à tous.
J'ai été assez étonné de trouver deux extraits d'une même page de ce site sur deux articles différents[1][2], mais bon, sur des articles un peu anciens, cela peut arriver. Après un tour sur le site en question, puis sur sur sa page secondaire, là je me suis dis que peut-être, il y avait un peu de nettoyage à faire. En fait, ce site (en http et pas https) compte 163 liens sur Wikipédia. Vu sa qualité apparente, c'est assez étonnant, mais peut-être faudrait-il le signaler à un projet qui y tient ? SammyDay (discuter) 5 avril 2025 à 23:05 (CEST)
Wikipédia:Sondage/Médias nationaux et acceptabilité des bases de données
[modifier | modifier le code]Un sondage visant à savoir si la communauté souhaite ajouter les listes de médias par pays ainsi que les médias nationaux dans le critère spécifique de notoriété acceptabilité des bases de données est en cours de préparation.
Page du sondage : Wikipédia:Sondage/Médias nationaux et acceptabilité des bases de données
Plus de détails sur le Bistro : Wikipédia:Le Bistro/19 avril 2025#Médias nationaux et acceptabilité des bases de données
Excellente journée/soirée à vous , Wyslijp16 (discuter) 19 avril 2025 à 21:04 (CEST)