Cercetătorii au demonstrat o soluție automată bazată pe algoritmi, care este comparabilă și uneori mai bună decât oamenii, identificând corect știrile false. Sistemul care identifică indicii lingvistice revelatoare în știrile false ar putea oferi agregatorului de știri și site-urilor de socializare precum Google News o nouă armă în lupta împotriva dezinformării.
O soluție automatizată ar putea fi un instrument important pentru site-urile care se luptă să facă față unui atac de știri false, adesea create pentru a genera clicuri sau pentru a manipula opinia publică, a declarat Rada Mihalcea, profesorul Universității din Michigan din spatele proiectului..
Noul sistem a găsit cu succes falsuri până la 76% din timp, comparativ cu o rată de succes umană de 70%, potrivit studiului care va fi prezentat pe 24 august la Conferința internațională de lingvistică computațională din Santa Fe, New Mexico..
Cercetătorii consideră că abordarea lor de analiză lingvistică ar putea fi utilizată și pentru a identifica articole de știri false care sunt prea noi pentru a fi dezvăluite prin încrucișarea faptelor lor cu alte povești. Abordarea analizei lingvistice analizează atribute cuantificabile precum structura gramaticală, alegerea cuvintelor, punctuația și complexitatea.
Pentru studiu, echipa lui Mihalcea și-a creat propriile date, crowdsourcing-ul unei echipe online care a realizat în mod invers știri autentice verificate în falsuri. Astfel, cele mai multe știri false reale sunt create, a spus Mihalcea, de către persoane care le scriu rapid în schimbul unei recompense monetare.
Participanții la studiu au fost plătiți pentru a transforma știrile scurte și reale în știri similare, dar false, imitând stilul jurnalistic al articolelor. La sfârșitul procesului, echipa de cercetare avea un set de date de 500 de știri reale și false. Apoi au alimentat aceste perechi de povești etichetate către un algoritm care a efectuat o analiză lingvistică, învățându-se să facă distincția între știrile reale și cele false.
În cele din urmă, echipa a transformat algoritmii într-un set de date de știri reale și false extrase direct de pe web, atingând rata de succes de 76%. Detaliile noului sistem și setul de date pe care echipa le-a folosit pentru a-l construi ar putea fi utilizate de site-urile de știri sau de alte entități pentru a-și construi propriile sisteme de detectare a știrilor false, a spus Mihalcea.