¡Pillados! El aprendizaje automático revoluciona la detección de estafas digitales

El fraude digital alcanza cifras récord a nivel global, impulsado por la tecnología y la falta de control. Ahora, una nueva herramienta de inteligencia artificial promete cambiar las reglas del juego en su detección. Así funciona contra los ciberdelitos.

Por Enrique Coperías

Investigadores de la Universidad Atlántica de Florida han desarrollado un método de detección de ciberfraudes con inteligencia artificial que no requiere datos etiquetados, ideal para sectores como salud y finanzas, donde el etiquetado manual es costoso y sensible. Imagen generada con DALL-E

Solo en Estados Unidos, el fraude está más presente que nunca, y su rostro es cada vez más digital. En 2023, las pérdidas por fraude superaron por primera vez los 10.000 millones de dólares, con cifras alarmantes en múltiples sectores: solo el fraude con tarjetas de crédito representa 5.000 millones al año, lo que afecta a seis de cada diez usuarios estadounidenses.

Por su parte, el robo de identidad generó pérdidas de 16.400 millones en 2021, el fraude con Medicare alcanza los 60.000 millones anuales, y las pérdidas gubernamentales podrían oscilar entre 233.000 y 521.000 millones de dólares, acumulando pagos indebidos por un total de 2,7 billones desde 2003.

En 2023, España registró 426.744 fraudes informáticos, lo que representa un aumento del 27% respecto al año anterior, y triplica las cifras de 2018.

Ante este panorama, la inteligencia artificial (IA), y especialmente el aprendizaje automático o machine learning, se ha convertido en una aliada clave contra la ciberdelincuencia. Estas tecnologías permiten analizar millones de datos en tiempo real para detectar patrones sospechosos, desviaciones en el comportamiento de los usuarios y la ejecución de operaciones anómalas.

Una solución para uno de los mayores retos del machine learning

Pero detectar fraude no es sencillo: los casos reales de fraude son muy pocos en comparación con los millones de transacciones normales, y además, los datos suelen estar incompletos o sin etiquetar.

Para enfrentar este desafío, un equipo de investigadores de la Facultad de Ingeniería y Ciencias de la Computación de la Universidad Atlántica de Florida (FAU) ha desarrollado un nuevo método de detección de fraude basado en inteligencia artificial, que no necesita datos etiquetados previamente, una de las principales barreras en sectores como la sanidad y las finanzas. En estas, el etiquetado manual es costoso y puede afectar a la privacidad.

Este innovador sistema permite generar etiquetas binarias —fraude o no fraude— en conjuntos de datos extremadamente desequilibrados, en los que los casos fraudulentos representan menos del 0,2% del total.

El sistema fue probado con dos bases de datos reales: una de más de 280.000 transacciones de tarjetas de crédito en Europa (2013), y otra con más de cinco millones de reclamaciones del programa Medicare Part D entre los años 2013 y 2019.

Más eficaz que los métodos tradicionales

Los resultados de la investigación, publicados en el Journal of Big Data, demuestran que este enfoque supera a métodos ampliamente utilizados, como el Isolation Forest, un algoritmo de machine learning que detecta anomalías separando rápidamente los datos atípicos del resto. Es más, el nuevo modelo genera etiquetas más precisas incluso en condiciones difíciles. Y no solo esto, permite evaluar directamente los resultados sin necesidad de entrenar un clasificador supervisado adicional.

«El uso de machine learning en la detección de fraude conlleva muchas ventajas —explica el doctor Taghi Khoshgoftaar, autor principal del estudio y catedrático Motorola del Departamento de Ingeniería Eléctrica y Ciencias de la Computación de FAU. Y añade—: Los algoritmos pueden etiquetar datos mucho más rápido que los seres humanos, lo que mejora enormemente la eficiencia».

En palabras de Khoshgoftaar, «el método representa un gran avance, especialmente en conjuntos de datos muy desbalanceados, porque reduce la carga de trabajo al minimizar los casos que requieren revisión manual, algo crucial en áreas como el fraude con tarjetas de crédito o en Medicare, el programa de seguro médico del Gobierno de Estados Unidos para personas de 65 años o más».

Cómo funciona el nuevo sistema

Este sistema se basa en un enfoque no supervisado, lo que significa que no necesita ejemplos etiquetados de antemano para funcionar. Esto es especialmente útil en sectores como la salud, donde la privacidad de los datos impide compartir información sensible para el entrenamiento de modelos, y donde etiquetar manualmente millones de reclamaciones es inviable.

La técnica combina tres algoritmos de aprendizaje no supervisado —utilizando la biblioteca SciKit-learn— con un innovador enfoque de gradiente por percentil. Juntos permiten identificar solo los casos de fraude más fiables, y refina las etiquetas para minimizar falsos positivos, o sea, transacciones genuinas marcadas por error como fraudulentas.

«Nuestro sistema genera etiquetas tanto para fraudes como para casos legítimos, y luego refina esas etiquetas para conservar solo las más confiables” —explica Mary Anne Walauskis, primera autora del estudio y doctoranda en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación de FAU. Y continúa—: Eso es clave para mejorar la detección de fraude, reduciendo alarmas innecesarias y aumentando la precisión».

El informe Global Cybercrime Report 2025 advierte sobre una alarmante tendencia: el costo global del cibercrimen alcanzará los 11,9 billones de dólares en 2026

El informe Global Cybercrime Report 2025 advierte sobre una alarmante tendencia: el costo global del cibercrimen alcanzará los 11,9 billones de dólares en 2026 y podría escalar hasta los 19,7 billones en 2030, superando incluso el PIB nominal actual de China. Imagen generada con DALL-E

Un impacto más allá del dinero

Este enfoque escalable requiere un mínimo conocimiento experto, lo que lo hace accesible para muchas industrias. Las etiquetas generadas se utilizan para establecer intervalos de confianza, reduciendo así de forma significativa los errores de clasificación sin necesidad de costosas anotaciones manuales.

La clave está en que este sistema no intenta clasificar directamente todo el conjunto de datos, sino que primero genera una gran cantidad de etiquetas preliminares, y luego selecciona un subconjunto pequeño y muy confiable, lo que permite crear modelos más precisos a partir de esas selecciones.

Más allá del coste económico, el fraude deja una huella profunda en la sociedad: genera estrés, pérdida de confianza, daños reputacionales y, en el caso de la sanidad, perjudica la calidad del cuidado.

«El impacto del fraude va mucho más allá de las pérdidas financieras— advierte Stella Batalama, decana de la Facultad de Ingeniería y Ciencias de la Computación. Y añade—: Combatirlo resulta fundamental para proteger tanto a los sistemas financieros como a los sanitarios, y a la ciudadanía en general».

Casos prácticos: salud y finanzas

La acumulación de pérdidas también genera efectos colaterales: encarece los seguros, ralentiza la atención médica, eleva las comisiones bancarias y obliga a los Gobiernos a recortar en otros servicios públicos para compensar los fraudes. Detectarlos rápidamente significa también evitar que se expandan, que se normalicen o que los sistemas pierdan capacidad de respuesta.

En el caso de Medicare, los fraudes pueden incluir desde cobros por tratamientos inexistentes hasta falsificación de recetas. Detectar estos fraudes con rapidez no solo evita el gasto innecesario, sino que protege a los pacientes de recibir atención inadecuada o peligrosa.

Lo mismo ocurre con las tarjetas de crédito: la detección temprana de transacciones sospechosas impide robos mayores y reduce la necesidad de bloquear cuentas completas.

La ventaja de este nuevo sistema es que puede aplicarse en ambos entornos sin necesidad de adaptar los modelos manualmente, porque aprende a partir de patrones anómalos y no necesita conocer previamente lo que es un caso de fraude para detectarlo.

Ejemplo de matriz de etiquetas con etiquetas previstas.

Mirando al futuro: automatización total

El equipo de la FAU planea ahora mejorar el sistema incorporando una función que automatice la selección del número óptimo de casos positivos, lo que permitirá aumentar aún más su eficiencia y aplicabilidad a gran escala. Esto convertirá el sistema en una solución completa de principio a fin, capaz de integrarse directamente en plataformas bancarias, gubernamentales o sanitarias.

Al eliminar la dependencia de datos etiquetados y reducir el margen de error, este modelo promete hacer más accesible y eficaz la detección automatizada de fraude, un objetivo prioritario en la era digital.

Con la detección de fraude como uno de los grandes desafíos del mundo actual, esta nueva herramienta representa un avance prometedor y accesible, capaz de mejorar la seguridad de millones de usuarios y ahorrar miles de millones de dólares en pérdidas anuales. ▪️

Anterior
Anterior

Primera imagen confirmada de un calamar colosal en las profundidades oceánicas

Siguiente
Siguiente

El núcleo fundido de Marte podría explicar los caprichos magnéticos del planeta rojo