Magika: Identificación de tipos de archivo rápida y eficiente potenciada por IA

Puedes probar hoy mismo la demo web de Magika. O bien, instálala como una biblioteca de Python y una herramienta de línea de comandos independiente (la salida se muestra arriba) utilizando el comando estándar pip install magika.

Desde los primeros días de la informática, la detección precisa de tipos de archivo ha sido crucial. Linux viene equipado con libmagic y la utilidad file, que han sido el estándar de facto durante más de 50 años. Estas herramientas son esenciales para los sistemas operativos basados en Linux, facilitando enormemente la identificación y gestión de archivos para usuarios y desarrolladores.

Hoy en día, muchos programas dependen en gran medida de la detección precisa del tipo de archivo. Por ejemplo, los editores de código modernos la utilizan para determinar los esquemas de color de sintaxis. Sin embargo, la detección precisa de tipos de archivo sigue siendo un desafío debido a la diversidad de formatos y estructuras. Cada formato de archivo tiene su propia estructura única, complicando aún más la identificación.

Tradicionalmente, herramientas como libmagic han dependido de una colección de heurísticas y reglas personalizadas para la detección. Sin embargo, este enfoque manual es propenso a errores y no es suficiente para las necesidades actuales de la informática y la seguridad.

Para abordar estos desafíos, hemos desarrollado Magika, un innovador detector de tipos de archivo impulsado por IA. Magika aprovecha la tecnología de aprendizaje profundo, utilizando un modelo personalizado entrenado con Keras. A pesar de su pequeño tamaño de alrededor de 1 MB, Magika proporciona una identificación rápida y precisa de tipos de archivo. Durante la inferencia, Magika utiliza Onnx como motor para garantizar que los archivos sean identificados en cuestión de milisegundos, rivalizando con herramientas no basadas en IA incluso en la CPU.

Fuente:

https://opensource.googleblog.com/2024/02/magika-ai-powered-fast-and-efficient-file-type-identification.html