logo de open sistemas en blanco

YOLOv9: Un avance revolucionario en la detección de objetos

¡Hola!👋Soy Henry Navarro Hernández

Matemático, apasionado de los datos y la IA

Tabla de contenidos

La tecnología no se detiene y avanza a la velocidad de la luz, y los modelos YOLO son la prueba viviente de ello. Aquí vamos a hablar de YOLOv9. Este modelo de detección de objetos ha dado un salto en la visión por computadora, combinando rapidez con precisión. Gracias a mejoras como el anclaje dinámico de cajas y una supresión no máxima mejorada, YOLOv9 puede analizar imágenes con una exactitud increíble.

Las versiones anteriores de YOLO han marcado hitos significativos en la evolución de la detección de objetos. Ultralytics ha estado en constante evolución, trabajando en nuevas arquitecturas y optimizaciones de velocidad, además de introducir modelos pre-entrenados para hacer el sistema aún más versátiles. YOLOv8 en 2023 introdujo un modelo unificado y escalable, mientras que YOLOv9 en 2024 redefine la detección de objetos con una precisión y velocidad incomparables. YOLOv10, también de 2024, representa otro gran salto en rendimiento y eficiencia.

En este artículo vamos a adentrarnos en el fascinante mundo de YOLOv9. Descubriremos los beneficios que ofrece este avanzado modelo de detección de objetos, exploraremos su arquitectura, y analizaremos tanto sus ventajas como sus desafíos. Además, daremos un vistazo al futuro de este modelo en el campo de la inteligencia artificial.

Estructura de la red: cómo YOLOv9 construye su Inteligencia

Capas convolucionales: En YOLOv9, las capas convolucionales son los bloques fundamentales para procesar las imágenes. Estas capas funcionan aplicando filtros que extraen características básicas como bordes y texturas. Imagina que cada filtro actúa como una lupa que examina diferentes aspectos de la imagen. La salida de estas capas son un conjunto de mapas de características que representan la información detectada en la imagen.

Pooling: Es una técnica utilizada para la dimensionalidad de los mapas de características mantener solo la información más relevante.Hay diferentes tipos de pooling, como el max pooling y el average pooling. Max pooling, por ejemplo, selecciona el valor máximo dentro de una ventana para representar un área específica de la imagen. Esto simplifica los datos y reduce el tiempo de cálculo sin perder información crucial para la detección de objetos.

Fully connected layers: Las capas totalmente conectadas (fully connected layers) se encuentran al final del modelo y tienen la tarea de integrar toda la información procesada por las capas anteriores. Estas capas combinan las características extraídas para tomar decisiones finales sobre el contenido de la imagen. Cada neurona en una capa totalmente conectada está conectada a todas las neuronas de la capa anterior, permitiendo una integración completa de la información.

YOLOv9: Mejoras respecto a versiones anteriores

Este modelo representa un salto cuántico en la detección de objetos en tiempo real, redefiniendo los estándares de rendimiento, precisión y eficiencia. A continuación te mostramos las innovaciones y optimizaciones que lo diferencian de sus predecesores.

Fundamentos de YOLOv9

Neck FPN Y PAN: Imagina que estás tratando de ver un objeto desde diferentes niveles de una escalera, desde la base hasta lo alto. Aquí es donde entra en juego la FPN (Feature Pyramid Network), que actúa como una escalera mágica que permite al modelo ver el objeto desde diferentes alturas, o mejor dicho, en diferentes escalas. Esto significa que puede detectar objetos grandes y pequeños con la misma facilidad, al combinar información de distintos niveles de la red.

Ahora, añade a PAN (Path Aggregation Network) a la mezcla, que funciona como un especialista en captar el contexto. PAN toma toda la información de las etapas más profundas de la red y la añade a las imágenes, mejorando la precisión al reconocer qué está pasando alrededor del objeto. Juntos, FPN y PAN ayudan a YOLOv9 a tener una visión más clara y completa de lo que está sucediendo en la imagen.

Head de una sola etapa: A diferencia de algunos modelos anteriores que necesitaban varias etapas para hacer una detección, YOLOv9 utiliza una head de una sola etapa. Esta cabeza única permite al modelo hacer predicciones sobre los cuadros delimitadores y las probabilidades de clase de los objetos de manera rápida y eficiente. Es como tener un atajo que ahorra tiempo y mantiene la precisión sin complicar las cosas.

Componentes clave de YOLOv9

Memoria privilegiada (CSPNet) YOLOv9 utiliza CSPNet para gestionar de manera eficiente la información importante en una imagen. CSPNet divide el proceso de extracción de características en dos caminos paralelos, uno para extraer información detallada y otro para captar información general. Esto ayuda a que el modelo recuerde detalles cruciales sin sobrecargar el sistema permitiendo una detección precisa incluso en imágenes con baja calidad o condiciones difíciles.

Cálculo rápido (Bottleneck): Esta técnica en YOLOv9 mejora la velocidad de procesamiento de imágenes al reducir la complejidad computacional y utilizar capas más eficientes, lo que permite realizar cálculos más rápidos. Gracias a esto, YOLOv9 puede detectar objetos en tiempo real, lo cual es esencial para aplicaciones que requieren respuestas instantáneas, como la robótica y los vehículos autónomos.

Información gradual programable (PGI): PGI es una técnica innovadora que asegura que los datos importantes se mantengan a lo largo de las capas profundas de la red neuronal. Esto evita la pérdida de información crucial  y permite que el modelo genere gradientes más confiables durante el entrenamiento, lo que resulta en una detección de objetos más precisa y eficiente.

Red de agregación de capas eficientes generalizadas (GELAN): GELAN optimiza cómo se combinan y utilizan las características extraídas a través de la red. Permite la integración flexible de distintos bloques computacionales, mejorando la eficiencia sin comprometer la velocidad. Esto hace que YOLOv9 sea altamente adaptable a diferentes aplicaciones y dispositivos maximizando tanto el rendimiento como la precisión

Funciones reversibles: YOLOv9 emplea funciones reversibles para mantener la integridad de la información a medida que pasa por las diferentes capas del modelo. Esto asegura que no se pierda información esencial y que el modelo pueda actualizarse de manera más precisa, mejorando así la calidad de la detección de objetos.

Modelos de detección de objetos ¿Quien gana? ¡Spoiler YOLO!

comparativa YOLOv9

Cuando se trata de elegir el mejor modelo de detección de objetos, es como elegir el aliado  perfecto para tu equipo. Aquí te presentamos una comparativa  para mostrarte por qué los modelos YOLO son la mejor opción en esta historia, especialmente frente a otros modelos populares como Faster R-CNN y RetinaNet.

Velocidad de inferencia 

Los modelos YOLOv8, YOLOv9 y YOLOv10 son increíblemente rápidos. Están diseñados para ofrecer resultados en tiempo real, perfectos para aplicaciones donde la velocidad es crucial.

Por otro lado Faster R-CNN es preciso pero toma su tiempo. Es un meticuloso que analiza cada detalle, lo que no siempre es ideal si necesitas respuestas rápidas.

Por último RetiNet encuentra el equilibrio entre velocidad y precisión pero aún no son tan rápidos como los modelos YOLO.

Precisión

Con cada nueva versión, los modelos YOLO se vuelven más precisos al incorporar tecnologías innovadoras que mejoran la exactitud sin sacrificar la velocidad. Mientras tanto, Faster R-CNN es extremadamente preciso, especialmente en configuraciones optimizadas, pero a veces a costa de la velocidad. RetinaNet introdujo la «focal loss» para mejorar la precisión en datos desbalanceados, pero aún está un paso detrás de las últimas versiones de YOLO, como YOLOv9 y el más reciente YOLOv10.

Eficiencia computacional

Definitivamente, los modelos YOLO son los reyes de la eficiencia, ya que utilizan menos recursos computacionales para obtener resultados excepcionales. Esto los hace ideales para todo tipo de hardware.

Mientras que Faster R-CNN necesita más potencia de procesamiento debido a su arquitectura más compleja, lo que puede ser un obstáculo si no cuentas con una supercomputadora. Por otro lado, RetinaNet es más eficiente que Faster R-CNN, pero aún no está tan optimizado como los modelos YOLO más recientes.

Arquitectura y flexibilidad

  • Los modelos YOLO: cuentan con arquitecturas modulares y flexibles que se adaptan fácilmente a diferentes tareas y tamaños.
  • Faster R-CNN: Es más rígido y complejo, lo que puede dificultar su adaptación a aplicaciones específicas.
  • RetinaNet: Su diseño es más sencillo que el de Faster R-CNN, pero todavía no alcanza la flexibilidad de los últimos modelos YOLO.

Requisitos de hardware

  • Los modelos YOLO son amigables con el hardware, lo que significa que no necesitas el equipo más caro para obtener grandes resultados.
  • Faster R-CNN: Requiere GPUs de alta gama para funcionar bien, lo que puede ser una limitación.
  • RetinaNet: Mejor que Faster R-CNN en términos de hardware, pero aún puede necesitar un equipo robusto para aplicaciones en tiempo real.

Ya sabes, si estás buscando una combinación de velocidad, precisión y eficiencia, los modelos YOLO lo logran. Aunque los otros modelos tienen sus propias fortalezas, no pueden igualar la combinación de ventajas que ofrecen las últimas versiones de YOLO, convirtiéndo estos modelos en las mejores opciones para la detección de objetos hoy en día.

Predicciones y posibilidades de YOLOv9

Los modelos YOLO para detección de objetos están marcando un gran avance con sus innovadoras mejoras en eficiencia y precisión. La versión YOLOv9 introduce técnicas revolucionarias como la Información de Gradiente Programable (PGI) y la Red de Agregación de Capas Eficiente Generalizada (GELAN), que abordan los problemas de cuello de botella en la información y la confiabilidad del gradiente que afectan a sus predecesores.

Mirando hacia el futuro, resulta un reto emocionante pensar en las posibilidades y direcciones que pueden tomar estos modelos. Se espera que busquen lograr una mayor precisión y generalización, refinando aún más la arquitectura para manejar una gama más amplia de datos desafiantes. Además, la velocidad de inferencia en tiempo real es crucial. En este contexto, es probable que se utilicen técnicas avanzadas para mejorar la precisión y reducir el tamaño del modelo, optimizando así el rendimiento en hardware específico.

Por otro lado, la capacidad de YOLOv9 para enfrentar entornos complejos, como condiciones de iluminación difíciles y oclusiones, será otra área de atención. La investigación también se centrará en integrar YOLOv9 con otras tareas de visión artificial, como la segmentación y el seguimiento de objetos, para crear flujos de trabajo más completos. Además, la optimización para dispositivos móviles y embebidos ampliará su aplicabilidad.

Reflexión

reflexion yolov9 1

Aunque YOLOv9 marcó un avance importante en la detección de objetos, la tecnología y la inteligencia artificial siguen evolucionando, acercándonos cada vez más a modelos más sofisticados. Así lo demuestra Ultralytics, que desde 2007 ha impactado nuestro mundo con sus innovadores modelos. Este año, a solo tres meses de diferencia, nos sorprendió con YOLOv9 y el revolucionario YOLOv10, que se destaca por ser el primer modelo de detección de objetos sin NMS (Non-Maximum Suppression).

Es emocionante pensar en cómo estos avances pueden transformar los procesos internos de las empresas, abriendo nuevas oportunidades para optimizar sus operaciones. Te invitamos a explorar y aprovechar estos modelos, ya sea YOLOv8, YOLOv9 o YOLOv10, y a estar atento a futuros desarrollos que podrían superar incluso a estos pioneros.

contacta

Desarrolla tu siguiente proyecto de Data, IA, Cloud o Transformación Digital con nosotros. Empieza hablando con nuestro equipo comercial.

Tech Matters

La Newsletter mensual para conocer los proyectos de tecnología e inteligencia artificial que están teniendo un impacto positivo en el mundo.

Plazas limitadas

Próximo evento
Lead&Inspire💡IA en Andalucía, innovación tecnológica como catalizador del desarrollo en los sectores clave

Plazas limitadas

Próximo evento
Lead&Inspire💡IA en Andalucía, innovación tecnológica como catalizador del desarrollo en los sectores clave