YOLO-NAS Pose: El juego cambia en pose estimation

¡Hola!👋Soy Henry Navarro Hernández

Matemático, apasionado de los datos y la IA

Tabla de contenidos

¡Bienvenido a un nuevo capítulo en el campo de la visión artificial! YOLO-NAS Pose, la última maravilla de la tecnología creada por Deci AI. Este pequeño gigante está a punto de cambiar por completo la forma en que entendemos y aplicamos la detección de objetos.

La última vez, nos maravillamos con YOLOv8 y su capacidad para detectar puntos clave y comprender el espacio con precisión. Pero ahora, con YOLO-NAS Pose, nos encontramos en un terreno completamente nuevo. Hablamos de una precisión meticulosa y una eficiencia que desafía cualquier expectativa, cortesía de una arquitectura neural que marca un antes y un después en la estimación de pose.

Pose estimation: A través de la historia

La estimación de pose se trata de descifrar la posición y orientación de un objeto o persona en imágenes o videos, y su importancia abarca campos tan diversos como la robótica, la realidad virtual, la seguridad y la salud. En los 2000, surgieron los primeros métodos basados en aprendizaje profundo, aprovechando herramientas como las redes neuronales para perfeccionar la pose estimation de manera más precisa y eficiente.

Hoy en día, los métodos de aprendizaje profundo son moneda corriente y han llevado la pose estimation a niveles altos de precisión y eficiencia.

La pose estimation,  es esencial en la visión artificial y ha experimentado una revolución. Modelos como AlphaPose, OpenPose y Detectron2 han marcado el camino, pero el YOLOv8 Pose se destacó como un pionero, aprovechando el marco de Ultralytics para ofrecer resultados sin precedentes.

Y justo cuando creíamos que habíamos explorado todos los rincones, aparece YOLO-NAS Pose. Con la innovadora búsqueda de arquitectura neuronal (NAS), este modelo no sólo supera, sino que redefine los límites de la precisión y eficiencia, llevando la pose estimation a nuevas alturas.

YOLO-NAS Pose de Deci AI: la solución más precisa y eficiente.

En el universo de la inteligencia artificial, Deci AI es un faro de innovación. Imagina una plataforma que no solo simplifica, sino que acelera el desarrollo de aplicaciones en visión artificial, IA Generativa y Procesamiento de Lenguaje Natural (NLP). Estamos hablando de herramientas avanzadas que no solo construyen, optimizan y despliegan modelos, sino que desatan todo el potencial de la creatividad digital.

Además, brinda una biblioteca de código abierto diseñada para entrenar modelos de visión artificial basados en PyTorch, con un claro propósito de contribuir al avance de la comunidad de IA. Esta biblioteca aprovecha SuperGradients para mejorar el rendimiento, permitiendo así la fácil capacitación y ajuste de modelos de visión artificial de última generación (SOTA o State-Of-The-Art). En resumen, Deci AI no solo simplifica, sino que potencia el desarrollo de aplicaciones en el complejo mundo de la inteligencia artificial.

Detrás del Nombre: ¿Qué significa YOLO-NAS Pose?

YOLO-NAS Pose se erige sobre los cimientos sólidos de YOLOv8, heredando su velocidad y precisión, pero con un toque de innovación gracias al poder del Neural Architecture Search (NAS). Este modelo, cuidadosamente diseñado para la estimación de poses, representa la fusión magistral entre la velocidad característica de YOLO y la precisión perfeccionada por la tecnología NAS.

Gracias al potente motor AutoNAC NAS de Deci y las técnicas de entrenamiento de vanguardia, YOLO-NAS Pose no solo eleva el estándar, sino que establece nuevos referentes en el emocionante campo de la estimación de pose.

YOLO-NAS Pose te ofrece cuatro variantes de tamaño distintas, cada una adaptada para diferentes necesidades computacionales y rendimientos:

tabla yolo nas modelo

Esta serie de modelos no sólo redefine la eficiencia en la estimación de pose sino que también amplía los límites del rendimiento y la economía operativa. Los avances pioneros de YOLO-NAS Pose en esta nueva frontera se despliegan vívidamente en el gráfico a continuación:

YOLO NAS
Rendimiento de YOLO-NAS Pose sobre el estado del arte (SOTA).

¿Cómo usar YOLO-NAS Pose?

Deci AI ha lanzado un par de notebooks llenos de conocimiento, diseñados para explorar los misterios de la inferencia y el entrenamiento con YOLO-NAS Pose. Este artículo, te servirá como guía para descubrir cómo aprovechar esta increíble herramienta en diferentes situaciones: desde imágenes estáticas hasta flujos de video y fotos de URLs, ¡todo con solo unas pocas líneas de código!

Instala todas las librerías y requisitos:

```
!pip install git+https://github.com/Deci-AI/super-gradients.git@feature/SG-1060-yolo-nas-pose
!pip install -U git+https://github.com/ytdl-org/youtube-dl.git
```

Cómo usar esta tecnología

Como puedes ver aquí, la librería SupeGradients soporta la mayoría de las fuentes comunes para YOLO-NAS Pose.

tabla yolo nas

Así que básicamente, las formas más comunes de usar YOLO-NAS son las siguientes:


```
import torch
from super_gradients.training import models

# Pretrained model on keypoints coco dataset.
yolo_nas_pose = models.get("yolo_nas_pose_l", pretrained_weights="coco_pose").cuda() # Models available: yolo_nas_pose_n, yolo_nas_pose_s, yolo_nas_pose_l

# Set device
device = 'cuda' if torch.cuda.is_available() else 'cpu'

# Run and save on single local image:
yolo_nas_pose.to(device).predict('hdlifepushups-crop.jpg', conf=0.25, iou=0.1).save('output_path') # Source: https://www.eehealth.org/-/media/images/modules/blog/posts/2018/4/hdlifepushups-crop.jpg

# Run and save on single local image:
yolo_nas_pose.to(device).predict('shuffle_dance.mp4', conf=0.25, iou=0.1).save('shuffle_dance_labeled.mp4') # Source: https://www.youtube.com/watch?v=IYm-n-vwhnw

# Run and save on remote url image:
yolo_nas_pose.to(device).predict('https://bod-blog-assets.prod.cd.beachbodyondemand.com/bod-blog/wp-content/uploads/2022/05/23121347/how-many-push-ups-in-a-day.960.jpg', conf=0.25, iou=0.1).save('output_path')
```

Resultados de YOLO-NAS

En imágenes:

R Yolo nas
Resultados de YOLO-NAS Pose en imágenes

En videos:

gif yolo 2 1

Resultados de YOLO-NAS Pose en videos

YOLOv8 Pose vs YOLO-NAS Pose la batalla está aquí

En el mundo de la visión artificial, YOLO-NAS destaca con velocidad y precisión sobresalientes. Esta herramienta no solo analiza figuras humanas erguidas con una destreza excepcional, sino que también demuestra una eficiencia impresionante. 

Hablando de cifras, incluso con su variante más grande (YOLO-NAS-L Pose), solo requiere 510 MB en una RTX 4060 con precisión completa (FP32). Pero, como en toda historia, hay giros inesperados. Al adentrarnos en el análisis, se ha observado que, en ciertos casos, el rendimiento de la herramienta puede enfrentar desafíos, particularmente al lidiar con personas en orientaciones horizontales. La complejidad aumenta al compararlo con el respetado YOLOv8, que en ocasiones supera a YOLO-NAS en la estimación precisa de poses en diversas situaciones visuales

yolo nas pose
Mira lo que puede hacer YOLOv8 en la izquierda. Detecta todas las personas y keypoints en la imagen
yolo nas pose1
Echa un vistazo a otro ejemplo: YOLOv8 en la izquierda haciendo su magia, detectando todas las personas y keypoints en la imagen.

Para mejorar el rendimiento de YOLO-NAS en la detección de poses horizontales, podríamos adoptar algunas tácticas de YOLOv8. ¿Su secreto? Algoritmos de data augmentation que dan ese toque especial durante el entrenamiento. Podríamos intentar emular esas técnicas para potenciar la precisión de YOLO-NAS en esos escenarios específicos. Te invito a que ajustemos las estrategias y veamos cómo brillan los resultados.

Reflexionemos

reflexion yolo nas pose

Una vez más nos encontramos ante una imponente herramienta como YOLO-NAS Pose que llega para redefinir las reglas del juego. Al fusionar la avanzada tecnología NAS de Deci AI, este innovador modelo logra un equilibrio perfecto entre velocidad, precisión y eficiencia, estableciendo un nuevo estándar de oro en el panorama tecnológico. En está guía de exploración, se ha demostrado la facilidad con la que puedes desplegar tus capacidades de vanguardia en diferentes medios, mostrando que la alta tecnología puede ser tan accesible como la práctica.

Aunque demuestra dominio en la mayoría de los escenarios, hay espacio para la mejora en la detección de sujetos orientados horizontalmente, donde YOLOv8 actualmente tiene ventaja. Esta brecha no es un obstáculo, sino una puerta abierta a futuras mejoras, quizás a través de estrategias de entrenamiento aumentado inspiradas por el éxito de YOLOv8. A medida que la tecnología avanza, la adaptabilidad y el rendimiento de YOLO-NAS Pose seguramente inspirarán y moldearán los futuros avances en la visión artificial. 

contacta

Desarrolla tu siguiente proyecto de Data, IA, Cloud o Transformación Digital con nosotros. Empieza hablando con nuestro equipo comercial.

Tech Matters

La Newsletter mensual para conocer los proyectos de tecnología e inteligencia artificial que están teniendo un impacto positivo en el mundo.