Reconocimiento de acciones humanas en video
Transcript of Reconocimiento de acciones humanas en video
Reconocimiento de Acciones Humanas en Video
Analí Alfaro AlfaroGRIMA – Machine Intelligence Group
Agenda
1. Motivación2. Propuesta
i. Problemaii. Hipótesisiii. Consideraciones y Problemasiv. Desarrollo del Método propuesto
3. Experimentos y Resultados4. Conclusiones5. Trabajos Futuros
Motivación
1.- Motivación
En la actualidad la información multimedia genera grandes volúmenes de datos.
Las cámaras de video producen datos en vivo y grabados de diversos ambientes, la cual inicialmente era útil para brindar seguridad.
Ejemplo : el subterráneo de Londres y el aeropuerto Heathrow cuenta en la actualidad con más de 5000 cámaras cada uno .
1.1. Aplicaciones del Reconocimiento en video
1.- Motivación
Propuesta
2.-Propuesta Problema:
Reconocer acciones humanas en video usando información de múltiples cámaras
Hipótesis: Es posible reconocer acciones humanas usando
información de movimiento y apariencia codificada en el video.
2.- Propuesta
Existen poses que modelan una actividad pues los seres humanosson capaces de reconocer una actividad observando sólo un
conjunto de poses.
2.- PropuestaDificultades Visuales:
2.Propuesta
2.Propuesta del Sistema :
Poses Representativas
A. Poses Representativas Sea un video V de n frames, acerca de una
actividad. Describir los frames de video usando
PHOG(Pyramidal Histogram of Oriented Gradient).
Clusterizar los frames descritos usando 5-means . Seleccionar los frames más cercanos a los 5 centroides Los frames seleccionados contienen poses
representativas de la actividad.
Ordenar los frames recuperados por tiempo.
A. Poses Representativas
Fig. Poses discriminativas de la acción Levantar la mano
B. Modelo de Apariencia El modelo de apariencia está dado por los 5
frames conteniendo poses representativas. Cada frame es representado por un descriptor PHOG (168 –dim).
Fig. Muestra las poses representativas de las actividades en la fila de arriba Levantar la mano y en la parte inferior voltear hacia atrás.
C. Modelo de Movimiento Busca describir el movimiento de una persona al
realizar una actividad. Usaremos el Flujo óptico para obtener la información del movimiento.
C. Modelo de Movimiento Como se observa en la imagen anterior los
canales son patrones que pueden ser
descritos de manera más sucinta. Para describirlos usaremos el filtro de Gabor.
Por cada componente calculamos su filtro de Gabor a diferentes escalas(S) y orientaciones (O). Así, cada componente genera SxO imágenes filtradas.
D. Clasificación Problemas:
Las poses representativas pueden repetirse entre clases diferentes…
Un enfoque de clasificación convencional puede producir confusión en el clasificador.
Una mejor solución puede ser emplear un enfoque de aprendizaje basado en Múltiples Instancias (MIL).
D. Clasificación Multiple Instance Learning (MIL):
MIL es un esquema de clasificación binaria. Una bolsa es positiva si al menos una instancia es
positiva y negativa si todas las instancias son negativas.
Usaremos los 5- frames representativos como instancias agrupados en una bolsa.
Experimentos y Resultados
3.- Experimentos y Resultados
Configuración de parámetros usados:
K= 5 , valor de frames de poses representativas. Para el modelo de apariencia usando PHOG , se
empleó 8 bins, 0-180 o y 3 escalas. Para el calculo de Gabor se usaron O= 4
orientaciones y S= 6 escalas.
3.- Experimentos y Resultados Configuración de MILBoost
Usamos varios clasificadores binarios en un ensamble.
Mayoría de Votos
MIL (1)
MIL (2)
MIL (3)
Acción
3.- Experimentos y Resultados Experimento 1
Base de Datos ClassRoom Usando un MilBoost independiente por cámara
3.- Experimentos y Resultados
Experimento 2: usando ensamble deMilBoost Base de Datos ClassRoom
3.- Experimentos y Resultados
Experimento 3: Base de datos KTH. Usando un clasificador multi-clase basado en
MilBoost binarios El desempeño alcanzado fue de 92.30 % usando
K=5
3.- Experimentos y Resultados
Base de datos KTH
Conclusiones
4.- Conclusiones
El problema de reconocer actividades es complicado. La combinación de apariencia y movimiento resulta
favorable y complementaria al reconocer actividades.
El enfoque MIL es útil para discriminar actividades que pueden ser muy similares (poses discriminativas).
Emplear información de varias cámaras puede beneficiar la robustez del sistema.
El flujo óptico es sensible a los procesos de codificación de los videos. Por eso resulta en detección de flujos que no existen.
Trabajos Futuros
4.- Trabajos Futuros
Experimentar más ampliamente con bases de datos estándares de múltiples cámaras.
Experimentar nuevas formas de obtener las poses representativas.
GRACIAS !!!
Preguntas ???