Reconocimiento de escenas violentas en imágenes de CCTV utilizando aprendizaje profundo

El uso cada vez más generalizado de sistemas de videovigilancia para identificar acciones o situaciones violentas en lugares como bancos, hospitales o avenidas, ha provocado la necesidad de implementar un método que permita el reconocimiento automático de este tipo de escenas con el fin de evitar po...

Full description

Autores:
Hernández Díaz, Kelly Gissela
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2021
Institución:
Universidad Militar Nueva Granada
Repositorio:
Repositorio UMNG
Idioma:
spa
OAI Identifier:
oai:repository.unimilitar.edu.co:10654/43682
Acceso en línea:
http://hdl.handle.net/10654/43682
Palabra clave:
COMPRESION DE IMAGENES
COMPRESION DE VIDEOS
VIOLENCIA
INTELIGENCIA ARTIFICIAL
violence recognition
image classification
deep learning
transfer learning
clasificación de imágenes
transferencia de aprendizaje
aprendizaje profundo
identificación de violencia
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-nd/4.0/
Description
Summary:El uso cada vez más generalizado de sistemas de videovigilancia para identificar acciones o situaciones violentas en lugares como bancos, hospitales o avenidas, ha provocado la necesidad de implementar un método que permita el reconocimiento automático de este tipo de escenas con el fin de evitar posibles riesgos a la seguridad e integridad de las personas. Por lo anterior, en el presente trabajo se propone un modelo de detección y clasificación de escenas violentas en imágenes de CCTV, basado en aprendizaje profundo. Específicamente, se utilizó el conjunto de datos CHU Surveillance Violence Dataset (CSVD), que corresponde a imágenes de videos de CCTV clasificadas en acciones tanto violentas como no violentas. Se evaluaron cuatro modelos pre-entrenados: VGG16, MobileNet, Inception y ResNet50, y mediante transferencia de aprendizaje se seleccionaron distintos puntos de congelamiento en cada una de sus arquitecturas. Adicionalmente, se emplearon tres optimizadores: Adam, Adadelta y SGD, con el fin de comparar su impacto en la clasificación de las imágenes. Para la evaluación del desempeño de los modelos a nivel de validación, se consideraron los valores obtenidos en las métricas Accuracy, Precision y Recall. Como resultado, el modelo proveniente de Inception logró un mejor rendimiento en general, a diferencia del modelo proveniente de ResNet50, que presentó los valores de métricas más bajos.