Reconocimiento de escenas violentas en imágenes de CCTV utilizando aprendizaje profundo
El uso cada vez más generalizado de sistemas de videovigilancia para identificar acciones o situaciones violentas en lugares como bancos, hospitales o avenidas, ha provocado la necesidad de implementar un método que permita el reconocimiento automático de este tipo de escenas con el fin de evitar po...
- Autores:
-
Hernández Díaz, Kelly Gissela
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2021
- Institución:
- Universidad Militar Nueva Granada
- Repositorio:
- Repositorio UMNG
- Idioma:
- spa
- OAI Identifier:
- oai:repository.unimilitar.edu.co:10654/43682
- Acceso en línea:
- http://hdl.handle.net/10654/43682
- Palabra clave:
- COMPRESION DE IMAGENES
COMPRESION DE VIDEOS
VIOLENCIA
INTELIGENCIA ARTIFICIAL
violence recognition
image classification
deep learning
transfer learning
clasificación de imágenes
transferencia de aprendizaje
aprendizaje profundo
identificación de violencia
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by-nc-nd/4.0/
Summary: | El uso cada vez más generalizado de sistemas de videovigilancia para identificar acciones o situaciones violentas en lugares como bancos, hospitales o avenidas, ha provocado la necesidad de implementar un método que permita el reconocimiento automático de este tipo de escenas con el fin de evitar posibles riesgos a la seguridad e integridad de las personas. Por lo anterior, en el presente trabajo se propone un modelo de detección y clasificación de escenas violentas en imágenes de CCTV, basado en aprendizaje profundo. Específicamente, se utilizó el conjunto de datos CHU Surveillance Violence Dataset (CSVD), que corresponde a imágenes de videos de CCTV clasificadas en acciones tanto violentas como no violentas. Se evaluaron cuatro modelos pre-entrenados: VGG16, MobileNet, Inception y ResNet50, y mediante transferencia de aprendizaje se seleccionaron distintos puntos de congelamiento en cada una de sus arquitecturas. Adicionalmente, se emplearon tres optimizadores: Adam, Adadelta y SGD, con el fin de comparar su impacto en la clasificación de las imágenes. Para la evaluación del desempeño de los modelos a nivel de validación, se consideraron los valores obtenidos en las métricas Accuracy, Precision y Recall. Como resultado, el modelo proveniente de Inception logró un mejor rendimiento en general, a diferencia del modelo proveniente de ResNet50, que presentó los valores de métricas más bajos. |
---|