HANA-A1 Calculadora Predictiva
Bienvenido a la calculadora predictiva de absentismo laboral. Esta herramienta se ha desarrollado para ofrecer una estimación de la duración potencial de las ausencias del personal, proporcionando un apoyo valioso para la planificación y gestión de recursos humanos.
Introduce los datos para predecir las horas y la duración de la ausencia de un trabajador.
El Proyecto HANA-A1 es una iniciativa pionera en el campo de la salud ocupacional, desarrollada por el equipo de METSIAS. Nuestro objetivo es aplicar las últimas tecnologías de Machine Learning para crear herramientas predictivas que ayuden a las empresas y profesionales a gestionar proactivamente la ausencia laboral, fomentando entornos de trabajo más saludables y productivos. Este algoritmo ha sido desarrollado a partir de un amplio dataset de factores demográficos, clínicos y ocupacionales, utilizando modelos de IA avanzados como Random Forest y Gradient Boosting para ofrecer predicciones precisas.

Fiabilidad y Metodología de Desarrollo del Algoritmo Predictivo HANA para la Gestión Proactiva del Absentismo Laboral
La herramienta de cálculo predictivo HANA representa un avance significativo en la gestión proactiva del absentismo laboral, ofreciendo una estimación rigurosa y basada en evidencia. Su desarrollo ha seguido un proceso científico meticuloso, desde la recolección inicial de datos hasta la validación de sus modelos predictivos. Nuestro objetivo es proporcionar una herramienta complementaria que asista a profesionales de la salud ocupacional y gestores de talento en la identificación de patrones y la toma de decisiones estratégicas para el bienestar del personal.
El Punto Cero: Origen y Caracterización de la Base de Datos
Todo el proceso se inició a partir de una exhaustiva base de datos sobre absentismo laboral, que representa un conjunto de registros detallados de eventos de ausencia y perfiles de empleados. Esta base de datos fue cuidadosamente anonimizada para proteger la privacidad individual y sometida a un riguroso proceso de limpieza y preprocesamiento de datos.
Este "punto cero" incluyó tareas esenciales como:
• Detección y Tratamiento de Valores Atípicos: Identificación y gestión de datos inusuales que podrían distorsionar los resultados.
• Manejo de Datos Faltantes: Implementación de estrategias para completar la información ausente de manera coherente.
• Estandarización y Codificación: Transformación de variables a formatos adecuados para el análisis (por ejemplo, convertir días de la semana o motivos de ausencia en un formato que el algoritmo pueda entender, como one-hot encoding).
• Normalización: Ajuste de las escalas de diferentes variables para asegurar que ninguna variable dominara el análisis simplemente por tener valores numéricos más grandes.
La magnitud y representatividad de esta base de datos confieren una significancia estadística fundamental a nuestro análisis. Esto significa que los patrones y relaciones que el algoritmo ha aprendido no son coincidencias aleatorias, sino tendencias robustas que reflejan la realidad del absentismo laboral, permitiendo que las predicciones sean aplicables y fiables.
Identificación de Variables Clave: ¿Qué Factores Influyen Realmente?
Inicialmente, se recopiló un amplio espectro de variables que podrían influir en el absentismo, abarcando distintas categorías:
• Datos Demográficos y Personales: Edad, número de hijos, nivel de educación, hábitos sociales, número de mascotas.
• Aspectos Físicos: Peso, altura, índice de masa corporal (IMC).
• Factores Laborales y Contextuales: Gasto de transporte, distancia de residencia al trabajo, tiempo de servicio en la empresa, carga de trabajo promedio diaria, cumplimiento de objetivos, incidentes disciplinarios, mes de ausencia, día de la semana, y temporada.
• Causa Directa de la Ausencia: Razón específica de la ausencia.
Para determinar cuáles de estas variables eran verdaderamente influyentes, se emplearon métodos matemáticos y estadísticos rigurosos:
1. Análisis Estadístico Primario (ANOVA y Pruebas t): Se realizaron pruebas como ANOVA (Análisis de Varianza) y pruebas t de Student para identificar las variables que mostraban una asociación estadísticamente significativa con la cantidad de horas de ausencia.
2. Importancia de Variables en Modelos Avanzados: Los propios modelos de aprendizaje automático evalúan la "importancia" de cada variable en su capacidad predictiva global. Factores como el Motivo de ausencia y la Carga de trabajo promedio/día demostraron ser consistentemente las variables con mayor peso en la precisión de las predicciones.
Proceso de Creación: Del Análisis al Modelo Predictivo
El desarrollo culminó en la creación y validación de dos modelos predictivos complementarios:
1. Modelo de Regresión (Predicción de Horas Exactas de Ausencia):
Este modelo fue diseñado para predecir el número exacto de horas de absentismo. Se avanzó hacia modelos de aprendizaje automático avanzados como el Random Forest Regressor y el Gradient Boosting Regressor. El modelo Random Forest Regressor se consolidó como el de mejor rendimiento, con un R² de 0.1962 y RMSE de 9.3591 horas.
2. Modelo de Clasificación (Diferenciación entre Ausencias Cortas y Prolongadas):
Este modelo categoriza una ausencia como "corta" o "prolongada" utilizando la mediana de 3 horas como umbral de referencia. Demostró una capacidad discriminativa superior, alcanzando una Exactitud del 74.32% y un Área bajo la Curva ROC (AUC) de 0.84.
Ambos modelos fueron entrenados utilizando el 90% de la base de datos para el aprendizaje y el 10% restante para la prueba, asegurando una evaluación imparcial de su rendimiento en datos no vistos.
Fiabilidad Científica y Utilidad Práctica en Salud Ocupacional
El algoritmo predictivo HANA es el resultado de una ingeniería de datos y un análisis estadístico exhaustivos. Su fiabilidad radica en la calidad controlada de la base de datos de origen, la aplicación de métodos matemáticos para identificar los factores más influyentes y la validación rigurosa de los modelos predictivos.
Es crucial enfatizar que esta herramienta es un apoyo basado en datos para el profesional de la salud ocupacional y los gestores de recursos humanos. No pretende sustituir el juicio clínico ni la interacción humana en la gestión del bienestar del empleado. Su valor reside en complementar la experiencia profesional con una estimación fundamentada, permitiendo decisiones más proactivas, personalizadas y basadas en la evidencia para optimizar la gestión del absentismo y fomentar un ambiente laboral saludable.