Video

Blog

HogarHogar / Blog / Video

May 13, 2024

Video

Scientific Reports volumen 13, Número de artículo: 1038 (2023) Citar este artículo 1400 Accesos 1 Detalles de Altmetric Metrics Para garantizar resultados clínicos satisfactorios, se debe evaluar la habilidad quirúrgica

Scientific Reports volumen 13, número de artículo: 1038 (2023) Citar este artículo

1400 Accesos

1 altmétrica

Detalles de métricas

Para garantizar resultados clínicos satisfactorios, la evaluación de las habilidades quirúrgicas debe ser objetiva, eficiente en el tiempo y preferentemente automatizada, algo que actualmente no se puede lograr. La evaluación basada en video (VBA) se está implementando en entornos intraoperatorios y de simulación para evaluar la ejecución de habilidades técnicas. Sin embargo, VBA es manual, requiere mucho tiempo y es propenso a interpretaciones subjetivas y poca confiabilidad entre evaluadores. En este documento, proponemos un modelo de aprendizaje profundo (DL) que puede proporcionar de forma automática y objetiva una evaluación sumativa de alto riesgo de la ejecución de habilidades quirúrgicas basada en transmisiones de video y una evaluación formativa de bajo riesgo para guiar la adquisición de habilidades quirúrgicas. La evaluación formativa se genera utilizando mapas de calor de características visuales que se correlacionan con el desempeño quirúrgico. Por lo tanto, el modelo DL allana el camino para la evaluación cuantitativa y reproducible de tareas quirúrgicas a partir de videos con potencial para una amplia difusión en la capacitación, certificación y acreditación quirúrgica.

La habilidad del cirujano es el determinante más importante del éxito de un procedimiento quirúrgico1. La evaluación de las habilidades quirúrgicas puede ser formativa o sumativa. La evaluación formativa es de bajo riesgo. Los expertos suelen proporcionarlo como guía durante la cirugía. Por otro lado, la evaluación sumativa se emplea en certificaciones o acreditaciones de alto riesgo y generalmente se asocia con una puntuación cuantitativa calculada por los supervisores. Aunque la observación directa de los cirujanos en el quirófano o en un simulador sigue siendo el estándar de oro actual para la evaluación de habilidades quirúrgicas, la evaluación basada en video (VBA) está recibiendo cada vez más atención2,3,4. La Junta Estadounidense de Cirugía (ABS) está explorando VBA como un componente del Programa de Certificación Continua para cirujanos generales y especialidades relacionadas5. Sin embargo, como procedimiento post hoc, VBA requiere mucho tiempo y manual, es subjetivo y propenso a una confiabilidad deficiente entre evaluadores2,3. Además, las metodologías VBA a menudo implican editar los vídeos en fragmentos para reducir la carga de trabajo3, promoviendo la subjetividad debido al sesgo del editor2,3. Además, numerosos estudios han informado evidencia de validez inferior y predicción de puntuación inflada a través de videos editados en comparación con videos completos3. Otra limitación es que VBA es casi exclusivamente formativo, es decir, de bajo riesgo, y existe una brecha notable en la literatura sobre el uso de VBA para evaluación sumativa, es decir, de alto riesgo3, como los Fundamentos de Cirugía Laparoscópica (FLS). Por tanto, existe la necesidad de desarrollar un enfoque objetivo, eficiente y automatizado para VBA.

Se han desarrollado varios modelos de aprendizaje profundo (DL) para la evaluación de habilidades objetiva y automatizada6, la mayoría de los cuales se basan en la obtención de datos cinemáticos basados ​​en sensores de los cirujanos. Esto requiere mucho tiempo y trabajo y puede interferir con la tarea quirúrgica. Por el contrario, los vídeos se recopilan de forma rutinaria como parte de la mayoría de los procedimientos quirúrgicos2, lo que hace posible la recopilación de datos a gran escala. Los modelos de DL basados ​​en vídeo existentes utilizan la edición para simplificar el problema7,8. Además, estos modelos utilizan fragmentos que conservan etiquetas en los que cada fragmento comparte la etiqueta del vídeo completo. Esto es problemático ya que es posible que las etiquetas de todo el vídeo no se apliquen a fragmentos individuales. Finalmente, los modelos DL actuales no proporcionan medios para evaluar las características más destacadas que caracterizan el desempeño. Las técnicas explicables de inteligencia artificial (XAI)9,10, como los mapas de activación de clases (CAM)11, pueden abordar este problema10,12. Sin embargo, no se ha demostrado que proporcionen una evaluación formativa de manera confiable.

Para abordar estas limitaciones, proponemos un modelo DL, la Red de evaluación basada en video (VBA-Net), que puede utilizar secuencias de video quirúrgicas completas para proporcionar puntuaciones quirúrgicas sumativas y generar retroalimentación formativa basada en el desempeño quirúrgico. La Figura 1 ilustra la descripción general del estudio. Se utilizaron dos conjuntos de datos relacionados con el corte de patrones quirúrgicos (PC) para desarrollar VBA-Net (Fig. 1a). Además, para dilucidar la generalización de nuestro modelo, lo comparamos con el conjunto de datos públicos más utilizado, JIGSAWS6,13. Finalmente, proporcionamos retroalimentación formativa a través de CAM y presentamos una herramienta estadística independiente del modelo para validar su prominencia.

Descripción general del estudio. (a) Datos demográficos y descriptivos del sujeto. (b) La canalización de VBA-Net. El modelo utiliza Mask R-CNN para generar secuencias de movimiento de herramientas a partir de cuadros de video. Luego, el codificador automático de eliminación de ruido (DAE) incorpora las secuencias para que el clasificador prediga el rendimiento sumativo y formativo. El conjunto de datos de PC principal se utiliza para desarrollar el modelo, es decir, ajustar sus hiperparámetros. Para la validación se utiliza, por el contrario, el conjunto de datos de PC adicional. El conjunto de datos JIGSAWS se utiliza para comparar el modelo con los modelos de alto rendimiento de la literatura.

Hay dos conjuntos de datos de PC en este estudio, a saber, primario y adicional. La PC es una de las cinco tareas del programa de certificación FLS, un requisito previo para la certificación de la junta en cirugía general y de obstetricia y ginecología14. PC implica tijeras laparoscópicas para cortar un patrón circular impreso en una gasa de 10 cm × 10 cm mientras se aplica tracción con el disector Maryland (pinza). Ambos conjuntos de datos de PC se recopilaron en la Universidad de Buffalo y todos los ensayos se ejecutaron de acuerdo con las directrices y regulaciones pertinentes aprobadas por la Junta de Revisión Institucional (IRB) de la Universidad de Buffalo y el Instituto Politécnico Rensselaer. Además, se informó a los sujetos sobre el protocolo experimental y se les proporcionó su consentimiento informado por escrito para el estudio.

El conjunto de datos de PC principal tiene 21 estudiantes de medicina (6 hombres y 15 mujeres), con edades entre 21 y 30 años, con una edad media de 23,95 años, ninguno de los cuales tiene experiencia previa en laparoscopia. En este conjunto de datos, los sujetos ejecutaron la tarea durante 12 días generando 2055 ensayos después de que se eliminaron los que tenían puntuaciones negativas. El primer día, cada sujeto ejecutó la tarea una vez. Entre los días 2 y 12, los sujetos realizaron hasta diez pruebas de PC. Finalmente, el último día se reportaron cinco repeticiones por cada sujeto. Las puntuaciones de desempeño en FLS son de alto riesgo basadas en métricas de puntos finales, por ejemplo, tiempo y error de precisión15. Estos puntajes clasifican a los sujetos en clases de aprobado/reprobado (Tabla S1) en función de un umbral de corte15. En particular, esto resultó en un conjunto de datos desequilibrado donde la proporción de aprobación/rechazo es 8,9. El conjunto de datos de PC principal se utilizó para desarrollar el modelo, es decir, seleccionar los hiperparámetros.

Por otro lado, el conjunto de datos de PC adicional tiene 12 sujetos de una cohorte independiente, que realizan hasta 26 veces cada uno en un día, generando 307 ensayos. No observamos un desequilibrio en este conjunto de datos. Esta cohorte se utilizó para validar la generalización del modelo en sujetos invisibles. En particular, los videos se recopilaron a través de la cámara tipo caja FLS estándar con resolución de 640 × 480 a 30 FPS para ambos conjuntos de datos de PC.

El conjunto de datos JIGSAWS13, por otro lado, contiene datos basados ​​en sensores recopilados a través del sistema quirúrgico da Vinci (Intuitive Surgical, Inc) para tareas: sutura, paso de agujas y atado de nudos13. El conjunto de datos tiene tres clases de habilidades quirúrgicas, a saber, principiante, intermedia y experta, según las horas pasadas en el quirófano (OR). Además, se encuentran disponibles puntuaciones modificadas de la Evaluación Estructurada Objetiva de Habilidades Técnicas (OSATS). OSATS es una rúbrica de evaluación formativa3 calculada en base a criterios informativos de bajo riesgo13,16. Además, están disponibles escalas de calificación global (GRS), una suma de elementos individuales en la rúbrica OSATS. Este conjunto de datos se utilizó para medir la eficacia de VBA-Net en diferentes tareas quirúrgicas.

Varios estudios han demostrado la eficacia del seguimiento de instrumentos basado en vídeo para una evaluación objetiva y automatizada de habilidades17,18,19,20,21,22. Por lo tanto, utilizamos una red de segmentación de instancias, la red neuronal convolucional basada en regiones de máscara (máscara R-CNN) (para conocer la arquitectura, consulte la figura S3). La segmentación de instancias se diferencia de la detección de objetos en que el fondo también es una clase en entrenamiento y el modelo aprende a segmentar la instancia fuera de su fondo. Esto resulta beneficioso cuando se trabaja en conjuntos de datos con una vista de cámara constante, por ejemplo, los conjuntos de datos utilizados en este estudio, especialmente cuando los elementos de fondo, como clips, se parecen a las herramientas quirúrgicas en uso.

Mask R-CNN23 funciona extrayendo primero características espaciales de los cuadros de entrada utilizando una red troncal de CNN, es decir, ResNet50. Luego, las características espaciales se procesan en Region Proposal Network (RPN), generando regiones de interés (RoI) para cada instancia. Aquí, se supone que el RoI es correcto para confianzas de detección de 0,7 o superiores. A continuación, se aplica RoIPool a un tercio del RoI para extraer mapas de características destacadas y se impone el algoritmo RoIAlign para alinear las características anteriores y posteriores a RPN. Finalmente, las características generadas se introducen en las capas convolucionales, generando la clase y la máscara binaria para cada instancia y las respectivas coordenadas del cuadro delimitador.

Una vez entrenado, se utilizó Mask R-CNN, \({f}_{m}\left(.\right)\), para generar cuadros delimitadores para ambas herramientas quirúrgicas en cada cuadro en una prueba determinada, es decir, \( {{\varvec{K}}}_{i}=\left[{f}_{m}\left({x}_{i1}\right), \dots,{f}_{m}\left ({x}_{ij}\right),\dots {,f}_{m}\left({x}_{iT}\right)\right]\in {\mathbb{R}}^{TxD }\). Aquí, \({x}_{ij}\) es el jésimo fotograma de la iésima prueba en el conjunto de datos, y \(T\) es la longitud temporal, es decir, el número de fotogramas. Por otro lado, \(D\) es el número de características de entrada. \(D\) es 4 en este estudio: coordenadas cartesianas de Grasper y Scissor. Finalmente, \({\varvec{K}}= \left[{K}_{1}, \dots ,{K}_{i},\dots ,{K}_{N}\right]\in { \mathbb{R}}^{Nx(TXD)}\) es el conjunto de datos de las secuencias de movimiento de la herramienta con N ensayos. Aquí, N es 2055 y 307 para los conjuntos de datos de PC primarios y adicionales. En particular, para los fotogramas en los que el modelo no pudo detectar las herramientas, es decir,\({f}_{m}\left({x}_{ij}\right)=\{\}\), las coordenadas de los siguientes y los fotogramas anteriores se promediaron, como se ve en la ecuación. (1).

Extrajimos características integradas de las secuencias de movimiento de la herramienta a través de un codificador automático de eliminación de ruido (DAE) (para la arquitectura, consulte la Fig. S4) con ruido gaussiano (alfa = 0,001). El DAE es un codificador automático basado en CNN no supervisado. Los codificadores automáticos se han utilizado para la evaluación de habilidades quirúrgicas en varios estudios17,22,24,25. DAE consta de un codificador para extraer las características importantes (\({{\varvec{K}}}_{{\varvec{e}}})\) de la entrada ruidosa y un decodificador para reconstruir la entrada en función de las características. proporcionado por el codificador. Aquí, \({{\varvec{K}}}_{{\varvec{e}}}= \sigma \left(\left[{K}_{1}, \dots ,{K}_{i} ,\dots ,{K}_{N}\right]\right)\in {\mathbb{R}}^{Nx(TX{D}_{e})}\). \(\sigma\) es la salida del codificador y \({D}_{e}\) es el número de características de salida.

Una vez que se extrajeron las características destacadas, \({{\varvec{K}}}_{{\varvec{e}}}\), utilizamos un clasificador basado en CNN (Fig. S4), evaluamos las habilidades sumativas y proporcionó retroalimentación formativa. Utilizamos un bloque residual interno de atención para evitar el problema del gradiente de desaparición26 tanto para el codificador como para el clasificador. Específicamente, nuestro bloque residual constaba de dos capas convolucionales idénticas y una capa de identidad. Además, se incluyeron dos capas de atención espacial y de compresión de canales y excitación de canales (scSE)27 por su capacidad para recalibrar los mapas de características de entrada resaltando las características más destacadas en el bloque residual. El primer scSE se colocó entre la capa convolucional inicial y la segunda. El segundo scSE se realizó después de que se agregaron los pesos residuales a la segunda capa convolucional. Además, las capas convolucionales dentro del bloque residual se dilataron durante el entrenamiento para el clasificador28.

Al entrenar el clasificador, una capa de Global Average Pooling (GAP)29 siguió al bloque residual, agregando los mapas de características y alimentándolos a la capa completamente conectada mientras permitía el entrenamiento del modelo con entradas de diferentes tamaños. Por último, se agregó una capa completamente conectada que consta de un nodo y sin activación cuando se entrena para la regresión y dos nodos y activación Softmax para la clasificación binaria para generar las puntuaciones FLS y las clases de habilidades, respectivamente.

Entrenamos previamente Mask R-CNN en el conjunto de datos COCO30 y ajustamos el clasificador en fotogramas de ambos conjuntos de datos de PC. Además, la capa de salida se configuró para acomodar cada clase, es decir, tijeras, pinzas y el fondo. Se seleccionaron aleatoriamente 702 fotogramas para el entrenamiento de entre los 2362 vídeos en los que estaban disponibles tanto las tijeras como la pinza. Esto es para optimizar la cobertura de escenarios conflictivos durante el entrenamiento. Se utilizan 562 (80%) fotogramas para entrenar y validar Mask R-CNN y 140 (20%) para pruebas. Entre estos 562 fotogramas, 450 (80%) y 112 (20%) se utilizaron para entrenamiento y validación, respectivamente. Además, se cambió el tamaño de todos los cuadros a 512 × 512 desde 640 × 480. Finalmente, se usó el VGG Image Annotator (VIA)31 para anotar información sobre herramientas de tijeras y pinzas en cada cuadro usando anotación de polígonos, la entrada estándar para Mask R-CNN23.

Entrenamos solo los jefes de (Mask R-CNN) durante 40 épocas mientras manteníamos las capas restantes congeladas. Aumentamos los fotogramas implementando Desenfoque gaussiano (sigma = 0–5) y volteo horizontal el 50% del tiempo por época.

Antes de entrenar el codificador automático de eliminación de ruido (DAE) y el clasificador mediante las secuencias de movimiento extraídas, \({\varvec{K}}\), cada secuencia se redujo a 1 FPS para reducir el tiempo de entrenamiento20. Además, las secuencias se normalizaron mediante la normalización mínima-máxima. Por último, las puntuaciones de rendimiento se procesaron previamente mediante normalización z y se utilizó una codificación activa para las etiquetas de clase. Se utilizó el mismo proceso de preprocesamiento que los conjuntos de datos de PC para la cinemática del conjunto de datos JIGSAWS.

El tamaño del lote fue uno durante el entrenamiento porque cada entrada tiene una longitud secuencial diferente. El entrenamiento se reguló mediante detención anticipada basada en la pérdida de validación con una paciencia de 4 y 20 épocas para DAE y entrenamiento del clasificador, respectivamente, para los conjuntos de datos de PC. Estos valores fueron 40 y 200 para el conjunto de datos JIGSAWS13. Finalmente, incorporamos pesos de clase en el entrenamiento para tener en cuenta el desequilibrio. (Para la selección de hiperparámetros, consulte Información complementaria/Selección de hiperparámetros).

En particular, al desarrollar VBA-Net en los conjuntos de datos de PC, repetimos el entrenamiento durante diez sesiones, lo que garantiza una selección sólida de hiperparámetros. La capacitación se realizó en una estación de trabajo con AMD Ryzen 7 2700X y NVIDIA GeForce RTX 2070.

En este CV, los datos se dividen aleatoriamente en pliegues de entrenamiento, validación y prueba. Los pliegues de entrenamiento y validación se utilizan para desarrollar el modelo, es decir, la división de entrenamiento se usa para calcular la pérdida de entrenamiento, mientras que la división de validación es para calcular la pérdida de validación. Luego se utiliza el pliegue de prueba para probar la eficacia del modelo entrenado. Este CV se utilizó para entrenar y validar Mask R-CNN.

Los datos se dividen aleatoriamente en diez pliegues, conservando la relación de desequilibrio de clases. Luego, un pliegue se utiliza para realizar pruebas, mientras que los nueve restantes entrenan el modelo. Esto se repite hasta que cada pliegue se utilice para la prueba. Este esquema de CV es útil para utilizar todos los datos disponibles. En este estudio, utilizamos este CV para entrenar y validar VBA-Net en los conjuntos de datos de PC principales y adicionales.

Para evaluar los modelos evaluados, empleamos los esquemas CV estándar para JIGSAWS, es decir, dejar un supertrial-out (LOSO) y dejar a un usuario fuera (LOUO).

El esquema LOSO CV es una versión especializada del CV k-fold utilizado por la mayoría de los artículos sobre el conjunto de datos JIGSAWS. En LOSO, la iésima prueba de cada participante se utiliza para realizar pruebas, mientras que las pruebas restantes se utilizan para entrenar la red. Por lo tanto, LOSO es ventajoso para evaluar el desempeño del modelo en datos invisibles. Sin embargo, está desarrollado específicamente para el conjunto de datos JIGSAWS y tiene una utilidad limitada en la literatura. Además, LOSO no es informativo para los casos en que el modelo evalúa nuevos cirujanos. LOUO supera esta limitación.

En LOUO, las pruebas de un solo sujeto se eliminan del proceso de entrenamiento y se utilizan para probar el modelo. Esto se repite para cada tema. Por lo tanto, la red tiene el desafío de generalizar a un sujeto invisible de una cohorte o distribución diferente. Además, LOUO se puede utilizar con cualquier conjunto de datos en el que actúe más de un sujeto. La desventaja de LOUO es que no ve el desempeño del modelo en datos invisibles del mismo sujeto, un elemento crucial para el entrenamiento.

En los CV estratificados diez veces, LOSO y LOUO, el rendimiento se calculó en función de la matriz de confusión general construida combinando todas las predicciones de cada pliegue.

Al generar movimientos de herramientas, Mask R-CNN se evaluó mediante una precisión promedio con una intersección sobre unión (IoU) de 0,5 para considerar verdadero el cuadro delimitador previsto23,30,32,33. IoU es la relación de superposición entre la verdad fundamental y los cuadros delimitadores previstos.

Empleamos el coeficiente de correlación de Spearman (ρ) para evaluar el rendimiento de la predicción de la puntuación, mientras que la precisión, la sensibilidad, la especificidad y el área bajo la curva (AUC) de la curva de características operativas del receptor (ROC) se utilizaron para evaluar los resultados de la clasificación binaria. Por otro lado, al comparar VBA-Net en el conjunto de datos JIGSAWS de clases múltiples, empleamos la precisión para evaluar los resultados de la clasificación. Por el contrario, ρ se utilizó para las predicciones de puntuación OSATS (ρOSATS) y GRS (ρGRS), donde ρOSATS era el valor medio de ρs para cada seis subpuntuaciones OSATS9,13,34.

Además de las métricas comúnmente utilizadas, utilizamos las métricas de confiabilidad propuestas recientemente35,36, es decir, confianza pregunta-respuesta, densidad de confianza, densidad de confianza condicional, espectro de confianza y NetTrustScore (NTS), para evaluar la confiabilidad de VBA-Net en el resultados de clasificación. En este concepto, la probabilidad de Softmax está asociada con la confianza, C(y|x), y un modelo, M, es confiable cuando una predicción verdadera va acompañada de un Softmax más fuerte y viceversa. La ecuación (2) presenta la confianza pregunta-respuesta.

En la ecuación. (2),\({R}_{y=z}\) es el espacio de todas las muestras (x) para las cuales coinciden las clases predichas (\(y)\) y reales (\(z)\) . Por otro lado, \({R}_{y\ne z}\) es el espacio donde no lo hacen. A continuación, \(\alpha\) recompensa la confianza por las predicciones verdaderas y \(\beta\) penaliza el exceso de confianza cuando el pronóstico es incorrecto. En este estudio, ambos se establecen en 1. Finalmente, \({Q}_{z}\left(x,y\right)\) denota la confianza pregunta-respuesta para una clase determinada (z).

A continuación, la densidad de confianza es la distribución de densidad de probabilidad de \({Q}_{z}\left(x,y\right)\) asignada mediante la estimación de densidad no paramétrica con un núcleo gaussiano 36. Además, la densidad de confianza condicional toma La densidad de confianza va un paso más allá al calcular las distribuciones por separado para cuando \({R}_{y=z}\) y \({R}_{y\ne z}\). Ayuda a detectar el exceso de confianza y la precaución excesiva en una clase determinada (z). Como observación, en la clasificación binaria, \({R}_{y=z}\) representa el Verdadero Positivo (TP) o el Verdadero Negativo (TN), mientras que \({R}_{y\ne z}\) representa el Falso Negativo (FN) o el Falso Positivo (FP).

El espectro de confianza, \({T}_{M}\left(z\right)\), representa el comportamiento de confianza general basado en cada clase y NTS (\({T}_{M}\)) es el espectro de confianza general. puntuación de confiabilidad generada al integrar el espectro de confianza, ver Ec. (3).

Aquí, \(N\) es el tamaño de la muestra para una clase determinada.

CAM es una herramienta de visualización que destaca las regiones que más contribuyen a la predicción de la clasificación. Se basa en el producto Hadamard de los pesos anteriores a Softmax y las activaciones de la última convolución11. Si \({f}_{k}(i)\) representa las activaciones en la capa convolucional que precede a la agrupación promedio global (GAP) para la unidad k y la marca de tiempo i y \({{w}_{k}}^{ c}\) son los pesos previos a softmax entre la capa GAP y el clasificador completamente conectado para la misma unidad y clase c; CAM se define de la siguiente manera:

Utilizamos CAM para proporcionar comentarios formativos para cada ensayo.

Primero, enmascaramos cada entrada multiplicándolas por elementos con sus respectivas CAM. Luego, volvimos a entrenar VBA-Net desde cero utilizando las entradas ponderadas y lo evaluamos mediante el CV diez veces estratificado. Como resultado, terminamos con dos distribuciones para las métricas dadas, por ejemplo, precisión: antes del enmascaramiento y después del enmascaramiento, las cuales tienen diez muestras que reflejan el esquema CV seleccionado. A continuación, empleamos una prueba de signo de Wilcoxon unilateral para comprobar si la media de la distribución era significativamente diferente para el escenario posterior al enmascaramiento. Aquí, nuestra hipótesis nula, H0, no supuso ninguna diferencia significativa, mientras que la hipótesis alternativa, H1, supuso que la media de la distribución para el enmascaramiento posterior es significativamente mayor. La significancia fue de 0,05 para este análisis.

Mask R-CNN extrajo con éxito los centroides del cuadro delimitador (X, Y) de los artefactos circundantes, por ejemplo, clips mecánicos, en condiciones desafiantes, como herramientas superpuestas y marcos borrosos (Fig. S1). Informó una precisión promedio de 0,97 cuando la intersección sobre la unión (IoU) es 0,5. En particular, las predicciones falsas, es decir, IoU <0,5, no se debieron al posicionamiento incorrecto de las herramientas, lo que puede afectar negativamente a los datos de secuencia de herramientas. En cambio, se debieron a que las herramientas estaban parcialmente fuera de la visión de la cámara o estaban ocluidas por la gasa.

Utilizando las características destacadas del codificador automático, el clasificador predijo de manera sólida las puntuaciones de FLS (Fig. 2a) con un ρ promedio de 0,915 ± 0,002 después de diez sesiones con p <0,05 para cada una. Además, VBA-Net logra una precisión de 0,955 ± 0,002 y reporta 0,958 ± 0,003 y 0,922 ± 0,010 de sensibilidad y especificidad, respectivamente. Además, el modelo tiene un área bajo la curva (AUC) de 0,989 ± 0,001 para la curva de características operativas del receptor (ROC) (Fig. 2b).

Resultados para los conjuntos de datos de PC primarios. (a) Puntajes FLS reales versus pronosticados para las diez sesiones de entrenamiento combinadas. Aquí, los histogramas muestran la frecuencia de muestras para una puntuación determinada. Como se ve, la red tiene una tendencia de predicción de puntuación ligeramente inflada, lo que da como resultado que algunas pruebas se acerquen al índice de corte para cruzarlo (que se muestra en rojo). Dado que el análisis de clasificación se realizó por separado, esta predicción inflada no afecta la precisión de la predicción de aprobación/rechazo. (b) Las curvas ROC. La línea azul es el promedio de 10 sesiones de carrera, cada una de las cuales se muestra en gris. La línea amarilla representa las posibilidades aleatorias. (c) Gráficos de confianza de preguntas y respuestas para cada clase. VBA-Net tiene una alta confiabilidad para predicciones verdaderas. es decir, las probabilidades de Softmax están cercanas a 1,0 para la mayoría de las muestras, como se muestra en verde. Por otro lado, la red es cautelosa con las predicciones erróneas, es decir, las probabilidades Softmax están cerca del umbral de 0,5 y no se acumulan en el extremo de 0,0, ilustrado en rojo.

La confiabilidad del modelo se analiza en una única sesión de capacitación mediante métricas de confiabilidad35,37. La Figura 2c muestra el espectro de confianza acompañado por NetTrustScore (NTS). VBA-Net tiene una confiabilidad sólida con valores NTS de 0,926 y 0,868 para las clases aprobatorias y reprobatorias. Además, para ambas clases, el NTS condicional está por encima de 0,9 cuando la predicción es verdadera y alrededor de 0,3 cuando la predicción es falsa, lo que implica que VBA-Net tiene una gran confianza en predicciones verdaderas con baja incertidumbre, mientras que puede beneficiarse de datos adicionales para ambas clases35.

Para este análisis, probamos VBA-Net, sin reentrenamiento, en el conjunto de datos de PC adicional después de cada pliegue. De esta manera, podríamos probar el rendimiento del modelo entrenado en sujetos invisibles, es decir, una cohorte diferente. Como resultado, VBA-Net superó su rendimiento en el conjunto de datos de PC principal en el que fue entrenado y predijo con éxito las puntuaciones de FLS (Fig. 3a) con ρ de 0,937 (con p <0,05 para cada pliegue). Además, para el análisis de clasificación, VBA-Net informó una precisión de 0,876 ± 0,002, con una sensibilidad y especificidad de 0,871 ± 0,005 y 0,887 ± 0,11, respectivamente. Finalmente, la separabilidad de VBA-Net se mantuvo sólida, con un AUC de 0,955 ± 0,002, como se ve en la Fig. 3b.

Resultados para los conjuntos de datos de PC adicionales. (a) Puntajes FLS reales versus pronosticados para las diez carreras. Aquí, no observamos una predicción de puntuación inflada, como se muestra en la Fig. 2. Esto puede deberse a una representación más equilibrada de las muestras. (b) Las curvas ROC. (c) Gráficos de confianza de preguntas y respuestas para cada clase. Observamos la misma tendencia de predicciones verdaderas y cautelosas y predicciones incorrectas cautelosas en este gráfico en comparación con la Fig. 2c.

La Figura 3c muestra el espectro de confianza acompañado por las puntuaciones NTS y ​​NTS condicional. VBA-Net gestiona una baja incertidumbre y una alta confiabilidad al informar valores NTS de 0,844 y 0,831 para las clases aprobatorias y reprobatorias. Cuando se compara la Fig. 3c con la Fig. 2c, vemos que VBA-Net conserva su confianza en la predicción para las predicciones verdaderas, mientras que para los casos pasados, informa un NTS más bajo para las predicciones falsas, lo que indica la necesidad de datos adicionales sobre los casos pasados ​​para las predicciones adicionales. Conjunto de datos de PC. Esto es de esperar ya que el conjunto de datos de PC adicional tiene 202 muestras aprobadas en comparación con 1842 para el conjunto de datos de PC primario (Tabla S1).

La generalización de VBA-Net en una tarea separada se demuestra mediante esquemas CV de dejar un superprueba (LOSO) y dejar un usuario fuera (LOUO).

Basado en el esquema LOUO CV, VBA-Net superó los resultados actuales de última generación en las tres tareas quirúrgicas, alcanzando el rendimiento de clasificación promedio general más alto (precisión = 0,946; Tabla 1). En particular, VBA-Net logró una precisión perfecta para los expertos en todas las tareas en el conjunto de datos JIGSAWS y al mismo tiempo clasificó erróneamente solo dos pruebas de principiantes: una para suturar y otra para hacer nudos (Fig. S2a).

Además, VBA-Net informó los coeficientes de correlación de Spearman más altos para la predicción de OSATS y GRS para todas las tareas (Tabla 2), logrando una correlación sólida para el paso de agujas y el nudo, mientras que una correlación moderada para la sutura. (Para el desglose de ρ, consulte la Tabla S2).

La Tabla 3 presenta los resultados de LOSO CV y ​​los modelos de referencia correspondientes con una precisión media de al menos 0,97. (Consulte la Tabla S3 para obtener resultados <0,97). VBA-Net logró una precisión perfecta de 1,0 para las tareas de sutura y paso de agujas y proporcionó una precisión de 0,926 para la tarea de atar nudos, con una precisión media de 0,975, superando a todos los modelos DL (Fig. S2b). Aquí, 9 y 10 no se incluyeron en el análisis porque, en su esquema LOSO, dividieron aún más el conjunto de entrenamiento en entrenamiento y validación sin proporcionar la proporción de división. Esto es diferente del protocolo LOSO estándar13. Asimismo38, fue excluido ya que utilizaron un CV cuádruple (precisión = 0,942) y diez veces (precisión = 0,973), respectivamente. En particular, un modelo de aprendizaje automático (ML)34 produce una mayor precisión media que VBA-Net. Sin embargo, su enfoque es manual y no generalizable a otras tareas.

Además, la media de ρOSATS y ρGRS fue de 0,63 y 0,77 para LOSO CV, superando el rendimiento del estado del arte (Tabla 2). VBA-Net superó a los modelos existentes en la predicción de puntuación OSATS en las tres tareas. Para la predicción de GRS, por otro lado, VBA-Net logró el rendimiento más alto para cada tarea. (Para el desglose de ρ, consulte la Tabla S4).

Esta sección analiza cómo VBA-Net proporciona retroalimentación formativa a través de una herramienta de explicabilidad post-hoc, es decir, CAM. La Figura 4 muestra las CAM 2D proyectadas sobre la trayectoria de la herramienta utilizando un contorno codificado por colores 1D para un caso TP (aprobado) (Fig. 4a) y TN (fallado) (Fig. 4b).

Resultados de la CAM. Gráficos CAM para (a) una muestra TN (puntuación FLS: 16,8) y (b) una muestra TP (puntuación FLS: 170,7). Los gráficos se presentan en el tamaño de cuadro original de 640 × 480. Cada punto representa la ubicación de la herramienta para una marca de tiempo generada a 1 FPS. Esto resultó en 256 puntos para el caso TN ya que el procedimiento tomó 256 sy 105 para TP. Las flechas rojas indican movimientos de la herramienta que pueden provocar un rendimiento deficiente, mientras que las flechas verdes indican un comportamiento suave. Los mapas de calor codificados por colores ilustran las intensidades del mismo CAM generado para las muestras dadas. Sin embargo, se utilizan mapas de colores diferentes para las ubicaciones de las tijeras y las pinzas. (c) Comparación general del rendimiento de VBA-Net antes y después del enmascaramiento. Aquí, p es el valor p del análisis estadístico, y los números entre paréntesis en la segunda y tercera filas representan la desviación estándar basada en diez veces el entrenamiento.

En la Fig. 4a, proporcionamos un ejemplo de un caso de TN (fallo) y anotamos (rojo) las ubicaciones correspondientes al desempeño deficiente según los videos quirúrgicos. El sujeto comenzó suavemente, alcanzando con éxito el patrón circular desde la esquina de la gasa sin movimientos innecesarios. Sin embargo, no lograron cortar la primera mitad del círculo después de múltiples intentos y finalmente pasaron a la segunda mitad sin completar la primera mitad. La alta activación señalada por la 'flecha 1' captura este comportamiento. Simultáneamente, la pinza se reposicionó desde la esquina inferior izquierda de la gasa hasta el centro izquierdo, un movimiento que no se observó en los casos pasados. El sujeto luchó durante la segunda mitad, sin poder cortar el círculo mientras sujetaba la gasa con la pinza. La alta activación en la 'flecha 2' captura esto.

También analizamos un caso de TP (aprobado) en la Fig. 4b. Aquí, anotamos el rendimiento deseado (verde) según el vídeo correspondiente. Como resultado, observamos que el sujeto utiliza la pinza de manera efectiva y evita intentos de agarre innecesarios (flecha 3). Además, el sujeto utiliza movimientos suaves y corta la gasa rápidamente al cortar la segunda mitad del patrón circular. La red captura este comportamiento deseado, como lo señala la 'flecha 4'. En general, observamos que las activaciones son independientes de la duración y específicas de cada prueba.

Para establecer la efectividad de dicha evaluación formativa sin la guía de expertos, analizamos las CAM mediante una herramienta estadística independiente del modelo. Nuestra hipótesis es que si las CAM resaltan las partes más destacadas, el modelo debería distinguir mejor entre las clases de habilidades cuando las secuencias de entrada están enmascaradas con CAM. En consecuencia, los resultados deberían mejorar. Implementamos nuestro enfoque en el conjunto de datos de PC primario en una única sesión de entrenamiento con un CV estratificado diez veces. Como resultado del entrenamiento, obtuvimos una distribución de métricas para cada pliegue antes y después del enmascaramiento. Al comparar la media de la distribución para cada métrica (Fig. 4c), el caso después del enmascaramiento logró un rendimiento significativamente mayor que el caso antes del enmascaramiento.

VBA ha atraído una atención significativa para la evaluación de habilidades quirúrgicas luego del cambio hacia la educación médica basada en competencias y la seguridad del paciente. Promete mejorar la evaluación formativa del proceso de aprendizaje al ofrecer a los alumnos retroalimentación oportuna y al mismo tiempo permitir a los cirujanos experimentados reflexionar sobre sus técnicas quirúrgicas. Sin embargo, los métodos VBA deben ser escalables, generalizables y demostrar un alto nivel de correlación con los métodos sumativos actuales empleados en el campo. Aquí, demostramos que VBA-Net ofrece rendimientos excelentes y confiables en diversos procedimientos quirúrgicos. Las métricas de rendimiento presentadas en la sección anterior subrayan la eficacia de VBA-Net en la predicción de puntuación sumativa objetiva y automatizada.

VBA-Net puede generalizar bien a datos invisibles. Por lo tanto, puede ayudar a los alumnos a prepararse para exámenes de certificación de alto riesgo, como FLS, al proporcionar puntuaciones reproducibles en tiempo real. Además, VBA-Net se generaliza bien a temas invisibles. Por lo tanto, puede ayudar a los supervisores con el proceso de certificación, ya que cada sujeto se presenta una vez y recibe un resultado final. Además, el modelo produce un sólido rendimiento de clasificación binaria, particularmente en lo que respecta a la especificidad, es decir, el modelo fue sólido en la detección de certificaciones falsas tanto para datos como para sujetos no vistos. Este hallazgo es importante ya que el error humano es una de las principales causas de muerte en el quirófano; por lo tanto, los resultados clínicos deficientes39 y la prevención de certificaciones falsas pueden reducirlos significativamente. En resumen, estos atributos pueden contribuir significativamente a obtener evidencia de validez más sólida, es decir, mejorar los resultados de los pacientes.

Validamos la generalización de VBA-Net comparándolo con los modelos de última generación en el conjunto de datos JIGSAWS. Basado en LOUO CV, VBA-Net mejoró las predicciones de puntaje promedio OSATS y GRS en un 35,3% y un 40,8%. Además, VBA-Net superó al modelo ML más cercano34 con un margen del 12,9% y al modelo DL7 más cercano en atar nudos con un margen del 47% en la clasificación de los cirujanos. Esto muestra que VBA-Net puede generalizarse a tareas distintas a la PC y puede predecir puntuaciones OSATS de nuevos sujetos.

Además, para las pruebas invisibles medidas a través de LOSO, VBA-Net logró el coeficiente de correlación de Spearman más alto al predecir las puntuaciones OSATS y GRS, lo que indica que VBA-net puede predecir mejor el rendimiento en las pruebas invisibles, lo que respalda la supervisión de los alumnos. En este caso, el modelo informó una precisión comparativamente menor al hacer nudos para el análisis de clasificación. Esto podemos atribuirlo a la complejidad de la tarea de hacer nudos, como consta en la literatura7,12. Además, al comparar LOUO con LOSO, observamos una disminución en los rendimientos de clasificación y regresión, lo que significa que los sujetos demostraron un comportamiento motor bimanual específico de su clase. Finalmente, notamos que varios estudios7,9,10,12,34, incluido el nuestro, informaron una precisión perfecta en las tareas de sutura y paso de agujas mediante LOSO. Por lo tanto, creemos que el campo puede beneficiarse de nuevos conjuntos de datos quirúrgicos disponibles públicamente.

Ahora discutimos la retroalimentación formativa. VBA-Net destacó con éxito las partes de los procedimientos que separaron el desempeño en las clases Pasa y Falla, como se ve en la Fig. 4a, b. Además, el análisis estadístico mostró una mejora significativa en el rendimiento de VBA-Net cuando se utilizaron gráficos CAM para enmascarar las secuencias de entrada (Fig. 4c). Estos resultados significan que las CAM son válidas y resaltan las partes esenciales de la secuencia hacia la clase de habilidad. Por lo tanto, pueden utilizarse para obtener comentarios informativos de bajo riesgo. Además, dichos mapas visuales pueden atraer la atención del supervisor hacia las distintas partes de los vídeos, mejorando así la efectividad del tiempo de la evaluación, es decir, pueden reducir la carga de trabajo y el agotamiento, una restricción importante de VBA. Además, estos mapas validados pueden conducir a una edición objetiva y automatizada para establecer rúbricas de bajo riesgo generalizables y eficientes en el tiempo para la educación quirúrgica.

Aún así, nuestro estudio tiene varias limitaciones. Primero, las trayectorias de las herramientas son las únicas características extraídas de los videos; por lo tanto, si bien la literatura está bien establecida sobre el seguimiento de herramientas, aún no está claro si se trata del conjunto de características óptimo. En segundo lugar, nuestro modelo no es de un extremo a otro. Esto tiene su ventaja al utilizar vídeos o cinemática como entradas, pero aumenta la complejidad del marco, que podría reducirse utilizando un modelo de extremo a extremo. Finalmente, nuestro objetivo es superar estas limitaciones mediante el desarrollo de canales de DL basados ​​en video de extremo a extremo para la evaluación de habilidades quirúrgicas.

Hemos desarrollado un canal de DL de última generación, VBA-Net, que es confiable y puede predecir puntuaciones sumativas de FLS y clases de habilidades utilizando videos quirúrgicos completos y al mismo tiempo proporciona retroalimentación visual formativa verificada estadísticamente. Creemos que VBA-Net tiene el potencial de VBA objetivo y en tiempo real de habilidades quirúrgicas en capacitación, certificación y acreditación quirúrgica.

El conjunto de datos de PC utilizado en este estudio no está disponible públicamente. La puntuación FLS utilizada en este conjunto de datos se divulga al Centro de modelado, simulación e imágenes en medicina (CeMSIM) únicamente en virtud de un acuerdo de confidencialidad con el comité FLS. El conjunto de datos de referencia, JIGSAWS, está disponible públicamente en: https://cirl.lcsr.jhu.edu/research/hmm/datasets/jigsaws_release/.

Birkmeyer, JD y cols. Resumen de habilidad quirúrgica y tasas de complicaciones después de la cirugía bariátrica. N. inglés. J. Med. 369, 1434-1476 (2013).

Artículo CAS Google Scholar

McQueen, S., McKinnon, V., VanderBeek, L., McCarthy, C. y Sonnadara, R. Evaluación basada en videos en educación quirúrgica: una revisión del alcance. J. Cirugía. Educativo. 76, 1645-1654 (2019).

Artículo de Google Scholar

Pugh, CM, Hashimoto, DA y Korndorffer, JR ¿El qué? ¿Cómo? ¿Y quien? De evaluación basada en vídeo. Soy. J. Cirugía. 221, 13-18 (2021).

Artículo de Google Scholar

Feldman, LS y cols. Programa de evaluación basada en video (VBA) SAGES: una visión para el aprendizaje permanente para cirujanos. Cirugía. Endosc. 34, 3285–3288 (2020).

Artículo de Google Scholar

ABS explorará la evaluación basada en video en un programa piloto que se lanzará en junio de 2021 | Junta Estadounidense de Cirugía. https://www.absurgery.org/default.jsp?news_vba04.21. Consultado el 18 de febrero de 2022 (2022).

Yanik, E. et al. Redes neuronales profundas para la evaluación de habilidades quirúrgicas: una revisión sistemática. J.Def. Modelo. Simultáneo. https://doi.org/10.1177/15485129211034586 (2021).

Artículo de Google Scholar

Funke, I., Mees, ST, Weitz, J. & Speidel, S. Evaluación de habilidades quirúrgicas basada en video utilizando redes neuronales convolucionales 3D. En t. J. Computación. Asistir. Radiol. Cirugía. 14, 1217-1225 (2019).

Artículo de Google Scholar

Doughty, H., Damen, D. y Mayol-Cuevas, W. Quién es mejor, quién es mejor: determinación de habilidades en vídeo mediante clasificación profunda. CoRRabs/1703.0. 6057–6066 (2017).

Ismail Fawaz, H., Forestier, G., Weber, J., Idoughar, L. y Muller, PA Evaluación precisa e interpretable de habilidades quirúrgicas a partir de datos cinemáticos utilizando redes neuronales totalmente convolucionales. En t. J. Computación. Asistir. Radiol. Cirugía. 14, 1611-1617 (2019).

Artículo de Google Scholar

Castro, D., Pereira, D., Zanchettin, C., MacEdo, D. & Bezerra, BLD Hacia la optimización de redes neuronales convolucionales para la evaluación de habilidades de cirugía robótica. Proc. En t. Jt. Conf. Red neuronal. 2019, 1–8 (2019).

Google Académico

Zhou, B., Khosla, A., Lapedriza, A., Oliva, A. & Torralba, A. Aprendizaje de características profundas para la localización discriminativa. Proc. Computación IEEE. Soc. Conf. Computadora. Vis. Reconocimiento de patrones. 2016, 2921–2929 (2016).

Fawaz, HI, Forestier, G., Weber, J., Idounghar, L. y Muller, P.-A. Evaluación de habilidades quirúrgicas a partir de datos cinemáticos utilizando redes neuronales convolucionales. MICCAI 2018. Apuntes de conferencias en informática. vol. 1. (Springer, 2018).

Gao, Y. et al. Conjunto de trabajo de evaluación de habilidades y gestos JHU-ISI (JIGSAWS): un conjunto de datos de actividad quirúrgica para el modelado del movimiento humano. Modelo. Monit. Computadora. Asistir. Interv. Trabajo MICCAI. 3, 1-10 (2014).

Fried, GM Evaluación de competencia FLS mediante tareas laparoscópicas simuladas. J. Gastrointest. Cirugía. 12, 210–212 (2008).

Artículo de Google Scholar

Fraser, SA y cols. Evaluar habilidades laparoscópicas, estableciendo la puntuación de aprobado/no aprobado para el sistema MISTELS. Cirugía. Endosc. Otra Interv. Tecnología. 17, 964–967 (2003).

Artículo CAS Google Scholar

Martín, JA et al. Evaluación objetiva estructurada de habilidades técnicas (OSATS) para residentes de cirugía. Hno. J. Cirugía. 84, 273–278 (1997).

CAS Google Académico

Wang, Y. et al. Evaluación de vídeos de formación en cirugía asistida por robot con redes neuronales convolucionales multitarea. J. Robot. Cirugía. https://doi.org/10.1007/s11701-021-01316-2 (2021).

Artículo de Google Scholar

Lin, H. & Hager, G. Modelos de manipulación independientes del usuario mediante vídeo. en Taller M2CAI (2009).

Lee, D. y col. Evaluación de habilidades quirúrgicas durante la cirugía robótica mediante seguimiento de múltiples instrumentos quirúrgicos basado en aprendizaje profundo en entrenamiento y operaciones reales. J.Clin. Medicina. 9, 1-15 (2020).

Google Académico

Jin, A. y col. Detección de herramientas y evaluación de habilidades operativas en videos quirúrgicos utilizando redes neuronales convolucionales basadas en regiones. en Actas de la conferencia de invierno IEEE 2018 Aplicaciones de visión por computadora, WACV 2018. 691–699 (2018).

Goldbraikh, A., D'Angelo, AL, Pugh, CM y Laufer, S. Evaluación totalmente automática basada en vídeo de las habilidades de sutura en cirugía abierta. En t. J. Computación. Asistir. Radiol. Cirugía. 17, 437–448 (2022).

Artículo de Google Scholar

Lajko, G., Elek, RN y Haidegger, T. Evaluación de habilidades basada en imágenes endoscópicas en cirugía mínimamente invasiva asistida por robot. Especificaciones del tobillo del pie. 14, 153-157 (2021).

Google Académico

Él, K., Gkioxari, G., Dollar, P. y Girshick, R. Mask R-CNN. En Actas de la Conferencia Internacional IEEE sobre Visión por Computadora (ICCV) 2980–2988. https://doi.org/10.1109/ICCV.2017.322 (IEEE, 2017).

Anh, NX, Nataraja, RM y Chauhan, S. Hacia una evaluación casi en tiempo real de las habilidades quirúrgicas: una comparación de técnicas de extracción de características. Computadora. Métodos Programas Biomédicos. 187, 105234 (2020).

Artículo de Google Scholar

Khalid, S., Goldenberg, M., Grantcharov, T., Taati, B. y Rudzicz, F. Evaluación de modelos de aprendizaje profundo para identificar acciones quirúrgicas y medir el desempeño. Red JAMA. abierto 3, e201664 (2020).

Artículo de Google Scholar

He, K., Zhang, X., Ren, S. & Sun, J. Aprendizaje residual profundo para el reconocimiento de imágenes Kaiming. Indian J. Chem.-Sect. B Org. Medicina. Química. 45, 1951-1954 (2006).

Roy, AG, Navab, N. & Wachinger, C. 'Excitación y compresión' espacial y de canales concurrentes en redes totalmente convolucionales. en Lecture Notes in Computer Science (incluida la subserie Lecture Notes in Artificial Intelligence y Lecture Notes in Bioinformatics). vol. 11070 LNCS (Springer, 2018).

Yu, F. & Koltun, V. Agregación de contexto multiescala mediante convoluciones dilatadas. en la Cuarta Conferencia Internacional sobre Representación del Aprendizaje ICLR 2016 — Actas de la conferencia (2016).

Lin, M., Chen, Q. y Yan, S. Red en red. en la Segunda Conferencia Internacional sobre Representación del Aprendizaje ICLR 2014 — Actas de la conferencia. 1–10 (2014).

Lin, T.-Y. et al. Microsoft COCO: objetos comunes en contexto. Eccv. 740–755 (2014).

Dutta, A. & Zisserman, A. El software de anotación VIA para imágenes, audio y vídeo. en MM 2019: Actas de la 27.a Conferencia Internacional Multimedia de ACM. 2276–2279. https://doi.org/10.1145/3343031.3350535 (2019).

Ren, S., He, K. y Girshick, R. R-CNN más rápido: hacia la detección de objetos en tiempo real con redes de propuesta regional. 1–9 (2015).

Girshick, R. R-CNN rápido. en la Conferencia Internacional IEEE sobre Visión por Computadora (ICCV 2015). 1440-1448. https://doi.org/10.1109/iccv.2015.169 (2015).

Zia, A. & Essa, I. Evaluación automatizada de habilidades quirúrgicas en la formación RMIS. En t. J. Computación. Asistir. Radiol. Cirugía. 13, 731–739 (2018).

Artículo de Google Scholar

Hryniowski, A., Wong, A. & Wang, XY ¿Dónde se rompe la confianza? Un análisis de confianza cuantitativo de redes neuronales profundas a través de una matriz de confianza y densidades de confianza condicionales. J. Computación. Vis. Sistema de imágenes. 6, 1–5 (2021).

Artículo de Google Scholar

Wong, A., Wang, XY y Hryniowski, A. ¿Cuánto podemos realmente confiar en usted? Hacia métricas de cuantificación de confianza simples e interpretables para redes neuronales profundas. 1-13 (2020).

Wong, A., Wang, XY y Hryniowski, A. ¿Cuánto podemos realmente confiar en usted? Hacia métricas de cuantificación de confianza simples e interpretables para redes neuronales profundas. arXiv 1-13 (2020).

Soleymani, A. et al. Evaluación de habilidades quirúrgicas a partir de registros de cirugía asistida por robot. en 2021 Simposio Internacional Medicina Robótica ISMR 2021. 1–6. https://doi.org/10.1109/ISMR48346.2021.9661527 (2021).

James, JT Una nueva estimación basada en evidencia de los daños a los pacientes asociados con la atención hospitalaria. J. Seguridad del paciente. 9, 122-128 (2013).

Artículo de Google Scholar

Fard, MJ y cols. Enfoque de aprendizaje automático para la evaluación de habilidades en cirugía asistida por robot. vol. Yo (2016).

Nguyen, XA, Ljuhar, D., Pacilli, M., Nataraja, RM y Chauhan, S. Niveles de habilidad quirúrgica: clasificación y análisis utilizando modelos de redes neuronales profundas y señales de movimiento. Computadora. Métodos Programas Biomédicos. 177, 1–8 (2019).

Artículo de Google Scholar

Descargar referencias

Los autores agradecen el apoyo de este trabajo a través del premio del Medical Technology Enterprise Consortium (MTEC) #W81XWH2090019 (2020-628) y el acuerdo de investigación cooperativa STTC del Comando de Futuros del Ejército de EE. UU., Comando de Desarrollo de Capacidades de Combate del Centro de Soldados #W911NF-17-2- 0022.

Departamento de Ingeniería Mecánica, Aeroespacial y Nuclear, Centro de Modelado, Simulación e Imágenes para Medicina (CeMSIM), Instituto Politécnico Rensselaer, Troy, 12180, EE. UU.

Erim Yanik, Rahul Rahul y Suvranu De

Departamento de Ingeniería Biomédica, Centro de Modelado, Simulación e Imágenes para Medicina (CeMSIM), Instituto Politécnico Rensselaer, Troy, 12180, EE. UU.

Uwe Kruger y Xavier Intes

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

EY, XI y SD concibieron la idea. EY recopiló los datos, anotó los videos, desarrolló el modelo, realizó el análisis estadístico y de datos y redactó el manuscrito. El Reino Unido participó en los análisis estadísticos. RR recomendó el uso de un codificador automático de eliminación de ruido. UK, XI y SD fueron responsables de supervisar y revisar el contenido intelectual del manuscrito. SD fue responsable de la adquisición de fondos.

Correspondencia a Suvranu De.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Yanik, E., Kruger, U., Intes, X. et al. Evaluación formativa y sumativa basada en videos de tareas quirúrgicas mediante aprendizaje profundo. Representante científico 13, 1038 (2023). https://doi.org/10.1038/s41598-022-26367-9

Descargar cita

Recibido: 11 de mayo de 2022

Aceptado: 13 de diciembre de 2022

Publicado: 19 de enero de 2023

DOI: https://doi.org/10.1038/s41598-022-26367-9

Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.