Un método de aprendizaje profundo para la detección de objetivos de miARN/isomiR

Noticias

HogarHogar / Noticias / Un método de aprendizaje profundo para la detección de objetivos de miARN/isomiR

Jun 23, 2023

Un método de aprendizaje profundo para la detección de objetivos de miARN/isomiR

Scientific Reports volumen 12, número de artículo: 10618 (2022) Cite este artículo 2211 Accesos 2 Citas 3 Detalles de métricas altmétricas Identificación precisa de objetivos de microARN (miARN) en pares de bases

Scientific Reports volumen 12, número de artículo: 10618 (2022) Citar este artículo

2211 Accesos

2 citas

3 altmétrico

Detalles de métricas

La identificación precisa de objetivos de microARN (miARN) con resolución de pares de bases ha sido un problema abierto durante más de una década. El reciente descubrimiento de isoformas de miARN (isomiR) añade más complejidad a este problema. A pesar de la existencia de muchos métodos, ninguno considera los isomiR y su rendimiento aún es subóptimo. Nuestra hipótesis es que al tener en cuenta las interacciones isomiR-ARNm y aplicar un modelo de aprendizaje profundo para estudiar las características de la interacción miARN-ARNm, podemos mejorar la precisión de las predicciones de los objetivos de miARN. Desarrollamos una herramienta de aprendizaje profundo llamada DMISO para capturar las características intrincadas de las interacciones miARN/isomiR-ARNm. Según una validación cruzada diez veces mayor, DMISO mostró alta precisión (95%) y recuperación (90%). Evaluado en tres conjuntos de datos independientes, DMISO tuvo un rendimiento superior al de cinco herramientas, incluidas tres herramientas convencionales populares y dos herramientas basadas en aprendizaje profundo desarrolladas recientemente. Al aplicar dos estrategias populares de interpretación de características, demostramos la importancia de las regiones de miARN distintas de sus semillas y la contribución potencial de los motivos de unión a ARN dentro de miARN/isomiR y mARN a las interacciones miARN/isomiR-ARNm.

Los microARN (miARN) son ARN no codificantes monocatenarios de ~ 22 nucleótidos (nt) de largo que desempeñan funciones importantes en la regulación genética y la progresión de enfermedades1,2,3,4,5. Durante la biogénesis de miARN de metazoos, los genes de miARN se transcriben en pri-miARN, que son cortados por las enzimas Drosha y DGCR8 para crear pre-miARN con estructura de horquilla. Luego, los pre-miARN se exportan al citoplasma y la enzima Dicer los procesa para producir los miARN dúplex. Finalmente, los miARN maduran a partir de una o ambas cadenas de los miARN dúplex. Estos miARN maduros se unen e interactúan directamente con sus ARNm objetivo en diferentes tipos de células a través de la elección de sitios objetivo específicos del contexto, lo que resulta en la degradación y/o represión de la traducción de los ARNm objetivo1,2,3. Por tanto, es importante investigar cómo los miARN seleccionan sus sitios objetivo e identifican sus ARNm objetivo.

El descubrimiento de diferentes tipos de isoformas de miARN (isomiR) hace que la investigación general de los sitios diana de miARN y los genes diana sea más desafiante y fascinante6. Durante la biogénesis de miARN de metazoos, los isomiR se crean mediante la escisión imprecisa de pri-miARN y/o pre-miARN7, la adición/eliminación de nt a/de los extremos de miARN maduros8,9 y la modificación de uno o más nt en el medio de miARN maduros. En consecuencia, los isomiR resultantes se clasifican en isomiR de adición, eliminación e isomiR polimórficos, respectivamente. Según el extremo modificado, los isomiR tanto de adición como de eliminación se pueden agrupar como isomiR 3' e isomiR 5'. Los isomiR 3' son más abundantes y comparten la misma región de semilla (posiciones 2 a 7) que sus miARN originales, mientras que los isomiR 5' tienen diferentes regiones de semilla y, por lo tanto, diferentes ARNm objetivo. Los isomiR resultantes también pueden ser híbridos de los tipos mencionados anteriormente.

Los isomiR generalizados en diferentes tipos de células exigen una revisión del problema de selección del sitio objetivo de miARN y de identificación del ARNm objetivo10,11,12,13. Bajo cualquier condición experimental dada, es probable que se produzcan diversos cambios en la secuencia y expresión de miARN individuales. La diversidad implica la existencia de diferentes isomiR de variada abundancia y los miRNA convencionales interactuando activamente con sus respectivos genes diana en una condición experimental. Estudios anteriores han demostrado que dicha mezcla de miARN y sus isomiR en condiciones experimentales específicas son comunes en lugar de artefactos de secuenciación14,15. Los métodos y herramientas disponibles para la predicción del objetivo de miARN solo tienen en cuenta las interacciones miARN-ARNm, lo que puede considerar sin saberlo las interacciones isomiR-ARNm para las interacciones miARN-ARNm en el entrenamiento y, por lo tanto, dar como resultado altas tasas de falsos positivos y un rendimiento subóptimo16,17. Por lo tanto, es fundamental estudiar los isomiR y los miRNA juntos para determinar su sitio objetivo y la identificación del ARNm objetivo.

CLASH (entrecruzamiento, ligadura y secuenciación de híbridos) y CLEAR-CLIP (ligadura covalente de ARN endógenos unidos a argonauta con inmunoprecipitación entrecruzada) brindan una oportunidad sin precedentes para estudiar objetivos de miARN en el contexto de isomiRs18,19. Ambos experimentos proporcionan lecturas quiméricas compuestas por pares de variantes de miARN y sus sitios objetivo que interactúan en los ARNm. Estos datos, especialmente los datos de CLASH, se han utilizado ampliamente para estudiar sitios objetivo no canónicos, que muestran la importancia de regiones distintas a las regiones semilla en los miARN20,21,22,23. Sin embargo, estos datos no se han explorado para estudiar cómo los miARN y sus isomiR interactúan con sus objetivos.

En este estudio, intentamos predecir los sitios objetivo y los ARNm objetivo de miARN e isomiR considerando las interacciones miARN-ARNm junto con las interacciones isomiR-ARNm por primera vez. Nuestro propósito era presentar una herramienta que esté entrenada exclusivamente para predecir las interacciones isomiR-ARNm y también capitalizar la información de secuencia aprendida de las interacciones isomiR-ARNm para mejorar el rendimiento de la predicción en las interacciones canónicas miARN-ARNm. Como las características de los sitios objetivo de miARN y las interacciones entre miARN y ARNm no se comprenden completamente, y los enfoques basados ​​en el aprendizaje profundo han mostrado un mejor rendimiento en el análisis de datos genómicos y epigenómicos24, diseñamos un método y una herramienta de aprendizaje profundo para la predicción de objetivos de miARN e isomiR (DMISO). ). Probado mediante validación cruzada y en conjuntos de datos independientes, demostramos que, en promedio, DMISO tenía una precisión del 95 % y una recuperación del 90 %. En comparación con tres herramientas populares y dos herramientas basadas en aprendizaje profundo desarrolladas recientemente, DMISO mostró un rendimiento superior en casi todas las métricas a las cinco herramientas. La herramienta DMISO y sus códigos están disponibles gratuitamente en http://hulab.ucf.edu/research/projects/DMISO.

Para entrenar y probar DMISO, obtuvimos interacciones miARN-ARNm e isomiR-ARNm de los experimentos CLASH18. Descargamos los datos de CLASH en la línea celular HEK293 (GSE50452), que contenía lecturas sin procesar de seis muestras humanas. Cada muestra constaba de lecturas únicas y quiméricas. Solo las lecturas quiméricas comprendieron las secuencias de miARN/isomiR y las secuencias de sus sitios objetivo que interactúan en los ARNm. De ahora en adelante, nos referiremos a los miARN como los tradicionales en miRBase25 y usaremos "miARN/isomiR" para representar los miARN y sus isomiR.

Identificamos interacciones miARN-ARNm a partir de lecturas quiméricas similares al estudio original (Fig. 1A y Tabla complementaria S1). En resumen, descargamos lecturas sin procesar, eliminamos adaptadores de las lecturas, descartamos lecturas duplicadas y finalmente asignamos las lecturas restantes a dos bases de datos por separado con BLAST versión 2.10.1+26. Una base de datos eran las secuencias de transcripción codificantes de proteínas de GENCODE versión 3827. La otra eran las secuencias de miARN maduros humanos de miRBase versión 22.125. Necesitábamos un acierto BLAST con un valor e ≤ 0,1 para reclamar el mapeo de una lectura. Se descartaron las lecturas mapeadas a lo largo de la cadena antisentido de una transcripción o que tenían bucles de alineación. Para controlar la calidad del mapeo de la porción de miARN de una lectura quimérica, que era mucho más corta que la porción de ARNm y, por lo tanto, puede ser más difícil de diferenciar de los errores de secuenciación, requerimos que la misma porción de miARN ocurriera en al menos 10 lecturas quiméricas. Elegimos 10 aquí porque la posibilidad de observar el mismo isomiR al menos 10 veces era de aproximadamente 8,87E-08, dada la longitud promedio de miARN de 22 nt, la tasa de error del secuenciador de Illumina de 0,001 y el número de lecturas asignadas a un miARN era inferior a 1000. para la mayoría (>95%) de los miARN. Además, esta elección permitió disponer de datos suficientes para entrenar los modelos de aprendizaje profundo. Permitimos un espacio o distancia máxima de 4 nt entre la porción de miARN mapeada y la porción de ARNm mapeada en una lectura quimérica como anteriormente18. La porción de miARN y ARNm de una lectura quimérica se puede asignar a múltiples transcripciones de miARN y ARNm, respectivamente. Si una lectura se podía asignar a múltiples transcripciones de miARN o ARNm, para retener el par de miARN-ARNm más significativo, utilizamos los siguientes criterios en orden: (1) el par con los valores e de BLAST más pequeños; y (2) el par con las puntuaciones de bits BLAST más grandes si los valores e fueran los mismos.

(A) El proceso para obtener interacciones miARN/isomiR-ARNm. (B) La estructura del modelo DMISO.

Con los pares candidatos de miARN-ARNm identificados, comparamos la porción de miARN alineada de las lecturas quiméricas con los miARN correspondientes para definir las interacciones miARN-ARNm e isomiR-ARNm. Si una lectura coincidía perfectamente con un miARN, reivindicamos este par candidato como un par miARN-ARNm. De lo contrario, si las puntuaciones de calidad de la secuenciación de nt en las posiciones de variación (en comparación con la secuencia de miARN) son mayores que 30, este par candidato es un par isomiR-ARNm. Para seleccionar isomiR con confianza, también requerimos que las secuencias de isomiR se vieran en al menos 10 lecturas quiméricas. Además, clasificamos estos isomiR en pares isomiR-ARNm en los siguientes ocho tipos: 5' isomiR (adición, eliminación y reemplazo), 3' isomiR (adición, eliminación y reemplazo), isomiR polimórfico de un solo nucleótido (SNP), polimórfico de nucleótidos múltiples ( MNP) isomiR. Un isomiR puede pertenecer a varios tipos.

Para los pares de miARN / isomiR-ARNm obtenidos, ampliamos el extremo 3 'de la sección de ARNm de las secuencias quiméricas en 25 nt para tener sitios objetivo más completos. Los sitios objetivo de ARNm extendido de menos de 30 nt se filtraron como anteriormente18. Los pares extendidos fueron considerados pares de interacción positiva. Para cada par positivo, se generó un par negativo con el mismo miARN o isomiR y un sitio negativo en la región 3' no traducida del correspondiente transcrito de ARNm positivo como anteriormente28,29. Se requería que el sitio negativo estuviera al menos a 10 nt de los sitios positivos y tuviera una energía de plegado libre <10 kcal/mol medida con la herramienta RNACoFold30. Creamos nuestro conjunto de datos de entrenamiento eligiendo aleatoriamente el 80% de las interacciones positivas y negativas. Probamos DMISO en los datos de entrenamiento mediante una validación cruzada diez veces mayor. También probamos DMISO en el 20% restante de interacciones que no se utilizaron para la capacitación.

Además de los datos de prueba CLASH restantes del 20%, extrajimos pares de miARN/isomiR-ARNm de los datos de CLEAR-CLIP como datos de prueba independientes. De manera similar al análisis anterior de los datos de CLASH, analizamos las lecturas quiméricas CLEAR-CLIP en 12 muestras humanas de la línea celular de carcinoma derivado de hepatocitos HuH-7.5 (GSE73059)19. Definimos 14.684 pares positivos de miARN / isomiR-ARNm, todos ellos involucraban isomiR en lugar de los miARN convencionales.

También obtuvimos otro conjunto de datos independiente de la versión 8.031 de la base de datos miRTarBase recientemente actualizada. Esta base de datos contiene sitios objetivo de miARN funcionales y no funcionales validados experimentalmente, que se consideran positivos en este conjunto de datos. Extendimos el extremo 3 'de los ARNm en las interacciones y descartamos las interacciones que no tenían identificadores de ARNm y miARN mapeados en las respectivas bases de datos utilizadas aquí y aquellas interacciones donde las secuencias de ARNm tenían menos de 30 nt. Después de este filtrado, obtuvimos 14.144 pares de secuencias de miARN-ARNm, de los cuales 13.926 eran interacciones funcionales y 226 no funcionales según el estudio original31. Este conjunto de datos no tuvo ningún aspecto negativo.

Diseñamos un método de aprendizaje profundo llamado DMISO para sitios objetivo de miARN/isomiR y la identificación de ARNm objetivo. DMISO toma los miRNA/isomiR y sus correspondientes secuencias de sitios objetivo de mRNA como entrada y genera un número binario para indicar si un miRNA/isomiR interactúa con su correspondiente sitio de mRNA. La arquitectura de DMISO se compone de dos ramas separadas que contienen capas de red neuronal convolucional (CNN), una capa de memoria a corto plazo (LSTM) y una capa de red neuronal completamente conectada (Fig. 1B). Las dos capas convolucionales son para las secuencias de miARN/isomiR y del sitio objetivo, respectivamente. La capa LSTM combina las características detectadas por las dos capas convolucionales. La salida de la capa LSTM se introduce en una red neuronal completamente conectada para predecir la etiqueta de la interacción.

La capa convolucional en cada rama es unidimensional y consta de una matriz de 10 núcleos, cada uno con un tamaño de 4 × 8. Los núcleos actúan como ventanas deslizantes para capturar características espaciales en secuencias de entrada mediante el escaneo de las secuencias. La capa convolucional no tiene ningún relleno alrededor de la entrada (relleno = "válido"). Los núcleos se convolucionan a lo largo de la entrada en 1 paso (zancada = 1). Después de los 10 núcleos, las salidas de las dos capas convolucionales se convierten en matrices de tamaño 10 × 23 y 10 × 53, respectivamente. La siguiente capa en cada rama es una capa de agrupación máxima unidimensional con un tamaño de agrupación de 4, que captura los valores máximos dentro de cada ventana de 10 × 4, deslizándose 1 paso (zancada = 1), a través de la salida de las respectivas capas convolucionales. . La salida de las capas de agrupación máxima en las ramas de miARN/isomiR y del sitio objetivo es de matrices de 10 × 20 y 10 × 50, respectivamente. La Unidad Lineal Rectificada activa las neuronas en las capas convolucionales de las dos ramas y las neuronas en la capa densa. Después del paso de agrupación máxima, las salidas de las dos ramas se fusionan para crear una matriz de 10 × 70 y se introducen en una capa LSTM bidireccional (BLSTM). La capa BLSTM procesa las características conectadas espacialmente de izquierda a derecha y de derecha a izquierda, generando una salida de matriz de 20 × 70, que luego se aplana a un vector de longitud 1400 y se introduce en una capa densa. La capa densa es una red neuronal completamente conectada con 100 neuronas, que genera un vector de tamaño 100. Este vector se utiliza como entrada a una unidad de regresión logística para generar la predicción final, donde se utiliza la función sigmoidea.

Antes de entrenar DMISO, las secuencias de miARN/isomiR y del sitio objetivo se convierten en matrices de 4 × 30 y 4 × 60, respectivamente, aplicando codificación one-hot en cada nucleótido de las secuencias. Es decir, 'A', 'T', 'C', 'G' y 'N' están codificados en [1, 0, 0, 0]T, [0, 1, 0, 0]T, [0, 0, 1, 0]T, [0, 0, 0, 1]T y [0,25, 0,25, 0,25, 0,25]T, respectivamente. Las longitudes fijas 30 y 60 son la longitud promedio de los miARN/isomiR procesados ​​y los sitios objetivo en lecturas quiméricas, respectivamente. Para mantener las longitudes fijas, eliminamos nt adicionales de los extremos de secuencias más largas y agregamos "N" adicionales a los extremos de secuencias más cortas.

Se utilizó la normalización por lotes para entrenar DMISO con minilotes de 100 muestras a la vez. Calculamos la pérdida de cada predicción utilizando la función de pérdida de entropía cruzada binaria, que el optimizador Adam minimiza con una tasa de aprendizaje de 0,00132. Para evitar el sobreajuste, teníamos una capa de abandono con una tasa de abandono del 25 % después de fusionar las dos ramas y dos capas de abandono con una tasa de abandono del 50 % después de la capa BLSTM y la capa densa. Se aplicó la regularización L1 con el valor del parámetro 0,01 en las dos capas convolucionales y en las capas densas para reducir el sobreajuste. Para la implementación del modelo de aprendizaje profundo se utilizó la versión Keras 2.3.1 (https://github.com/keras-team/keras/releases/tag/2.3.1). El modelo DMISO se ejecuta con dos entradas: secuencia de miARN/isomiR y secuencia de ARNm. El modelo proporciona una puntuación de probabilidad de salida de 0 a 1 y un valor de predicción binaria de 0 y 1.

Se han desarrollado muchos métodos de aprendizaje automático para seleccionar funciones33,34,35,36,37,38,39,40,41,42,43. Los modelos de aprendizaje profundo son famosos por ser una caja negra cuando se trata de comprender las características subyacentes. Pero estudios recientes se han centrado en varias estrategias que pueden revelar las características o patrones aprendidos por diferentes tipos de modelos de aprendizaje automático39,40,41,42,43. Aquí, se aplicaron dos de los métodos de identificación de características más populares, el análisis del núcleo convolucional y la perturbación de entrada, para descubrir características importantes para las interacciones miARN/isomiR-ARNm24.

El método de análisis del núcleo convolucional es adecuado para un modelo de aprendizaje profundo que contiene una capa convolucional24,39,40,41. Este método se utiliza para interpretar los pesos del núcleo de la capa convolucional después de entrenar el modelo. En este estudio, las secuencias de miARN/isomiR y ARNm fueron escaneadas por separado mediante los núcleos de longitud k de las dos capas convolucionales en DMISO, que capturaron la composición de k-meros en secuencias que eran importantes para la interacción entre miARN/isomiR y ARNm. secuencias. Dado que las capas convolucionales son las primeras capas en DMISO, los patrones de k-mer capturados deben representar características importantes específicas del miRNA/isomiR y las secuencias objetivo.

La técnica de modificación de la entrada es otro método popular de interpretación de características24,39,41, donde una parte de la entrada se perturba con ruido aleatorio y se registran los cambios en la predicción del modelo. El cambio en la predicción del modelo después de la modificación de una parte de la entrada representa la sensibilidad del modelo a esa parte de la entrada. Por lo tanto, este método puede ayudar a revelar los patrones de sensibilidad del modelo a diferentes regiones en las secuencias de entrada. Aquí, enmascaramos cada región contigua de longitud 4 en secuencias de entrada con "N" y registramos los cambios respectivos en las probabilidades de predicción de la capa de salida. Los cambios deberían mostrar regiones importantes en términos de vinculación de objetivos.

DMISO se comparó con tres herramientas populares, TargetScan versión 7.244, miRanda 3.3a45 y RNA22 versión 246, y dos herramientas basadas en aprendizaje profundo publicadas recientemente, miRAW47 y miTAR48, en los datos de la prueba 20% CLASH, los datos CLEAR-CLIP y el datos de miRTarBase. TargetScan y miRanda toman dos archivos separados para las secuencias de miARN y ARNm como entradas, mientras que miRAW y miTAR toman las interacciones (pares de secuencias de miARN-ARNm) como entradas. En el caso de los pares isomiR-ARNm en los datos de prueba, utilizamos las secuencias de isomiR en lugar de secuencias de miARN en la entrada. Para ejecutar RNA22, las secuencias de entrada de miRNA/isomiR y mRNA deben cargarse en el servidor RNA22 con restricciones de tráfico diurnas. Por este motivo, obtener resultados del servidor RNA22 en un gran conjunto de datos como el nuestro es un proceso que requiere mucho tiempo. Por lo tanto, mientras las otras cuatro herramientas se ejecutaron en los conjuntos de datos de prueba, el ARN22 se evaluó superponiendo los conjuntos de datos de prueba con las predicciones precalculadas de ARN22 en humanos (https://cm.jefferson.edu/rna22-full-sets- de-predicciones/). Una herramienta consideró que una interacción de prueba era positiva prevista si la identificación de miARN y la identificación del gen de ARNm de la interacción de prueba coincidían con cualquiera de las interacciones predichas, así como las ubicaciones de la secuencia objetivo de ARNm se superponían con los sitios objetivo previstos correspondientes.

Identificamos 12,170 interacciones miARN-ARNm y 58,043 isomiR-ARNm de las seis muestras de CLASH (Tabla complementaria S2). Observamos cada uno de los ocho tipos de isomiR, con una adición 3 'isomiR hsa-miR-4268 que ocurre con mayor frecuencia en 3565 interacciones, mientras que 96 isomiR ocurren solo 10 veces (Figura complementaria S1). Además, se encontró que 98 isomiR participaban en al menos 100 interacciones. De acuerdo con los estudios anteriores6, hubo más isomiR 3' que otros tipos en el conjunto de datos de CLASH (Tabla complementaria S2). El número de isomiR con adición de nucleótidos fue mayor que el de otros tipos. El número de isomiR de SNP y MNP fue similar en el conjunto de datos. A pesar de la frecuencia variada de los diferentes tipos, hubo al menos 9 isomiR de cada uno de los ocho tipos (Tabla complementaria S3). Tenga en cuenta que estas estadísticas se basaron en todos los miARN documentados en la base de datos miRbase. También hicimos una referencia cruzada de los miARN con la base de datos de miARN seleccionada miRGeneDB49 y descubrimos que 66 de los 268 miARN documentados en miRGeneDB estaban en el conjunto de datos CLASH. De ellos, el isomiR más frecuente fue un isomiR de adición 3' de hsa-miR-615-3p que ocurrió en 824 interacciones. El número de isomiR 3 'fue aún mayor (218) que el de isomiR 5' (57) y el de isomiR polimórficos (10).

Dado que consideramos los isomiR cubiertos por al menos 10 lecturas, todos los isomiR identificados de novo fueron respaldados por su aparición recurrente. El número medio y mediano de lecturas que respaldan estos isomiR fueron 53 y 19, respectivamente. Había 200 miARN con al menos un isomiR identificado. El número de isomiR identificados para un miARN varió de 1 a 98. En promedio, un miARN tenía alrededor de 6 isomiR de diferentes tipos. A pesar de la existencia de diferentes tipos de isomiR, era evidente que un miARN prefería tipos específicos de isomiR. En otras palabras, para un miARN determinado, un tipo específico de isomiR se produjo con mucha más frecuencia. De hecho, para los 67 miARN con al menos 100 interacciones isomiR-ARNm, al menos un tipo de isomiR se produjo en frecuencias significativamente más altas de lo esperado (valor de p de la prueba binomial corregida <0,01).

Es probable que los isomiR identificados sean específicos de cada condición. Comparamos los isomiR identificados en las interacciones CLASH con los isomiR en las interacciones CLEAR-CLIP. Las muestras CLASH procedían de una línea celular de riñón sana, mientras que las muestras CLEAR-CLIP procedían de una línea celular carcinómica de hígado. Entre los 1226 isomiR y miRNA exactos identificados en los datos de CLASH, 1203 (98,12%) no se identificaron en los datos de CLEAR-CLIP. Si consideramos los 1095 isomiR y miRNA exactos respaldados por al menos 50 lecturas en los datos de CLASH, 1078 (98,45%) aún no se identificaron en los datos de CLEAR-CLIP. Por lo tanto, no fue la calidad de isomiR lo que marcó la diferencia entre los isomiR en diferentes experimentos. En otras palabras, es probable que los isomiR y sus sitios de interacción sean específicos de cada condición.

Investigamos la diferencia entre los sitios objetivo únicos de los isomiR 5 'y 3' y los de los miRNA exactos en el conjunto de datos CLASH. Entre los 5742 sitios objetivo de CLASH de miARN exactos, 355 eran comunes con los 5' isomiR, mientras que 2353 eran comunes con los 3' isomiR. El menor número de objetivos comunes de miARN exactos con los isomiR 5 'que con los 3' corrobora que los isomiR 5' tienen una especificidad objetivo alterada. Curiosamente, los isomiR 3' se dirigieron a ARNm mucho más únicos (5021) que otros tipos, lo que indica que las regiones de miARN 3' también pueden ser importantes para la focalización de miARN/isomiR.

Evaluamos DMISO mediante una validación cruzada diez veces mayor de los datos de entrenamiento (Tabla complementaria S4). Mostró más del 99% de área bajo la curva característica operativa del receptor (AUROC) y área bajo la curva de recuperación de precisión (AUPR), y más del 93% de puntuaciones, precisión y recuperación F1.

También evaluamos DMISO en tres conjuntos de datos independientes: los datos de la prueba CLASH del 20% omitidos, los datos CLEAR-CLIP y los datos de miRTarBase (Tabla 1). El rendimiento de DMISO en los datos de prueba CLASH omitidos fue similar al de la validación cruzada anterior en los datos de entrenamiento CLASH. Es decir, AUROC y AUPR superaron el 99%, y la puntuación, precisión y recuperación de F1 superaron el 93%. Cuando se probó DMISO con los datos CLEAR-CLIP, el rendimiento fue ligeramente inferior (94% AUROC, 99% AUPR, 94% F1, 98% de precisión y 90% de recuperación). Debido a que no teníamos pares negativos en el conjunto de datos de miRTarBase, solo pudimos evaluar la recuperación de DMISO en este conjunto de datos independiente (Tabla 2). DMISO tuvo una recuperación del 92%, casi tan buena como la recuperación en CLEAR-CLIP y un 20% de datos de prueba CLASH omitidos.

El análisis anterior se realizó en todas las interacciones en los tres conjuntos de datos de prueba. Además, estudiamos qué tan bien DMISO predijo las interacciones que involucran diferentes tipos de isomiR en lugar de miARN exactos o de tipo salvaje (Tabla complementaria S5). DMISO mostró un desempeño consistentemente bueno en diferentes tipos de interacciones isomiR-ARNm. Por ejemplo, DMISO tuvo un AUROC del 94 %, un AUPR del 99 %, una puntuación F1 del 93 %, una precisión del 98 % y una recuperación del 89 % en los datos CLEAR-CLIP para las interacciones 5′ isomiR-ARNm. . En general, aunque el rendimiento fue cercano para diferentes tipos de interacciones isomiR-ARNm, fue ligeramente mejor en las interacciones 3' isomiR-ARNm en los conjuntos de datos CLASH y CLEAR-CLIP.

También comparamos DMISO con otras cinco herramientas: miRanda, RNA22, TargetScan, miRAW y miTAR. La entrada a cada herramienta fueron los pares de sitios objetivo de miARN/isomiR-ARNm positivos o negativos. DMISO mostró un rendimiento superior a las cinco herramientas en términos de cada métrica considerada (Tablas 1 y 2). Por ejemplo, DMISO tenía un AUROC del 94 % y un AUPR del 99 % en los datos de CLEAR-CLIP, en comparación con el AUROC más alto del 69 % y el AUPR más alto del 95 % de las otras cinco herramientas. Las cinco herramientas existentes tenían una precisión menor y una recuperación mucho menor que DMISO, lo que puede deberse a que DMISO fue la primera herramienta que tuvo en cuenta las interacciones isomiR-ARNm para entrenar los modelos. También destacó la importancia de considerar tales interacciones para futuras predicciones de objetivos de miARN.

Entre las otras cinco herramientas, miRAW y miTAR, basadas en aprendizaje profundo, tuvieron AUROC y AUPR ligeramente más altos que los de las tres herramientas clásicas (TargetScan, miRanda y RNA22) y puntuaciones de recuperación mucho más altas. Esto indica que miRAW pudo capturar la información en las regiones sin semillas, a diferencia de las tres herramientas que se centraron en las regiones con semillas. Esto implicaba la importancia de las regiones que no son semillas para la identificación del sitio objetivo de miARN28,50,51. En el conjunto de datos de miRTarBase, DMISO tuvo un retiro que fue al menos un 10% mayor que los puntajes de retiro de otras herramientas. Por el contrario, miRAW y miTar tuvieron una peor recuperación que miRanda y TargetScan, lo que sugiere que los modelos de aprendizaje profundo utilizados en las dos herramientas podrían no considerar ciertas características bien estudiadas de la interacción objetivo de miARN capturadas por el modelo DMISO (Tabla 2).

Entre los tres conjuntos de datos de prueba independientes anteriores, solo los datos de la prueba CLASH contenían sitios objetivo tanto para miARN como para isomiR; los datos de CLEAR-CLIP solo tenían interacciones isomiR-ARNm; y el conjunto de datos miRTarBase solo tenía interacciones miARN-ARNm. Por lo tanto, para investigar qué tan bien cada herramienta predijo solo las interacciones miARN-ARNm y solo las interacciones isomiR-ARNm, comparamos DMISO con las cinco herramientas en las interacciones separadas miARN-ARNm y las interacciones isomiR-ARNm. DMISO nuevamente mostró AUROC, AUPR y F1 mucho más altos que otras herramientas para predecir los sitios objetivo tanto de miRNA como de isomiR (Tabla complementaria S6).

A pesar de la alta precisión de los modelos de aprendizaje profundo para resolver un problema, estos modelos son famosos por no poder interpretar lo que aprenden de los datos. Para abordar este problema, utilizamos dos métodos de interpretación de características, análisis de núcleo convolucional y perturbación de entrada24, como un intento de desenredar el proceso de aprendizaje del modelo DMISO.

Dado que DMISO tiene capas convolucionales, aplicamos el método de análisis del núcleo convolucional para extraer las características de nivel superior aprendidas por el modelo. En este proceso, se analizaron las 10 matrices de núcleo, cada una de tamaño 4 × 8, de las dos capas convolucionales para el miARN (isomiR) y las ramas objetivo para encontrar los pesos de A, T, C y G aprendidos por las capas. Al comienzo del proceso de entrenamiento, los valores de peso de los núcleos se inicializaron aleatoriamente en el pase hacia adelante y se actualizaron mediante la propagación hacia atrás de la pérdida. Después de 500 épocas de entrenamiento, 3 de las 10 matrices del núcleo en la rama de miARN (isomiR) y 7 de las 10 matrices del núcleo en la rama de ARNm adquirieron ciertos valores de peso que podrían ser proporcionales con los motivos de unión a proteínas en las secuencias de miARN y ARNm. . Para los granos restantes en las ramas respectivas, los valores de peso eran demasiado similares (25%) para asignarlos a uno de los 4 nucleótidos. Para descubrir los motivos de las proteínas de unión, comparamos las matrices de núcleo de 4 × 8 tanto del miARN como de las ramas diana con la base de datos de motivos JASPAR en vertebrados52. Los motivos principales que cada núcleo coincidió con gran importancia fueron los motivos de unión a proteínas GATA1::TAL1, ZFP42, RARA::RXRG, RARA::RXRA, ESR2, ZFP42, ZBTB26, etc., todos los cuales son zinc tipo CCHH y CCCH. proteínas de los dedos. Las proteínas con dedos de zinc son bien conocidas como proteínas de unión a ARN, que son esenciales para unirse a las ribonucleoproteínas en un complejo silenciador inducido por ARN53. Este análisis muestra que DMISO pudo reconocer el perfil de unión de los motivos de unión de ARN en secuencias de miARN/isomiR y ARNm a través de los núcleos de las capas convolucionales, lo que no se ha considerado en las herramientas de predicción de objetivos de miARN existentes.

El otro método de interpretación de características que utilizamos fue la técnica de perturbación de entrada. En este caso, para cada miARN y secuencia objetivo en un conjunto de datos, se aplicó una máscara de 4 nucleótidos de largo que consta de "N" en la secuencia comenzando en cada posición del miARN y las secuencias objetivo. El valor modificado de la probabilidad de predicción de DMISO después de aplicar la máscara se registró para la región en las secuencias correspondientes. Luego, la máscara se deslizó a través del miARN y las secuencias objetivo un nucleótido cada vez. Los cambios promedio en la probabilidad de predicción después de escanear todos los miARN y las secuencias objetivo dentro de un conjunto de datos nos dieron las regiones que eran más significativas para DMISO dentro de todos los miARN y las secuencias objetivo.

El método de perturbación de entrada se aplicó a los datos de prueba CLASH del 20% y a los conjuntos de datos CLEAR-CLIP (Fig. 2). Para cada posición, se registró la media (azul medio) y la variación (área gris) de la sensibilidad de DMISO a los cambios en esa posición para todas las secuencias de miARN/isomiR y ARNm en un conjunto de datos. En ambos conjuntos de datos, las posiciones 1 a 9 de los miRNA/isomiR tuvieron la mayor variación, lo que confirmó la importancia de la región de la semilla. Sin embargo, no todos los puestos en la semilla tenían la misma importancia. Por ejemplo, la primera posición se asoció con la variación más baja, mientras que las posiciones 3 a 5 fueron las más altas en la semilla para ambos conjuntos de datos. La variación de sensibilidad de DMISO también fue similar para ambos conjuntos de datos desde la posición 1 hasta la posición 18, y luego disminuyó drásticamente hasta el final. Esto podría deberse a la diferencia en las longitudes de miARN/isomiR (el miARN/isomiR más corto tenía 17 nt de largo). También sugirió la importancia de casi todas las posiciones de miARN en lugar de solo la semilla para la unión al objetivo50. Cuando se cambiaron las secuencias de ARNm objetivo, DMISO reaccionó más sobre las modificaciones en las regiones 5' de las secuencias objetivo, lo que implicaba aún más la importancia de las regiones 3' de miARN/isomiR que se unían a la región 5' de las secuencias de ARNm objetivo. Además de la alta variación de sensibilidad en la región 5', las posiciones alrededor de 50 (región 3') de las secuencias objetivo mostraron un aumento en la variación de sensibilidad en ambos conjuntos de datos. Dado que la región 3' del objetivo correspondía a la región semilla del miARN/isomiR, esto confirmó la importancia de la coincidencia de alta calidad también en esta región semilla.

Los cambios en las probabilidades de predicción de DMISO con modificación de diferentes regiones del miARN de entrada (isomiR) y secuencias objetivo.

También agrupamos los miARN según las puntuaciones de sensibilidad de unión en cada posición de los miARN. Nuestra intuición fue que, si el modelo mostraba patrones de reacción similares a los cambios en dos miARN, los dos miARN podrían tener patrones o características de unión similares (Figura complementaria S2). Descubrimos que la mayoría de estos grupos de miARN tenían muchos objetivos comunes, y un grupo de miARN a menudo funciona en las mismas vías (Tabla complementaria S7).

Desarrollamos un nuevo método DMISO para predecir de manera eficiente objetivos de miRNA/isomiR a partir de simples entradas de secuencia (http://hulab.ucf.edu/research/projects/DMISO). La abundancia de isomiR en diferentes líneas celulares y tipos de células hace que sea imposible ignorarlos para la predicción del objetivo de miARN. La consideración de isomiR en DMISO nos permite considerar los intrincados cambios de secuencia que contribuyen a las interacciones miRNA/isomiR-mRNA y así tomar una decisión más informada al identificar los sitios y objetivos objetivo de miRNA e isomiR. DMISO mostró un alto rendimiento en la validación cruzada y en tres conjuntos de datos independientes. Superó a las herramientas existentes en estos conjuntos de datos, incluidas tres herramientas populares y dos herramientas basadas en aprendizaje profundo publicadas recientemente. El mejor rendimiento puede explicarse en parte por los datos de entrenamiento más generalizados que contienen sitios objetivo de isomiR/miRNA canónicos y no canónicos, la consideración de la diferencia objetivo de los isomiR y miRNA, el marco de aprendizaje profundo utilizado, etc. Los conjuntos de datos CLASH y CLEAR-CLIP que utilizamos aquí son los únicos conjuntos de datos disponibles que proporcionan tanto miRNA/isomiR como sus sitios objetivo de mRNA que interactúan. El rendimiento de DMISO podrá evaluarse más a fondo cuando haya más datos disponibles en el futuro.

Aplicamos dos métodos de interpretación de características para comprender las características del sitio objetivo de miARN / isomiR-ARNm. El análisis del núcleo convolucional sugirió el papel de las regiones específicas de la proteína de unión a ARN en los miARN/isomiR y los ARNm diana para formar una interacción. La técnica de perturbación de entrada confirmó que la región 5' del miRNA/isomiR y la región 3' de la secuencia objetivo eran muy importantes para sus interacciones. Además, demostró que la parte media del miARN (isomiR) y la secuencia diana también podrían tener contribuciones significativas.

Utilizamos el 80% de las interacciones CLASH para entrenar DMISO y el 20% restante de las interacciones para probar la herramienta en el análisis anterior. Aunque los sitios objetivo de miARN en los conjuntos de datos de entrenamiento y prueba no se superponen, los conjuntos de datos de entrenamiento y prueba contenían sitios objetivo de miARN comunes. Esto puede plantear la pregunta de si DMISO podría predecir bien los sitios objetivo de miARN desconocidos. Para abordar esta pregunta, entrenamos un nuevo modelo DMISO con las interacciones de la mitad del total de 217 miARN CLASH (109 miARN) y lo probamos en las interacciones de la otra mitad (108 miARN). También comparamos el rendimiento de DMISO en este conjunto de datos de prueba con las cinco herramientas. DMISO aún supera a otras herramientas (Tabla complementaria S8), lo que muestra que el rendimiento de DMISO es independiente de los miARN.

También analizamos el rendimiento del modelo después de incorporar la abundancia de miARN/isomiR y transcripciones de ARNm. La información de cobertura de lectura de miRNA/isomiR y mRNA se agregó a las entradas de la capa de regresión logística final. Después de entrenar el modelo con 500 épocas, el modelo mostró puntuaciones de 99% y 94% AUROC, 100% y 99% AUPR en la prueba CLASH y los conjuntos de datos CLEAR-CLIP, respectivamente, que aumentaron ligeramente en comparación con el modelo DMISO original en los respectivos conjuntos de datos. . Este análisis indica que la abundancia de información puede mejorar el modelo. Dado que no es sencillo obtener una gran cantidad de información en la práctica, preferimos el modelo DMISO entrenado original.

No utilizamos las herramientas disponibles para detectar isomiR en lecturas quiméricas porque dichas herramientas quitaron la flexibilidad para definir una longitud específica de cambio de secuencia en un isomiR. Además de considerar solo el par superior de sitios objetivo de miARN/isomiR-ARNm de una lectura quimérica anterior, también probamos los cinco pares potenciales principales de cada lectura quimérica para generar datos de entrenamiento y prueba. Las conclusiones anteriores siguen siendo válidas, especialmente el mejor rendimiento de DMISO (Tabla complementaria S9). Con una mejor comprensión de las interacciones isomiR-ARNm, podremos convertir mejor las lecturas quiméricas en sitios objetivo miARN/isomiR-ARNm en el futuro.

Los datos CLASH y CLEAR-CLIP se descargaron respectivamente del número de acceso GSE5045218 y GSE7305919 del NCBI Genome Expression Omnibus. Los datos de la versión 8.0 de miRTarBase31 se descargaron de los sitios objetivo de miARN proporcionados por la literatura original enumerada en https://mirtarbase.cuhk.edu.cn/~miRTarBase/miRTarBase_2022/php/download.php. La herramienta TargetScan se descargó del código TargetScan Human versión 7.2 en https://www.targetscan.org/cgi-bin/targetscan/data_download.vert72.cgi. La versión 3.3a de la herramienta miRanda se descargó de https://anaconda.org/bioconda/miranda/files. Se descargaron los conjuntos completos de predicción de RNA22 versión 2 para “Homo Sapiens, mRNA, ENSEMBL65, miRBase18” de https://cm.jefferson.edu/rna22-full-sets-of-predictions/. La herramienta miRAW se descargó de https://bitbucket.org/bipous/miraw_dl4mirna_binaries/src/master/. La herramienta miTAR se descargó de https://github.com/tjgu/miTAR.

El código fuente y la herramienta están disponibles en http://hulab.ucf.edu/research/projects/DMISO.

Bartel, DP MicroRNA: genómica, biogénesis, mecanismo y función. Celda 116, 281–297 (2004).

Artículo CAS Google Scholar

Macfarlane, LA & Murphy, PR MicroARN: Biogénesis, función y papel en el cáncer. actual. Genoma. 11, 537–561. https://doi.org/10.2174/138920210793175895 (2010).

Artículo CAS Google Scholar

Pritchard, CC, Cheng, HH y Tewari, M. Perfiles de microARN: enfoques y consideraciones. Nat. Rev. Genet. 13, 358–369. https://doi.org/10.1038/nrg3198 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Ruppert, SM et al. La expresión génica mediada por JunD/AP-1 promueve el crecimiento de linfocitos dependiente de la transducción de señales de interleucina-7. MÁS UNO 7, e32262. https://doi.org/10.1371/journal.pone.0032262 (2012).

Artículo CAS PubMed PubMed Central ADS Google Scholar

Wang, Y., Goodison, S., Li, X. y Hu, H. Las firmas de genes de cáncer de pronóstico comparten motivos reguladores comunes. Ciencia. Rep. 7, 4750. https://doi.org/10.1038/s41598-017-05035-3 (2017).

Artículo CAS PubMed PubMed Central ADS Google Scholar

Neilsen, CT, Goodall, GJ y Bracken, CP IsomiRs: el repertorio pasado por alto en el microARNoma dinámico. Tendencias Genet. 28, 544–549. https://doi.org/10.1016/j.tig.2012.07.005 (2012).

Artículo CAS PubMed Google Scholar

Gebert, LFR y Macrae, IJ Regulación de la función de microARN en animales. Nat. Rev. Mol. Biol celular. https://doi.org/10.1038/s41580-018-0045-7 (2019).

Artículo PubMed PubMed Central Google Scholar

Burroughs, AM y cols. Un estudio exhaustivo de los eventos de modificación de miARN animales en 3' y un posible papel de la adenilación en 3' en la modulación de la eficacia de la focalización de miARN. Genoma Res. 20, 1398-1410. https://doi.org/10.1101/gr.106054.110 (2010).

Artículo CAS PubMed PubMed Central Google Scholar

Wyman, SK y cols. La generación postranscripcional de variantes de miARN mediante múltiples nucleotidil transferasas contribuye a la complejidad del transcriptoma de miARN. Genoma Res. 21, 1450-1461. https://doi.org/10.1101/gr.118059.110 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Lee, LW y cols. Complejidad del repertorio de microARN revelada por la secuenciación de próxima generación. ARN 16, 2170–2180. https://doi.org/10.1261/rna.2225110 (2010).

Artículo CAS PubMed PubMed Central Google Scholar

Cloonan, N. y col. Los microARN y sus isomiR funcionan de forma cooperativa para apuntar a vías biológicas comunes. Genoma Biol. 12, R126. https://doi.org/10.1186/gb-2011-12-12-r126 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Llorens, F. et al. Un isomiR miR-101 altamente expresado es un ARN pequeño silenciador funcional. Genoma de BMC. 14, 104. https://doi.org/10.1186/1471-2164-14-104 (2013).

Artículo CAS Google Scholar

Loher, P., Londin, ER y Rigoutsos, I. Los perfiles de expresión de IsomiR en líneas celulares linfoblastoides humanas exhiben dependencias de población y género. Oncoobjetivo 5, 8790–8802. https://doi.org/10.18632/oncotarget.2405 (2014).

Artículo PubMed PubMed Central Google Scholar

Martí, E. et al. Una gran cantidad de variantes de miARN en regiones cerebrales de control y de la enfermedad de Huntington detectadas mediante secuenciación masiva paralela. Ácidos nucleicos res. 38, 7219–7235. https://doi.org/10.1093/nar/gkq575 (2010).

Artículo CAS PubMed PubMed Central Google Scholar

Telonis, AG, Loher, P., Jing, Y., Londin, E. y Rigoutsos, I. Más allá del paradigma de un locus, un miARN: las isoformas de microARN permiten una comprensión más profunda de la heterogeneidad del cáncer de mama. Ácidos nucleicos res. 43, 9158–9175. https://doi.org/10.1093/nar/gkv922 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Pinzón, N. et al. microRNA target prediction programs predict many false positives. Genome Res. 27, 234–245. https://doi.org/10.1101/gr.205146.116 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Ding, J., Li, X. & Hu, H. CCmiR: Un enfoque computacional para la predicción de unión de microARN competitiva y cooperativa. Bioinformática https://doi.org/10.1093/bioinformatics/btx606 (2017).

Artículo PubMed PubMed Central Google Scholar

Helwak, A., Kudla, G., Dudnakova, T. y Tollervey, D. El mapeo del interactoma de miARN humano mediante CLASH revela una unión no canónica frecuente. Celda 153, 654–665. https://doi.org/10.1016/j.cell.2013.03.043 (2013).

Artículo CAS PubMed PubMed Central Google Scholar

Moore, MJ y cols. Las quimeras objetivo de miARN revelan que el emparejamiento del extremo 3' de miARN es un determinante importante de la especificidad del objetivo de Argonaute. Nat. Comunitario. 6, 1–17. https://doi.org/10.1038/ncomms9864 (2015).

Artículo CAS Google Scholar

Bhattacharya, A. & Cui, Y. SomamiR 2.0: una base de datos de mutaciones somáticas del cáncer que alteran las interacciones microARN-ARNce. Ácidos nucleicos res. 44, D1005-1010. https://doi.org/10.1093/nar/gkv1220 (2016).

Artículo CAS PubMed Google Scholar

Ding, J., Li, X. & Hu, H. Los módulos de microARN prefieren unirse a sitios objetivo débiles y no convencionales. Bioinformática 31, 1366-1374 (2014).

Artículo de Google Scholar

Liu, W. & Wang, X. Predicción de objetivos de microARN funcionales mediante modelado integrador de datos de unión de microARN y expresión de objetivos. Genoma Biol. 20, 18. https://doi.org/10.1186/s13059-019-1629-z (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Wang, X. Mejora de la predicción del objetivo de microARN mediante el modelado con pares de microARN-objetivo identificados de forma inequívoca a partir de estudios de ligadura CLIP. Bioinformática 32, 1316-1322. https://doi.org/10.1093/bioinformatics/btw002 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Talukder, A., Barham, C., Li, X. y Hu, H. Interpretación del aprendizaje profundo en genómica y epigenómica. Breve. Bioinformar. 22, bbaa177. https://doi.org/10.1093/bib/bbaa177 (2021).

Artículo CAS PubMed Google Scholar

Kozomara, A., Birgaoanu, M. & Griffiths-Jones, S. miRBase: de las secuencias de microARN a la función. Ácidos nucleicos res. 47, D155-D162. https://doi.org/10.1093/nar/gky1141 (2019).

Artículo CAS PubMed Google Scholar

Camacho, C. et al. BLAST+: Arquitectura y aplicaciones. Bioinformación de BMC. https://doi.org/10.1186/1471-2105-10-421 (2009).

Artículo de Google Scholar

Frankish, A. et al. Anotación de referencia GENCODE para los genomas humano y de ratón. Ácidos nucleicos res. 47, D766–D773. https://doi.org/10.1093/nar/gky955 (2019).

Artículo CAS PubMed Google Scholar

Ding, J., Li, X. & Hu, H. TarPmiR: un nuevo enfoque para la predicción del sitio objetivo de microARN. Bioinformática 32, por cierto 318 (2016).

Google Académico

Li, J. y col. Identificación de elementos de la secuencia de ARNm para el reconocimiento de objetivos por parte de proteínas Argonautas humanas. Genoma Res. 24, 775–785. https://doi.org/10.1101/gr.162230.113 (2014).

Artículo CAS PubMed PubMed Central Google Scholar

Lorenz, R. et al. Paquete ViennaRNA 2.0. Algoritmos Mol. Biol. https://doi.org/10.1186/1748-7188-6-26 (2011).

Artículo PubMed PubMed Central Google Scholar

Huang, HY et al. MiRTarBase 2020: Actualizaciones de la base de datos de interacción microARN-objetivo validada experimentalmente. Ácidos nucleicos res. 48, D148-D154. https://doi.org/10.1093/nar/gkz896 (2020).

Artículo CAS PubMed ADS Google Scholar

Kingma, DP & Ba, J. en 3ra Conferencia Internacional sobre Representaciones del Aprendizaje. (ed. Yoshua Bengio y Yann LeCun).

Kim, S. & Xing, EP Estimación estadística de asociaciones de genoma correlacionadas con una red de rasgos cuantitativos. PLoS Genet. 5, e1000587. https://doi.org/10.1371/journal.pgen.1000587 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

Tibshirani, R. Regresión, contracción y selección mediante Lasso. Estadística JR. Soc. Método B. 58, 267–288 (1996).

MathSciNet MATEMÁTICAS Google Scholar

Zhou, J., Liu, J., Narayan, VA y Ye, J. Modelado de la progresión de la enfermedad mediante lazo de grupo disperso fusionado. KDD 1095–1103, 2012. https://doi.org/10.1145/2339530.2339702 (2012).

Artículo de Google Scholar

Ding, J., Cai, X., Wang, Y., Hu, H. & Li, X. ChIPModule: Descubrimiento sistemático de factores de transcripción y sus cofactores a partir de datos de ChIP-seq. En Simposio del Pacífico sobre Biocomputación. Simposio del Pacífico sobre biocomputación, 320–331 (2013).

Talukder, A., Saadat, S., Li, X. & Hu, H. EPIP: Un enfoque novedoso para la predicción de la interacción potenciador-promotor específica de una condición. Bioinformática 35, 3877–3883. https://doi.org/10.1093/bioinformatics/btz641 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Zhao, C., Li, X. & Hu, H. PETModule: un enfoque basado en módulos de motivos para la predicción de genes diana potenciadores. Ciencia. Rep. 6, 30043. https://doi.org/10.1038/srep30043 (2016).

Artículo CAS PubMed PubMed Central ADS Google Scholar

Alipanahi, B., Delong, A., Weirauch, MT y Frey, BJ Predicción de las especificidades de secuencia de las proteínas de unión a ADN y ARN mediante aprendizaje profundo. Nat. Biotecnología. 33, 831–838. https://doi.org/10.1038/nbt.3300 (2015).

Artículo CAS PubMed Google Scholar

Quang, D. & Xie, X. DanQ: Una red neuronal profunda híbrida, convolucional y recurrente para cuantificar la función de secuencias de ADN. Ácidos nucleicos res. https://doi.org/10.1093/nar/gkw226 (2016).

Artículo PubMed PubMed Central Google Scholar

Singh, S., Yang, Y., Póczos, B. & Ma, J. Predicción de la interacción potenciador-promotor a partir de una secuencia genómica con redes neuronales profundas. Cuant. Biol. 7, 122-137. https://doi.org/10.1007/s40484-019-0154-0 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Cha, M. y col. Una red neuronal convolucional de dos flujos para la integración e identificación de características del sitio de inicio de la transcripción de microARN. Ciencia. Rep. 11, 5625. https://doi.org/10.1038/s41598-021-85173-x (2021).

Artículo CAS PubMed PubMed Central ADS Google Scholar

Barham, C., Cha, M., Li, X. & Hu, H. En 2019, séptima Conferencia Internacional del IEEE sobre Bioinformática y Biología Computacional (ICCBB). 22–28.

Agarwal, V., Bell, G., Nam, J. y Bartel, D. Predicción de sitios objetivo de microARN eficaces en ARNm de mamíferos. Elife https://doi.org/10.7554/eLife.05005 (2015).

Artículo PubMed PubMed Central Google Scholar

Betel, D., Koppal, A., Agius, P., Sander, C. y Leslie, C. El modelado integral de objetivos de microARN predice sitios funcionales no conservados y no canónicos. Genoma Biol. 11, R90. https://doi.org/10.1186/gb-2010-11-8-r90 (2010).

Artículo CAS PubMed PubMed Central Google Scholar

Miranda, K. et al. Un método basado en patrones para la identificación de sitios de unión de microARN y sus correspondientes heterodúplex. Celda 126, 1203-1217. https://doi.org/10.1016/j.cell.2006.07.031 (2006).

Artículo CAS PubMed Google Scholar

Pla, A., Zhong, X. y Rayner, S. miRAW: un enfoque basado en el aprendizaje profundo para predecir objetivos de microARN mediante el análisis de transcripciones completas de microARN. Computación PLoS. Biol. https://doi.org/10.1371/journal.pcbi.1006185 (2018).

Artículo PubMed PubMed Central Google Scholar

Gu, T., Zhao, X., Barbazuk, WB y Lee, J.-H. miTAR: un enfoque híbrido basado en el aprendizaje profundo para predecir objetivos de miARN. Bioinformación de BMC. 22, 1–16. https://doi.org/10.1186/s12859-021-04026-6 (2021).

Artículo CAS Google Scholar

Fromm, B. y col. MirGeneDB 2.1: Hacia un muestreo completo de todos los filos animales principales. Ácidos nucleicos res. 50, D204–D210. https://doi.org/10.1093/nar/gkab1101 (2021).

Artículo CAS PubMed Central Google Scholar

Talukder, A., Li, X. & Hu, H. La preferencia de unión por posición es importante para la predicción del sitio objetivo de miARN. Bioinformática 36, ​​3680–3686. https://doi.org/10.1093/bioinformatics/btaa195 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Wang, XW La composición de la secuencia de semillas es un determinante importante de los patrones de focalización de microARN. Bioinformática 30, 1377–1383. https://doi.org/10.1093/bioinformatics/btu045 (2014).

Artículo CAS PubMed PubMed Central Google Scholar

Fornés, O. et al. JASPAR 2020: Actualización de la base de datos de acceso abierto de perfiles de unión de factores de transcripción. Ácidos nucleicos res. 48, D87-D92. https://doi.org/10.1093/nar/gkz1001 (2019).

Artículo CAS PubMed Central Google Scholar

Stefl, R., Skrisovska, L. y Allain, FHT en EMBO Reports, vol. 6, 33–38 (Organización Europea de Biología Molecular, 2005).

Descargar referencias

Este trabajo ha sido apoyado por la Fundación Nacional de Ciencias [Becas 2120907, 1661414 y 2015838].

Departamento de Ciencias de la Computación, Universidad de Florida Central, Orlando, FL, 32816, EE. UU.

Amlan Talukder y Haiyan Hu

Escuela Burnett de Ciencias Biomédicas, Universidad de Florida Central, Orlando, FL, 32816, EE. UU.

Wencai Zhang y Xiaoman Li

Clúster de Genómica y Bioinformática, Universidad de Florida Central, Orlando, FL, 32816, EE. UU.

Haiyan Hu

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

HH y XL concibieron y diseñaron el estudio. AT realizó los experimentos. AT, XL y HH analizaron los datos. AT, XL y HH escribieron el manuscrito. Todos los autores revisaron el manuscrito.

Correspondencia a Xiaoman Li o Haiyan Hu.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Talukder, A., Zhang, W., Li, X. et al. Un método de aprendizaje profundo para la detección de objetivos de miARN/isomiR. Informe científico 12, 10618 (2022). https://doi.org/10.1038/s41598-022-14890-8

Descargar cita

Recibido: 29 de marzo de 2022

Aceptado: 14 de junio de 2022

Publicado: 23 de junio de 2022

DOI: https://doi.org/10.1038/s41598-022-14890-8

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.