Soltero

Blog

HogarHogar / Blog / Soltero

Oct 20, 2023

Soltero

Volumen de biología de las comunicaciones

Biología de las comunicaciones volumen 6, Número de artículo: 201 (2023) Citar este artículo

6934 Accesos

29 Altmetric

Detalles de métricas

La identificación de individuos a partir de mezclas biológicas a las que contribuyeron es muy relevante en la investigación de la escena del crimen y en varios campos de la investigación biomédica, pero, a pesar de los intentos anteriores, sigue siendo casi imposible. Aquí investigamos el potencial del uso de la secuenciación del transcriptoma unicelular (scRNA-seq), junto con una tubería de bioinformática dedicada (De-goulash), para resolver este problema de larga data. Desarrollamos un enfoque novedoso y lo probamos con datos de scRNA-seq que generamos de novo a partir de mezclas de sangre de varias personas, y también mezclas in-silico que ensamblamos a partir de conjuntos de datos de scRNA-seq individuales públicos, que involucran diferentes números, proporciones y ancestros biogeográficos de los contribuyentes. Para las mezclas de sangre equilibrada y desequilibrada de 2 a 9 personas con proporciones de hasta 1:60, logramos una clara separación unicelular según los individuos contribuyentes. Para todos los contribuyentes mixtos separados, el sexo y la ascendencia biogeográfica (materna, paterna y biparental) se determinaron correctamente. Todos los contribuyentes separados se identificaron correctamente de forma individual con certeza estadística aceptable por el tribunal utilizando datos de referencia de secuenciación del exoma completo generados de novo. En este estudio de prueba de concepto, demostramos la viabilidad de los enfoques unicelulares para desconvolucionar mezclas biológicas y, posteriormente, caracterizar genéticamente e identificar individualmente a los contribuyentes de la mezcla separada. Con una mayor optimización e implementación, este enfoque puede eventualmente permitir pasar a mezclas biológicas desafiantes, incluidas las que se encuentran en las escenas del crimen.

La caracterización genética y la identificación genética individual de las personas que contribuyeron a las mezclas biológicas es relevante en diferentes áreas de la ciencia y la sociedad. Las mezclas biológicas con una contribución de más de un individuo a menudo se recolectan en las escenas del crimen. En los casos de perpetradores conocidos, la identificación genética individual puede identificar a un perpetrador a través de un perfil de ADN forense comparativo1, mientras que en aquellos con perpetradores desconocidos, la caracterización genética (como sexo, ascendencia biogeográfica) puede proporcionar pistas de investigación para ayudar a encontrar al perpetrador desconocido1. La caracterización genética exitosa y la identificación de individuos a partir de biomateriales mixtos comienza con una deconvolución de mezcla precisa, es decir, la separación del biomaterial mixto según los contribuyentes individuales, que es el paso más crucial, pero al mismo tiempo el más difícil. A pesar de varios intentos basados ​​en diferentes metodologías, las limitaciones en la desconvolución de mezclas biológicas siguen siendo uno de los principales desafíos del análisis forense de ADN2,3,4,5,6. Además, la separación de mezclas también es relevante en otras áreas de investigación y aplicaciones biomédicas, por ejemplo, para detectar y resolver la contaminación en cultivos de células, tejidos y organoides ampliamente utilizados.

Actualmente, la técnica más común utilizada en la desconvolución de mezclas forenses es la lisis diferencial7, que se aplica en mezclas que involucran células de semen del perpetrador masculino y células epiteliales de la víctima femenina que se encuentran típicamente en casos de agresión sexual mediante el análisis de hisopos vaginales. Sin embargo, la lisis diferencial a menudo da como resultado una separación incompleta de las fracciones de ADN masculinas y femeninas. En consecuencia, el perfil autosómico de repetición corta en tándem (STR) resultante aún muestra una mezcla de alelos de la víctima femenina y el perpetrador masculino. Esto hace que sea difícil, y a menudo imposible, distinguir el perfil de STR del perpetrador masculino del perfil de ADN mixto, incluso si el perfil de STR de la víctima femenina se conoce a partir del análisis de ADN de referencia8. Dirigirse a la porción específica masculina del cromosoma Y ofrece ayuda, ya que permite analizar específicamente los STR específicos masculinos en la mezcla y funciona en mezclas con gran acceso de ADN femenino como en material de casos de agresión sexual9. Sin embargo, el perfil forense de Y-STR tiene la desventaja de que, en la mayoría de los casos, no puede diferenciar entre hombres relacionados paternamente que normalmente comparten el mismo perfil de Y-STR. En consecuencia, la probabilidad de coincidencia obtenida para el sospechoso masculino también se aplicó para sus parientes masculinos paternos y, por lo tanto, no se pueden sacar conclusiones a nivel individual como se necesita en la corte9. Los métodos para desconvolucionar perfiles de STR autosómicos mixtos obtenidos a partir de tinciones mixtas con la ayuda de métodos estadísticos, como el genotipado probabilístico, están disponibles10,11,12,13, pero su éxito es limitado y depende de muchos factores12,13. Debido a su naturaleza cuantitativa, el uso de la secuenciación de próxima generación (NGS), también conocida como secuenciación paralela masiva (MPS), para la creación de perfiles forenses de STR proporciona alguna mejora en la deconvolución de perfiles mixtos de STR, pero su éxito se limita principalmente a perfiles menos complejos. mezclas como las de dos personas1. Además, la lisis diferencial no es adecuada para resolver mezclas de semen de diferentes hombres y tampoco para mezclas que no contengan ningún espermatozoide.

Otra desventaja importante de los métodos actuales es que tienen como objetivo separar el perfil de ADN mixto en lugar de separar la muestra mixta de acuerdo con sus contribuyentes antes del perfil de ADN. Una estrategia de separación de mezclas potencialmente más prometedora sería separar primero la mezcla biológica de acuerdo con las contribuciones individuales, de modo que el análisis de ADN posterior para la identificación o caracterización genética de los contribuyentes individuales separados se convierta en un análisis de fuente única técnicamente menos desafiante. Recientemente, se han probado pocos métodos para separar células de una mezcla antes del análisis forense de STR con el propósito de desconvolución de mezcla forense, como DEPArraytm 14,15,16, microdisección de captura láser17 o FACS18,19. La principal desventaja de DEPArraytm y la microdisección por captura láser es el bajo número de células que las técnicas pueden separar. Cuanto menor sea el número de células separadas, más probable es que se pierda un contribuyente menor a la mezcla. Aunque el número de células se puede aumentar mediante el uso de FACS, que requiere diferencias fluorescentes entre tipos de células separables, FACS no funciona para mezclas del mismo tipo de células o tipos de células que no se pueden separar por fluorescencia.

Un inconveniente general que unifica todos los métodos actualmente disponibles para la desconvolución de mezclas es que, en función de las cantidades limitadas de ADN obtenidas de las escenas del crimen, solo se generan perfiles STR parciales14,15,16,18,19,20. Debido al número limitado de STR incluidos en los kits de STR comerciales utilizados en la práctica forense, las probabilidades de coincidencia que resultan de los perfiles de STR parciales a menudo no son lo suficientemente altas para concluir la identificación individual con la certeza estadística necesaria aceptada por el tribunal. Aumentar la cantidad de marcadores STR en los kits de STR forenses es un desafío técnico; particularmente para kits basados ​​en electroforesis capilar (CE) y PCR multiplex marcada con fluorescencia ampliamente aplicada. Aunque MPS dirigido puede aumentar la cantidad de marcadores STR en relación con el análisis CE, en caso de que tales kits comerciales estén disponibles en el futuro, la secuenciación de STR sigue siendo un desafío debido a problemas enzimáticos con la secuenciación de ADN repetitivo. En particular, esta limitación está ausente cuando se trata de polimorfismos de un solo nucleótido (SNP), que no solo permiten la identificación genética individual sino también la caracterización genética de los individuos1,21,22. Además, los SNP se pueden genotipar fácilmente de forma simultánea en grandes cantidades con tecnologías de MPS dirigidas o no dirigidas.

En los últimos años, han surgido varias tecnologías de secuenciación unicelular que implican la secuenciación a gran escala del genoma, el epigenoma y el transcriptoma y están revolucionando la investigación y las aplicaciones biológicas y biomédicas23. Las técnicas de secuenciación de una sola célula permiten premarcar las células antes de la secuenciación a gran escala y ofrecen grandes cantidades de datos de SNP para el análisis posterior. En principio, se espera que tales tecnologías de secuenciación de una sola célula superen las limitaciones de los métodos utilizados actualmente para la desconvolución de mezclas. Sin embargo, hasta donde sabemos, la secuenciación unicelular de alto rendimiento aún no se ha aplicado para la desconvolución de la mezcla con la posterior caracterización genética y la identificación genética individual de los contribuyentes separados.

Aquí, presentamos un enfoque novedoso basado en la secuenciación del transcriptoma de una sola célula con un canal de bioinformática dedicado que, mediante el análisis de mezclas biológicas de varias personas, logra la separación genética de los contribuyentes individuales, así como la caracterización genética y la identificación genética individual de los contribuyentes separados. y adicionalmente, determina el tejido de origen de las mezclas biológicas. En este estudio de prueba de principio, presentamos nuestro enfoque con una canalización bioinformática dedicada y brindamos los primeros resultados de validación utilizando conjuntos de datos scRNA-seq generados de novo a partir de mezclas de sangre de varias personas y mezclas generadas in silico a partir de scRNA individual disponible públicamente. -seq conjuntos de datos, que involucran diferentes números de contribuyentes con diferentes ancestros biogeográficos y diferentes proporciones de las contribuciones individuales.

Con el objetivo de separar genéticamente, caracterizar e identificar individualmente a las personas que contribuyeron a las mezclas de sangre de varias personas a partir de datos de secuenciación del transcriptoma de una sola célula (scRNA-seq), hemos desarrollado una tubería de bioinformática llamada de-goulash (Fig. 1a)24. Aplicamos de-goulash en conjuntos de datos de scRNA-seq que generamos de novo a partir de mezclas de sangre de varias personas y en mezclas in silico que creamos al mezclar conjuntos de datos de scRNA-seq de una sola persona disponibles públicamente. Aunque hay varias herramientas bioinformáticas disponibles para la separación de datos scRNA-seq, como ScSplit25, Souporcell26 o Vireo27, ninguna de ellas permite una aplicación optimizada para combinar la separación de células individuales con la caracterización genética y la identificación genética individual de los contribuyentes de la mezcla separada. De-goulash primero desconvoluciona las mezclas, es decir, separa a los individuos que contribuyeron a las mezclas en un enfoque de dos pasos, utilizando dos conjuntos de SNP llamados automáticamente a partir de los datos de scRNA-seq. Los grupos de células deconvolucionados, que corresponden a los individuos que contribuyeron a la mezcla como se describe a continuación, se utilizan para llamar automáticamente conjuntos de SNP adicionales por cada uno de los grupos de células separadas para la caracterización genética con respecto al sexo, la ascendencia biogeográfica y la identificación genética individual de los separados. contribuyentes de la mezcla.

a El flujo de trabajo de canalización de desgoulash para la deconvolución de mezcla basada en una sola célula con preprocesamiento de los datos de secuenciación de scRNA-seq en dos pasos de iteración (separación basada en SNP de ADNmt seguida de separación basada en SNP de todo el genoma). b La representación UMAP en 3D del proceso de separación de una sola célula en dos pasos de una mezcla sanguínea equilibrada de dos personas (conjunto de datos M2) que involucra a un contribuyente masculino de ascendencia africana oriental y una contribuyente femenina de ascendencia europea. c Mapa EMPOP47 de la distribución mundial del haplogrupo L2a1j de ADNmt inferido a partir de SNP de ADNmt de diagnóstico de haplogrupo del grupo de células 1 con ascendencia materna africana inferida. d Mapa EMPOP del haplogrupo U5b2b4a de mtDNA inferido a partir de SNP de mtDNA de diagnóstico de haplogrupo del grupo 2 con ascendencia materna europea inferida. e Mapa de la literatura53 del haplogrupo E de Y inferido a partir de Y-SNP de diagnóstico de haplogrupo del grupo de células 1 con ascendencia paterna africana inferida. El conglomerado 2 no presentó haplogrupo Y debido al sexo femenino, como también se reveló en el análisis genético del sexo para el conglomerado 2, mientras que para el conglomerado 1 se obtuvo sexo masculino. f, g Análisis de ascendencia biparental con ESTRUCTURA de los SNP de todo el genoma obtenidos por cada uno de los grupos de células con datos de población de referencia continental (Eur: europeos, Eas: asiáticos orientales, Amr: nativos americanos, Afr: africanos subsaharianos), el resultado de los grupos de células se indica como Muestra, el resultado del grupo de células 1 demuestra una ascendencia biparental mezclada inferida con una ascendencia africana importante, el resultado del grupo de células 2 demuestra una ascendencia biparental europea. Los ancestros genéticos maternos, paternos y biparentales inferidos de los grupos de células 1 y 2 concuerdan con los ancestros basados ​​en la familia de los dos individuos involucrados en la mezcla.

Con de-goulash, después de la alineación de los datos scRNA-seq, se aplican dos rondas posteriores de desconvoluciones de mezcla genética. En el primer paso de la iteración, se llaman y utilizan los SNP del ADN mitocondrial (mtDNA) que abundan en los datos de scRNA-seq. Dado que el mtDNA en humanos se hereda uniparentalmente a través de la línea materna, los SNP de mtDNA multialélicos son causados ​​por la presencia de ADN de múltiples individuos, con la rara excepción de sitios heteroplásmicos en mtDNA. Por lo tanto, los SNP de mtDNA son adecuados para la deconvolución de mezcla dados los muchos SNP de mtDNA con diferencias entre individuos que pertenecen a diferentes linajes maternos (llamados haplogrupos de mtDNA). Esta primera iteración permite un cálculo rápido con menos recursos, ya que solo se procesa un pequeño subconjunto de los grandes datos de scRNA-seq (es decir, la parte de mtDNA). Los SNP mtDNA informativos se seleccionan en función de la frecuencia entre las células. Para superar el problema inherente de la falta de datos en scRNA-seq, que crea brechas en las posiciones en la matriz celular SNP, aplicamos el método computacional DINEOF28. Después de volver a calcular los datos que faltan, la matriz de celdas resultante se utiliza para el análisis de conglomerados. Se aplica la aproximación y proyección de variedad uniforme (UMAP)29 para la reducción y visualización de dimensiones. Cuando se desconoce (o se supone que se desconoce) el número de individuos en la mezcla, primero determinamos el número de grupos utilizando NbClust30, una colección de múltiples métodos de agrupación que llegan a un consenso sobre el número ideal de grupos de células obtenidos. La matriz resultante se usó para el agrupamiento de K-medias, usando k o k determinados a priori obtenidos del cálculo de NbClust. En el segundo paso de la iteración, el desgoulash utiliza los grupos de células establecidos en función del ADNmt de la primera iteración para llamar a los SNP de todo el genoma adecuados por grupo de células generado. Después de filtrar los SNP informativos y volver a calcular los datos que faltan, esta lista de SNP ampliada se usa para la segunda iteración de agrupamiento que sigue los mismos pasos que la primera iteración.

Después de este procedimiento de dos pasos, la canalización utiliza los grupos de células finalmente obtenidos para generar automáticamente conjuntos de SNP adicionales para cada uno de los grupos de células separados. Estos diferentes conjuntos de SNP, seleccionados en función de diferentes principios, son posteriormente aplicados por la tubería para caracterizar los contribuyentes de la mezcla separada con respecto a su sexo y ascendencia biogeográfica (mediante el uso de bases de datos de referencia de población) y, finalmente, para identificar individualmente a los contribuyentes de la mezcla separada por uso. de una base de datos de referencia de secuenciación del exoma completo. En análisis posteriores, también usamos los datos de scRNA-seq para obtener información sobre los tejidos de origen de las células en la mezcla analizada (usando genes expresados ​​diferencialmente en cada grupo de datos de expresión de una sola célula).

Para probar nuestro enfoque, primero generamos datos de scRNA-seq de novo a partir de una simple mezcla de sangre equilibrada de dos personas (conjunto de datos M2, datos complementarios 1), donde la contribución de los dos individuos era igual. Para simplificar, los dos individuos fueron seleccionados por tener diferente sexo y diferente ascendencia biogeográfica continental (africana y europea). De-goulash reveló una clara separación de las células en la mezcla en dos grupos en ambas iteraciones (Fig. 1b). En la primera iteración, se usaron 62 SNP de ADNmt y separaron el 21,3 % de las células de la mezcla, mientras que en la segunda iteración se aplicaron 630 SNP de todo el genoma y separaron casi todas las células (97 %) (Tabla complementaria 1).

Para probar si los dos grupos de células obtenidos corresponden a los dos individuos contribuyentes, primero realizamos un análisis de caracterización genética con respecto al sexo y la ascendencia biogeográfica para cada uno de los dos grupos de células por separado (para el análisis de identificación genética individual, ver más abajo). Para determinar genéticamente el sexo, primero realizamos un análisis de SNP del cromosoma Y y encontramos un número muy bajo de lecturas de secuenciación de Y-SNP para el grupo 2, que atribuimos al ruido o errores en la alineación, mientras que para el grupo 1 detectamos ~10 veces más secuenciación lee (Fig. 1 complementaria, Datos complementarios 2). En segundo lugar, analizamos el nivel de expresión del gen que codifica el ARN no codificante XIST, que se expresa específicamente en células somáticas de mujeres biológicas para inactivar uno de los dos cromosomas X31. Después de extraer las lecturas de secuenciación que se asignan al gen XIST, trazamos el nivel de expresión y encontramos una expresión ~ 10 veces mayor para el grupo 2, y casi ninguna expresión para el grupo 1 (datos complementarios 3, figura complementaria 2). Estos resultados en conjunto nos permitieron concluir que el grupo celular 1 corresponde a un hombre y el grupo 2 a una mujer, lo cual concuerda con el conocimiento a priori sobre una mujer y un hombre en la mezcla de sangre secuenciada.

La inferencia genética de la ascendencia biogeográfica basada en los dos grupos de células se realizó por separado de tres maneras diferentes utilizando tres partes diferentes del genoma humano, lo que nos permitió concluir la ascendencia biogeográfica en tres niveles diferentes. Primero, establecimos la ascendencia materna, es decir, la ascendencia de la persona del lado materno, al inferir los haplogrupos de ADNmt de los datos de SNP de ADNmt obtenidos usando Haplogrep232, e investigamos la distribución geográfica de los haplogrupos de ADNmt identificados usando conocimiento de la literatura. Aquí encontramos que el grupo 1 (Fig. 1b) se asignó al haplogrupo L2a1j de mtDNA, que se observa con mayor frecuencia en África (Fig. 1c), mientras que el grupo 2 se asignó al haplogrupo U5b2b4a de mtDNA, que se encuentra con mayor frecuencia en Europa (Fig. 1c). .1d). Ambas asignaciones se realizaron con alta confianza (Q = 0,9767 y 0,9139 respectivamente).

En segundo lugar, establecimos la ascendencia paterna, es decir, la ascendencia de un macho del lado paterno, al inferir los haplogrupos cromosómicos Y de los datos SNP cromosómicos Y obtenidos usando Yleaf33, e investigamos la distribución geográfica de los haplogrupos Y identificados usando el conocimiento de la literatura. Para el grupo de células 1, detectamos el haplogrupo Y E1b1b1b2a1a1, que muestra una distribución espacial que cubre el Medio Oriente y Sudáfrica (Fig. 1e), mientras que para el grupo 2, no se obtuvieron datos confiables del cromosoma Y (Datos complementarios 4) de acuerdo con el sexo femenino concluido del contribuyente del cluster 2.

En tercer lugar, inferimos la ascendencia biogeográfica biparental, es decir, la ascendencia de una persona tanto del lado paterno como materno, en función de los SNP autosómicos de todo el genoma utilizando STRUCTURE34 y datos de población de referencia del proyecto público 1000 Genomes35. Con este fin, por cada grupo de células, los SNP de todo el genoma se filtraron para que fueran adecuados para la inferencia de ascendencia en función de la diferencia de frecuencia de alelos menores entre las poblaciones continentales (máx. 0,3) y la distancia física (mín. 500 kb) para ajustar el desequilibrio de enlace. Para el grupo celular 1, obtuvimos 53,6% de ascendencia africana y 44,6% europea, mientras que otras ascendencias continentales fueron menores (0,4% nativos americanos, 0,2% del sur de Asia) o cero (este asiático) (Fig. 1f, Datos complementarios 5). Para el grupo 2, revelamos un agrupamiento casi completo (99.2%) hacia la ascendencia europea (Fig. 1g, Datos complementarios 5).

En conjunto, y respaldados por cada uno de los tres análisis de ascendencia genética por separado, nuestros datos nos permiten concluir que el individuo masculino del grupo 1 es de ascendencia mayoritariamente africana y el individuo femenino del grupo 2 es de ascendencia europea. Este hallazgo genético concuerda con el conocimiento a priori sobre la hembra europea y el macho africano en la mezcla de sangre secuenciada. En particular, según un cuestionario, el contribuyente masculino se origina paternamente en África Oriental. África oriental no está bien representada en los datos de referencia de 1000 Genomas utilizados (la mayoría de los individuos africanos son del África subsahariana), lo que explica los componentes de ascendencia más africanos y no africanos que detectamos.

Además, determinamos el tejido de origen de las células presentes en la mezcla utilizando el perfil de expresión génica derivado de los mismos datos de scRNA-seq. Los genes expresados ​​diferencialmente en cada uno de los grupos obtenidos mediante el análisis de agrupamiento de t-SNE se utilizaron para determinar los tipos de células y tejidos a través del análisis de enriquecimiento de genes con Enrichr (Human Gene Atlas)36. Descubrimos que los tipos de células en ambos grupos pertenecen a diferentes tipos de células sanguíneas, lo que está de acuerdo con el conocimiento a priori de que el scRNA-seq se generó a partir de una mezcla de sangre (Fig. 3a complementaria).

Dado que el primer paso de iteración del procedimiento de desconvolución de la mezcla se basa únicamente en los SNP de ADNmt, se puede especular que el éxito de la separación de una sola célula está influenciado por el grado de diferencias de ADNmt entre los individuos de la mezcla. Con el fin de probar el impacto de haplogrupos de mtDNA más estrechamente relacionados en la deconvolución de la mezcla, generamos datos de scRNA-seq (conjunto de datos M2-cl, Datos complementarios 1) de una segunda mezcla de sangre balanceada de 2 personas que involucra al individuo 2 descrito anteriormente (European hembra con haplogrupo U5b2b4a) y un nuevo individuo 3 (macho con haplogrupo U5a2b4 de mtDNA de ascendencia materna europea pero con ascendencia paterna africana). Aunque, por razones técnicas, la profundidad de secuenciación general obtenida de esta mezcla de sangre fue relativamente baja (Datos complementarios 1), se reveló una clara separación de las células en dos grupos (Fig. 2a). Mientras que en la primera iteración, se detectaron tres grupos, lo que puede deberse a la cantidad reducida de SNP de mtDNA disponibles debido a la baja profundidad de secuenciación y al ruido general de los datos, la segunda iteración demostró dos grupos de células claramente separados, como se esperaba para este mezcla de dos personas. Los resultados del sexo biológico y el análisis de ascendencia biogeográfica coincidieron con las expectativas del conocimiento a priori sobre los dos individuos que contribuyeron a esta mezcla de sangre (datos complementarios 3-5, figuras complementarias 2-4). Estos hallazgos sugieren que el grado de diferenciación del mtDNA de los individuos que se van a separar en una mezcla no afecta negativamente el éxito de nuestro enfoque de desconvolución de la mezcla.

a–c Representación UMAP 3D de la separación unicelular de mezclas de sangre equilibradas que involucran a dos individuos (arriba, conjunto de datos M2-cl), tres individuos (centro, conjunto de datos M3) y cuatro individuos (abajo, conjunto de datos M4), respectivamente. Los paneles de la izquierda muestran los resultados después del primer paso de iteración de la deconvolución de la mezcla basada en los SNP de ADNmt. Los paneles de la derecha muestran los resultados después de la segunda iteración en función de los SNP de todo el genoma. una mezcla de dos individuos europeos con haplogrupos de ADNmt estrechamente relacionados separados en dos grupos distintos después de ambos pasos de iteración, b mezcla de tres individuos europeos separados en tres grupos distintos después de ambas iteraciones, c mezcla de cuatro individuos de origen diverso (individuo 1 y 2: hembra, ascendencia europea, individuo 3: masculino, ascendencia europea, individuo 4: masculino, ascendencia europea materna, ascendencia africana paterna) separados en 4 grupos distintos después de ambas iteraciones. d, f, i, k El análisis de ascendencia biparental con STRUCTURE de SNP autosómicos obtuvo grupos individuales de la mezcla de 4 personas (Fig. 2c) con datos de población de referencia continental de 1000 Genomes Project data (Eur: Europeans, Eas: East Asians, Amr : Nativos americanos, Afr: África subsahariana) para el grupo de células d 1 con ascendencia biparental europea inferida, el grupo de células f 2 con ascendencia europea inferida, el grupo de células i 3 con ascendencia europea inferida y el grupo de células k 4 con ascendencia africana mayor inferida ascendencia. e, g, j, l Mapa EMPOP de haplogrupos de mtDNA inferidos de mtDNA SNP de grupos individuales de la mezcla de 4 personas en (Fig. 2c) para e grupo de células 1 con haplogrupo de mtDNA U5b2b4a (ascendencia materna europea), grupo de células g 2 con el haplogrupo T2a1a de ADNmt (ascendencia materna europea), el grupo de células j 3 con el haplogrupo H11a1 de ADNmt (ascendencia europea) y el grupo de células l 4 con el haplogrupo U5a2b4 de ADNmt (ascendencia europea). Mapas de literatura h-m53 de haplogrupos Y inferidos a partir de Y-SNP de diagnóstico de haplogrupos por dos de los cuatro grupos de células de la mezcla de 4 personas (Fig. 2C) para el grupo de células f 2 con el haplogrupo Y I2a1b1a2b1a (ascendencia del sur de Europa) , y m para el grupo celular 4 con Y-haplogrupo E1b1a1a1a1a (ascendencia africana).

Para probar aún más nuestro enfoque en mezclas más complejas, realizamos scRNA-seq en mezclas de sangre de más de dos personas. Primero, generamos una mezcla de sangre balanceada de 3 personas a partir de tres individuos de la misma ascendencia continental, todos europeos, y realizamos scRNA-seq en esta mezcla con el posterior análisis de datos de goulash (conjunto de datos M3, Datos complementarios 1). Mientras que en la deconvolución de la mezcla, el primer paso de la iteración no proporcionó una agrupación clara, se obtuvieron tres grupos distintos después de la segunda iteración (Fig. 2b) en función de la gran mayoría (96,5 %) de las celdas (Tabla complementaria 1) de acuerdo con la mezcla de 3 personas. El análisis de caracterización genética de los tres grupos de células separadas proporcionó información de alta confianza sobre los haplogrupos de sexo, mitocondrial y ADN-Y (Datos complementarios 4) con ascendencia materna y paterna inferida, y ascendencia biparental basada en SNP de todo el genoma (Figura complementaria 4, Datos complementarios 5), que estaban en total acuerdo con el conocimiento a priori sobre la presencia de dos mujeres europeas y un hombre europeo en esta mezcla de sangre de 3 personas.

En segundo lugar, producimos una mezcla de sangre balanceada de 4 personas utilizando los tres europeos antes mencionados más un hombre africano y realizamos análisis de datos scRNA-seq y de-goulash (conjunto de datos M4, datos complementarios 1). Al igual que con la mezcla de 3 personas, la primera iteración de la deconvolución de la mezcla no proporcionó una separación clara (Tabla complementaria 1, Fig. 2c), mientras que la segunda iteración mostró cuatro grupos distintos usando casi todas (98%) de las celdas (Fig. 2c) de acuerdo con la mezcla de 4 personas. El análisis de caracterización genética demostró el sexo, los haplogrupos y los ancestros biogeográficos paternos, maternos y biparentales como se esperaba del conocimiento a priori de los individuos en esta mezcla de sangre de 4 personas (Fig. 2d-m, Figs. complementarias 1-4, Datos complementarios 2–5).

En tercer lugar, generamos mezclas equilibradas in silico que contenían de 5 a 9 individuos por cada mezcla (conjuntos de datos M5-M9). La mezcla in silico de 5 personas se creó combinando los conjuntos de datos M2 y M4 (una persona participó en ambos experimentos, por lo tanto, estuvo presente en los conjuntos de datos M2 y M4). Se crearon diferentes mezclas in silico que contenían de 6 a 9 individuos al combinar cuatro conjuntos de datos de scRNA-seq individuales disponibles públicamente con el conjunto de datos M4 (Tabla complementaria 2). Con de-goulash, para todas estas mezclas in silico, obtuvimos la cantidad respectiva de grupos de células que coincidían con la cantidad de individuos en las mezclas (Fig. 3a-e, Fig. 5 complementaria), incluso para los más complejos 9- mezcla de personas (Fig. 3e, Fig. 5e complementaria). Los grupos de células separadas también revelaron la información correcta sobre sexo, ADNmt y haplogrupos Y y la ascendencia materna y paterna consiguiente (Datos complementarios 2–4 y Tabla complementaria 3), como deducimos al analizar los conjuntos de datos individuales por separado. Estos resultados sugieren que con nueve individuos que representan la mezcla más compleja que probamos, no se han alcanzado los límites de nuestro enfoque de desconvolución de mezcla, y se espera que las mezclas equilibradas de más de nueve individuos puedan desconvolucionarse con éxito con nuestro enfoque. Si bien la ascendencia materna y paterna se derivó correctamente para todos los contribuyentes en estas mezclas, inferir ascendencia biparental en individuos con ascendencia más compleja (conjuntos de datos A1 y A2 en las mezclas in silico M6-M9, Tabla complementaria 4) parece menos confiable en las mezclas altamente complejas (Fig. 4 complementaria, Datos complementarios 5), que requieren más investigaciones.

a Mezcla de cinco individuos, b mezcla de seis individuos, c mezcla de siete individuos, d mezcla de ocho individuos y e mezcla de nueve individuos. Los códigos de color denotan los diferentes individuos de las respectivas mezclas. De-goulash utiliza un enfoque de dos pasos con la primera iteración basada en mtDNA SNP y la segunda iteración basada en SNP de todo el genoma.

A continuación, investigamos si la identificación genética individual de los contribuyentes separados es factible en función de los datos de scRNA-seq desconvolucionados con éxito obtenidos de las mezclas. Para este propósito, también generamos datos de secuenciación del exoma completo (WES) a partir de muestras de referencia de hisopos bucales de todas las personas que contribuyeron para las mezclas de sangre antes mencionadas, que sirvieron como base de datos de referencia del estudio para la identificación individual basada en coincidencia comparativa (Tabla complementaria 5). Los SNP autosómicos se extrajeron de los datos de scRNA-seq de cada uno de los grupos de células deconvolucionados en todas las mezclas teniendo en cuenta dos criterios generales para la selección de SNP de identidad: (i) diferencia mínima en las frecuencias de alelos menores entre los principales grupos de población utilizando el 1000 datos del Proyecto Genomas con una frecuencia no superior a 0,3, y (ii) la distancia física entre los SNP es superior a 500 kb para mitigar los efectos causados ​​por el desequilibrio de enlace. La identificación genética individual se realizó comparando los SNP de identidad obtenidos de cada uno de los grupos de células separados en cada una de las mezclas con la base de datos de referencia WES. Por cada grupo de células separadas y entre mezclas, los SNP de identidad obtenidos de los grupos de células que se superpusieron con la referencia WES, por lo que se utilizaron para el emparejamiento genético, oscilaron entre 35 y 162 entre grupos y mezclas.

Para determinar la fuerza de la evidencia de una coincidencia genética para la identificación genética individual, se aplicaron como parámetros estadísticos la relación de probabilidad (LR) y la coincidencia de probabilidad (PM). LR se usa para determinar si la muestra coincidente y la muestra de referencia provienen del mismo individuo37, mientras que PM indica la probabilidad de que la coincidencia haya sido causada por un individuo no relacionado. En un proceso de identificación genética, generalmente un LR de más de 10E + 6 se considera una evidencia extremadamente fuerte que apoya la hipótesis a favor de la identificación individual38. Aquí, usamos un umbral 10E + 9 más conservador ya que estamos usando una nueva técnica. En todos nuestros conjuntos de datos, encontramos una coincidencia significativa (más del 90 % de los SNP) con una de las muestras en la base de datos de referencia del estudio (Fig. 4a-f, Fig. 6 complementaria). Atribuimos el porcentaje de SNP que no coinciden a errores en la secuenciación o sangrado menor entre grupos (datos complementarios 6). Para todas las coincidencias individuales obtenidas, el LR del perfil de SNP coincidente fue significativamente más alto que el umbral utilizado, con un rango de 1,71E + 14 a 5,00E + 65 en las muestras coincidentes, lo que proporciona evidencia sólida para la identificación exitosa de los contribuyentes individuales a la mezcla analizada ( Fig. 4g–l). En particular, incluso en las mezclas más complejas probadas que incluyeron hasta 9 individuos, donde el número de células separadas fue significativamente menor, la identificación genética individual de todos los contribuyentes de la mezcla se logró con éxito (Fig. 4l, Datos complementarios 7). La inspección posterior de los individuos coincidentes que se utilizaron en las mezclas y en la base de datos de referencia del estudio confirmó la identificación individual correcta en todos los casos.

Número de SNP de identidad coincidentes con la referencia de secuenciación del exoma completo (a–f). a Mezcla de sangre de dos individuos (conjunto de datos M2), b Mezcla de sangre de dos individuos con haplogrupos de ADNmt estrechamente relacionados (conjunto de datos M2-cl), c Mezcla de sangre de tres individuos (conjunto de datos M3), d Mezcla de sangre de cuatro individuos (conjunto de datos M4) , e combinación de datos in silico de cinco individuos (conjunto de datos M5), f combinación de datos in silico de nueve individuos de los cuales solo cinco individuos tenían datos de referencia WES disponibles para la identificación genética individual (conjunto de datos M9). Identificación genética individual basada en estadísticas. como expresión logarítmica de LR y PM (g–l). La razón de verosimilitud (LR) y la coincidencia de probabilidad (PM) se usaron como parámetros estadísticos para determinar la fuerza de la evidencia de una coincidencia genética para la identificación genética individual. La línea verde representa el umbral 10E9 LR para una identificación correcta. g Mezcla de sangre de dos individuos (conjunto de datos M2), h mezcla de sangre de dos individuos con haplogrupos de ADNmt estrechamente relacionados (conjunto de datos M2-cl), i mezcla de sangre de tres individuos (conjunto de datos M3), j mezcla de sangre de cuatro individuos (conjunto de datos M4) , k mezcla de datos in silico de cinco individuos (conjunto de datos M5), l mezcla de datos in silico de nueve individuos de los cuales solo cinco individuos tenían datos de referencia WES disponibles para la identificación genética individual (conjunto de datos M9).

A continuación, probamos nuestro enfoque en mezclas desequilibradas más desafiantes, es decir, mezclas a las que los diferentes individuos contribuyeron de manera diferente. Comenzamos con mezclas desequilibradas de 2 personas para las cuales seleccionamos 1000 celdas de dos conjuntos de datos (A2 y A4) y las mezclamos en diferentes proporciones que van desde 1:10 a 1:99 (Tabla complementaria 6). Las celdas del componente menor se seleccionaron de celdas altamente informativas, es decir, celdas que contienen el mayor número de lecturas de secuenciación en el conjunto de datos respectivo. Los códigos de barras de las celdas que se retuvieron durante la selección de las celdas nos permitieron evaluar el éxito del proceso de separación al compararlo con el conjunto de datos original de la mezcla balanceada. Para las mezclas in silico desequilibradas 1:10, 1:20 y 1:40, se observó una clara separación de grupos según los dos individuos en las mezclas (Fig. 5a) sin ningún "derrame" entre los grupos (Suplementario Tabla 7). En el conjunto de datos 1:60, observamos dos grupos de celdas con un número menor de cinco celdas del componente menor asignado incorrectamente al grupo del componente principal (Tabla complementaria 7). En el conjunto de datos de 1:80, aunque los datos se separaron visiblemente en dos grupos de celdas distintos, se observaron asignaciones incorrectas significativas y filtraciones entre grupos (Tabla complementaria 7). Finalmente, con el conjunto de datos 1:99, la tubería no alcanzó ninguna separación de grupos de las celdas (Fig. 5a). Estos resultados sugieren que para mezclas desequilibradas de 2 personas, nuestro enfoque es capaz de desconvolucionar correctamente a los dos contribuyentes individuales con contribuciones de hasta aproximadamente 1:60, al menos.

un agrupamiento UMAP que muestra la limitación del proceso de separación de una sola célula en mezclas desequilibradas de 2 personas de varias proporciones de mezcla de 1:10 a 1:99. b, c Agrupación de UMAP a partir de la deconvolución de una mezcla de una sola célula de mezclas desequilibradas de 4 personas con un componente menor del 3 % del recuento total de células, b mezcla con un componente menor (azul), c mezcla con tres componentes menores (negro). d Número promedio de SNP de identidad utilizados para la identificación individual (para marcadores) y número total de SNP disponibles (tot. marcadores) por grupo por número de celdas de grupo desconvolucionado y muestreado de una mezcla de cuatro individuos (conjunto de datos M4). e Porcentaje de coincidencia de alelos SNP de identidad entre el grupo de células y la base de datos de referencia WES por grupo de células por número de células (a partir de grupos deconvolucionados del conjunto de datos M4). f Expresión logarítmica promedio de las relaciones de verosimilitud por grupo de celdas por número de celdas (a partir de grupos deconvolucionados del conjunto de datos M4). g Expresión logarítmica promedio de la probabilidad de coincidencia por grupo de celdas por número de celdas (de grupos deconvolucionados del conjunto de datos M4). h Asignación correcta promedio de haplogrupos Y y mtDNA por grupo de células a partir de grupos deconvolucionados del conjunto de datos M4 (barras) con calidad promedio marcada de la predicción (como puntos).

A continuación, probamos nuestro enfoque en mezclas in silico desequilibradas más complejas con más de dos contribuyentes individuales al generar dos mezclas de células desequilibradas de cuatro individuos del conjunto de datos M4 mencionado anteriormente. Estas mezclas se generaron utilizando asignaciones de agrupamiento anteriores del conjunto de datos M4 (Fig. 2c). La primera mezcla desequilibrada de 4 personas incluía un componente menor que representaba el 3 % del total de celdas de la mezcla y tres componentes principales con partes iguales juntas que representaban el 97 % restante de las celdas. Nuestro enfoque logró una desconvolución de mezcla exitosa al revelar una separación clara de los cuatro grupos individuales (Fig. 5b). En comparación con la asignación de grupos del conjunto de datos equilibrado original, observamos cambios mínimos en las asignaciones de celdas hacia el componente menor (3 celdas), y 49 celdas se asignaron incorrectamente entre los grupos de componentes principales (Tabla complementaria 7).

En la segunda mezcla desequilibrada de 4 personas, revertimos las composiciones de los componentes menores y mayores en el sentido de que cada uno de los tres componentes menores representaba el 3 % del número total de células, mientras que el componente principal representaba el 91 % restante de las células. Nuevamente, obtuvimos una separación clara de los cuatro grupos individuales (Fig. 5c). Y nuevamente, la diferencia en los grupos menores en comparación con los del conjunto de datos equilibrado original fue mínima (dos de ellos contienen 1 celda previamente asignada de manera diferente), mientras que el traspaso observado de los componentes menores al componente principal fue de 42 celdas en total. Este análisis sugiere que en mezclas desequilibradas de 4 personas, los componentes menores que representan el 3% del número total de celdas pueden desconvolucionarse con éxito además de los principales.

Al realizar análisis de caracterización genética en el conjunto de datos, obtuvimos la información correcta sobre sexo, mtDNA y haplogrupos Y y la ascendencia materna y paterna consiguiente tanto en los grupos principales como en los secundarios (Tabla complementaria 8, Figuras complementarias 7, 8). Aunque con respecto a la ascendencia biparental, los resultados de ESTRUCTURA de los grupos de componentes menores no dieron como resultado una evidencia clara, probablemente debido a la cantidad limitada de SNP autosómicos disponibles para este análisis (Tabla complementaria 8, Figuras complementarias 7, 8).

Finalmente, investigamos la sensibilidad de nuestro enfoque para la identificación genética individual utilizando el conjunto de datos M4 previamente separado que involucraba a cuatro contribuyentes (Fig. 2c) y creamos puntos de datos de diferentes números de células que van desde 10 a 500. Para cada grupo de células, aleatoriamente recogió códigos de barras celulares para simular varios números de celdas en un conjunto de datos. Cada muestreo se repitió 10 veces para corregir el sesgo de selección y los resultados del canal de análisis se promediaron y trazaron para determinar el número promedio de células requeridas para la determinación exitosa de cada parámetro. La coincidencia genética con la base de datos de referencia del estudio para la identificación individual alcanza el umbral de SNP coincidente del 90% ya con 10 células para la mayoría de los casos. La identificación genética individual fue más inestable con un bajo número de células, pero se estabilizó cuando se incluyeron más de 50 células (Fig. 5d, e, Tabla complementaria 9). Sin embargo, el porcentaje de SNP coincidentes se mantuvo por encima del 90% para todos nuestros puntos de datos recopilados que constaban de más de 20 celdas (Fig. 5d, e, Tabla complementaria 9). Para los LR, observamos una tendencia lineal general, especialmente más allá de las 30 celdas (Fig. 5f, g, Datos complementarios 8) se puede observar una tendencia similar con la determinación de haplogrupos (Datos complementarios 9 y 10). Todos los grupos excedieron el umbral de LR conservador (10E + 9) con 100–200 celdas. Estos análisis sugieren que, con la profundidad de secuenciación y la cobertura que utilizamos aquí, nuestro enfoque puede proporcionar una identificación genética individual en mezclas de varias personas separadas y desequilibradas que contienen más de 150 células por contribuyente individual. Se espera que este número mínimo de células disminuya aún más con el aumento de la profundidad de lectura de scRNA-seq, lo que conducirá a un aumento del número total de SNP detectables y, por lo tanto, a un aumento del número de SNP de identidad disponibles para la comparación.

En los últimos años, se han desarrollado algunas canalizaciones de análisis de datos de secuenciación de una sola célula que permiten la desconvolución de mezclas, como ScSplit25, Souporcell26 y Vireo27. Sin embargo, a diferencia de nuestra tubería de degoulash, ninguno de ellos incluye la caracterización genética y los pasos de identificación genética individual, que son vitales para futuras aplicaciones forenses además de la desconvolución de la mezcla. Como no es posible una comparación directa de estas tuberías existentes con nuestro desgoulash integrado de tuberías, hemos comparado la parte de desconvolución de la mezcla de desgoulash con las tuberías solo de desconvolución. Cuando probamos con una mezcla de dos individuos, con 5000 células, todas las herramientas probadas (SoupOrCell, Vireo, ScSplit y nuestra herramienta de-goulash) pudieron desconvolucionar a los dos individuos; sin embargo, ScSplit no pudo asignar el 45,16 % de las células del donante 1 a ningún grupo (Fig. 9a, b complementarias). De-goulash consumió la menor cantidad de RAM en comparación con SoupOrCell y Vireo (Figura complementaria 10a, b). SoupOrCell y Vireo tardaron menos tiempo en comparación con el degoulash (Figura complementaria 10a, b). ScSplit, tomó menos tiempo pero más recursos (Figura complementaria 10a, b). Cuando aumentamos la complejidad de la mezcla a 9 individuos, con un total de 10 000 células, Vireo se desempeñó tan bien como el degoulash (Figura complementaria 9c, e), mientras que SoupOrCell mostró una alta tasa de asignaciones de células incorrectas en múltiples grupos (Figura complementaria .9d) y ScSplit no lograron desconvolucionar con recursos similares. Los recursos necesarios (RAM y tiempo) para desconvolucionar una mezcla de nueve individuos siguen una tendencia similar a la cantidad de recursos necesarios para desconvolucionar una mezcla de dos individuos (Figura complementaria 10c, d). Llegamos a la conclusión de que para la etapa de deconvolución de mezcla, el degoulash es una canalización de deconvolución de mezcla precisa que requiere menos recursos en comparación con otras herramientas de deconvolución únicamente. Con la integración optimizada de las partes de caracterización genética e identificación genética individual, así como la parte de identificación de tejidos, de la que carecen todas las demás herramientas de software, el goulash brinda una oportunidad única para futuras aplicaciones forenses, donde la deconvolución de la mezcla representa el primer paso seguido por caracterización genética en casos con sospechosos desconocidos e identificación genética individual en casos con sospechosos conocidos y donde el conocimiento del tipo de tejido de la mezcla es también muy relevante.

La separación de los individuos que contribuyeron a las mezclas biológicas, y su posterior caracterización genética y/o identificación individual, es crucial en muchas áreas, especialmente en la investigación forense. Con el fin de resolver el desafío de larga data de la desconvolución de mezclas, planteamos la hipótesis de que, siempre que se disponga de un método adecuado, la información genética presente en los datos del transcriptoma de una sola célula permitirá (i) separar a los individuos que contribuyeron a las mezclas biológicas, (ii) caracterizar a los contribuyentes separados en cuanto a sexo y ascendencia, (iii) identificar individualmente a los contribuyentes separados, y (iv) determinar el tejido de origen de las células en la mezcla. Probamos nuestra hipótesis mediante el desarrollo de un nuevo enfoque basado en la secuenciación de una sola célula y una canalización de bioinformática dedicada y la probamos en varios conjuntos de datos de scRNA-seq obtenidos de mezclas de múltiples personas generadas de novo e in silico, simples y complejas, así como equilibradas y equilibradas. los desequilibrados. Nuestro estudio de prueba de principio demuestra la viabilidad de separar genéticamente a los individuos que contribuyeron a las mezclas de sangre de varias personas con diferentes niveles de complejidad (mezclas simples y complejas, equilibradas y desequilibradas) y caracterizar genéticamente e identificar individualmente a los contribuyentes separados de la mezcla.

Si bien la mayoría de los intentos anteriores de desconvolución de mezclas, particularmente en medicina forense, tenían como objetivo separar a los contribuyentes en función de perfiles de ADN mixtos, con nuestro enfoque novedoso, separamos a los contribuyentes individuales antes de la caracterización genética y los análisis de individualización genética. Por lo tanto, los análisis genéticos posteriores se realizaron como análisis de fuente única, evitando así los desafíos de caracterizar e identificar individuos a partir de perfiles de ADN mixtos. Demostramos que nuestro enfoque es capaz de separar con precisión a los contribuyentes individuales de las mezclas biológicas que contienen hasta nueve individuos. Sin embargo, con este número máximo de nueve individuos en una mezcla que probamos aquí, no vimos ninguna limitación en la desconvolución de la mezcla. Esto sugiere que nuestro enfoque tiene el potencial de desconvolucionar con éxito mezclas de más de nueve individuos, según el número obtenido de SNP por grupo de células individuales, lo que garantiza futuras pruebas experimentales. Como demostramos, el diseño de nuestro enfoque de deconvolución al considerar los SNP de mtDNA como el primer paso no se ve obstaculizado por el grado de similitud del mitogenoma, ya que las mezclas de individuos con haplogrupos de mtDNA relacionados tanto cercanos como distantes se separaron igualmente bien. Como también se muestra, nuestro enfoque puede separar individuos de mezclas equilibradas y desequilibradas hasta una proporción de 1:60 como mínimo, y de 150 células como mínimo. Sin embargo, el análisis de secuencias de una sola célula con mayor profundidad que la realizada aquí aumentará la cantidad de SNP disponibles, lo que permitirá una deconvolución exitosa y una caracterización genética posterior y análisis de identificación a partir de menos células, lo que requiere confirmación empírica futura.

Que nuestro enfoque pueda hacer frente con éxito a una mezcla altamente desequilibrada es especialmente interesante en el contexto forense, donde las mezclas desequilibradas se encuentran más comúnmente en las escenas del crimen que las equilibradas. Nuestro enfoque abre nuevas oportunidades para aplicaciones futuras, como la ciencia forense, ya sea directamente o con modificaciones y desarrollos adicionales. En su estado actual, nuestro enfoque tiene el potencial de aplicarse en casos de delitos violentos en los que se dispone de mezclas de sangre de varias personas para su análisis, y en ambos escenarios: si un sospechoso ya es conocido por las autoridades investigadoras o permanece desconocido. En casos con sospechosos desconocidos, la caracterización genética de un donante de muestra a través del fenotipado de ADN forense del sexo y la ascendencia biogeográfica, como se estudió aquí, pero también los rasgos de apariencia, es crucial, ya que esto puede permitir encontrar al sospechoso desconocido a través de una investigación policial enfocada. Para lograr esto, los SNP considerados deben incluirse en los datos de referencia de la población utilizados para la inferencia de ascendencia y en los modelos estadísticos utilizados para la predicción de la apariencia. Debido a la gran cantidad de SNP autosómicos con información redundante sobre la ascendencia continental, y la redundancia en los SNP de ADNmt y ADN-Y para caracterizar los haplogrupos de ADNmt y Y para inferir la ascendencia materna y paterna, simplemente se trata de obtener suficientes SNP de los deconvolucionados. células, y no necesariamente específicas, y no necesariamente los mismos SNP en diferentes grupos de células individuales dentro y entre mezclas. Debido a esto y al número suficiente de mtDNA, Y-DNA y SNP autosómicos que obtuvimos de los grupos de células separadas, nuestro enfoque permite una inferencia exitosa de la ascendencia materna, paterna y biparental para los contribuyentes de la mezcla separada. Sin embargo, se espera que esto sea más desafiante cuando se trata de extender la caracterización genética para incluir adicionalmente la predicción de apariencia, que funciona en función de SNP específicos utilizados en los modelos de predicción estadística. Para esta extensión de la caracterización genética en el contexto del fenotipado forense del ADN, sería beneficioso pasar del transcriptoma a la secuenciación del genoma de las mezclas biológicas, lo que generará más SNP y, por lo tanto, potencialmente también SNP específicos utilizados en los modelos de predicción de apariencia.

En casos con sospechosos conocidos, el resultado forense crucial es la identificación genética individual del donante de la muestra a través de un perfil de ADN forense comparativo. Para lograr esto, los individuos, como aquellos que contribuyeron a una mezcla biológica y se separaron a través del enfoque de deconvolución aquí, se comparan con un conjunto de datos de referencia obtenido de una muestra de ADN de referencia del sospechoso del caso conocido o de delincuentes criminales previamente condenados almacenados en un forense. base de datos de ADN. Demostramos que nuestro enfoque permite la identificación genética individual de contribuyentes de mezclas separadas de mezclas de varias personas equilibradas y desequilibradas con el estándar estadístico más alto, lo que fue posible porque se obtuvieron suficientes SNP de identidad de los grupos de células individuales separadas, respectivamente. Sin embargo, debido a que los SNP de identidad se adquieren de cada grupo de células individuales separados, nuestro enfoque no funciona con SNP de identidad universal, es decir, los mismos SNP de identidad en todos los individuos. En cuanto a los SNP de ascendencia, también hay redundancia en los SNP de identidad, aunque se basan en las características genéticas de población opuestas utilizadas para la selección de SNP. Por lo tanto, lo que importa también para la identificación genética individual es obtener suficientes SNP de identidad, y no necesariamente específicos. Debido a que no se utilizan SNP de identidad universal, el requisito para el conjunto de datos de referencia es incluir tantos SNP como sea posible y, por lo tanto, tantos SNP de identidad como sea posible. De esta manera, existe una buena posibilidad de que cualquier conjunto de SNP de identidad que se obtenga de un grupo de células después de una deconvolución de mezcla exitosa esté disponible principalmente en el conjunto de datos de referencia utilizado y, por lo tanto, disponible para la comparación. En el presente estudio, resolvimos este problema de complejidad utilizando datos de WES como conjunto de datos de referencia debido a la superposición esperada entre los SNP presentes en los datos de WES con los obtenidos de la secuenciación del transcriptoma realizada en las mezclas. La secuenciación del transcriptoma completo también podría usarse en las muestras de referencia, lo que aumentaría la cantidad de SNP de identidad disponibles para la coincidencia genética. Esto sería especialmente interesante para mezclas en las que interviene un pequeño número de células separables por menor o todos los contribuyentes. Además, en el futuro, nuestro enfoque de deconvolución de mezclas unicelulares podría transferirse a la secuenciación del genoma tanto para las mezclas como para las muestras de referencia, lo que se espera que aumente aún más la cantidad de SNP disponibles para la identificación genética individual (además de la caracterización genética). .

Prevemos que nuestro enfoque también podría aplicarse a la genealogía genética investigativa (IGG) o la genealogía genética forense (FGG), en las que se utilizan conjuntos de datos SNP densos para encontrar familiares del donante de una muestra de la escena del crimen a través de bases de datos genéticas públicas39. El enfoque ha ganado mayor atención en los últimos años debido a la identificación exitosa de varias personas desaparecidas y perpetradores. De hecho, nuestro enfoque podría discernir perfiles individuales en una mezcla para crear conjuntos de datos SNP de un solo perfil, aunque en el estudio actual es demasiado escaso para usarse en una configuración IGG. La imputación genética podría aumentar aún más los datos hasta un nivel en el que se puedan cargar en bases de datos públicas para búsquedas genealógicas posteriores40.

En una aplicación de trabajo de casos forenses, para un sospechoso determinado conocido por la policía en un caso específico, sería posible generar datos de secuenciación del transcriptoma, exoma o genoma a partir de la muestra de referencia del sospechoso, lo que sirve como requisito previo para resolver un caso mixto con nuestro enfoque. Desafortunadamente, en muchos casos, la policía no conoce a los sospechosos y, por lo tanto, no hay muestras de referencia disponibles para el análisis de secuencias de D/ARN, donde nuestro enfoque con su parte de caracterización genética puede ayudar a encontrar al sospechoso desconocido y presentarlo al STR forense estándar. perfilado Sin embargo, actualmente parece poco realista que, para resolver casos con sospechosos desconocidos, las bases de datos forenses nacionales de ADN incluyan datos de transcriptoma o secuenciación del genoma en un futuro próximo. Tal vez esto cambie con nuevos desarrollos en las tecnologías de secuenciación de D/ARN, siempre que los costos de secuenciación disminuyan.

Una desventaja especialmente con respecto a futuras aplicaciones forenses es que la plataforma scRNA-seq de genómica 10X que usamos aquí requiere células vivas para una separación genética exitosa, lo que en consecuencia limita la aplicación a mezclas biológicas que contienen células vivas. Para una aplicación forense más amplia, se deben probar y desarrollar en el futuro plataformas alternativas de una sola celda que no requieran celdas vivas o que puedan funcionar con celdas fijas. Además, para mezclas con un número muy bajo de células de todos o de contribuyentes menores, será necesaria una secuenciación más profunda con mayor cobertura del transcriptoma o genoma para aumentar el número total de SNP de modo que haya suficientes SNP para una separación genética exitosa. la caracterización y la identificación genética individual de los contribuyentes de la mezcla están disponibles, lo que también debe probarse empíricamente.

Para concluir, en este estudio, hemos desarrollado un enfoque novedoso para separar genéticamente, caracterizar e identificar individualmente a los contribuyentes de las mezclas biológicas. Nuestro enfoque se basa en la secuenciación de una sola célula de las mezclas biológicas para separar genéticamente las células de cada uno de los contribuyentes individuales, de modo que la posterior caracterización genética y la identificación genética individual de los contribuyentes de la mezcla separada se conviertan en un análisis de fuente única. En este estudio de prueba de principio, demostramos la viabilidad de nuestro enfoque en mezclas simples y complejas, así como equilibradas y desequilibradas. El trabajo futuro debe demostrar la transferibilidad a otros tipos de mezclas biológicas además de las mezclas de sangre utilizadas aquí. En particular, nuestra tubería bioinformática de-goulash funciona con cualquier tipo de conjunto de datos de secuencia del que se pueden extraer SNP, lo que permite pasar del transcriptoma a la secuenciación del genoma en el futuro. Se espera que dicho desarrollo adicional aumente el número de SNP extraíbles, lo que beneficiará la desconvolución de mezclas con contribuyentes (menores) de bajo número de células y caracterización genética e identificación genética individual de los contribuyentes de mezcla separados, y también puede permitir expandir la caracterización genética. análisis hacia la predicción de la apariencia. Es posible que el trabajo futuro permita aplicar nuestro enfoque a las mezclas biológicas que se encuentran en las escenas del crimen y en la investigación biomédica donde se requiere la desconvolución de la mezcla, como la identificación de contaminaciones en cultivos de células, tejidos y organoides.

Un flebotomista capacitado recolectó sangre de cada donante en un tubo anticoagulante con EDTA de 10 ml mediante un procedimiento de venopunción. Las PBMC se aislaron por gradiente de densidad usando el protocolo LymphoprepTM (Stemcell Technologies, #07851). En resumen, primero se transfirió la sangre a tubos de 15 ml y se centrifugó. Luego se extrajo el plasma y la muestra se resuspendió en 1 volumen de PBS con 2% de FBS. A continuación, las muestras se colocaron en capas sobre LymphoprepTM y se centrifugaron. La capa de PBMC se transfirió a PBS con FBS al 2 %, se lavó dos veces y se filtró a través de un filtro celular de 40 µl. La viabilidad celular se evaluó utilizando el contador de células Countess II. Se preparó una mezcla equilibrada de los donantes mezclando el mismo número de células de cada individuo, y la suspensión de células resultante se diluyó según lo recomendado por la guía de preparación de células individuales de 10X Genomics.

Las bibliotecas de secuenciación de ARN de una sola célula se generaron siguiendo los protocolos de preparación de bibliotecas de una sola célula de cromo 10X. La biblioteca mezcla M2 y M2-cl scRNA-seq se preparó siguiendo el protocolo 10X Chromium Single-cell 3' Reagent Kits v3. Las mezclas M3 y M4 se prepararon utilizando los kits de reactivos 3' de una sola célula Chromium Next GEM 10X v3.1 (doble índice). Las bibliotecas se secuenciaron en un Illumina Novaseq6000. La profundidad de secuenciación, las lecturas por celda y el número de celdas secuenciadas por experimento están disponibles en Datos complementarios 1.

Las lecturas de secuenciación se alinearon con el genoma humano (GRCh38) con el alineador STAR que forma parte del software Cell Ranger 3.0.2 (10X Genomics). En promedio, obtuvimos una tasa de alineación del 91,63% con el genoma GRCh38 (información de alineación disponible en Datos complementarios 1). Las celdas válidas se llamaron en función de los recuentos totales de UMI por código de barras. Se utilizó una matriz de expresión basada en código de barras, UMI, anotación génica y expresión génica para la agrupación y el agrupamiento de t-SNE. La expresión diferencial se calculó utilizando la diferencia entre la expresión media entre los conglomerados y el conglomerado de interés.

Para iniciar el proceso de deconvolución de 2 pasos, los datos alineados de scRNA-seq (archivo BAM) se filtraron utilizando dos criterios con subset-bam v1.1.041 (i) lecturas que contienen códigos de barras celulares y (ii) archivo BAM que contiene solo mtDNA lecturas (necesario solo para la primera iteración). El archivo BAM resultante fue indexado y clasificado por TAG utilizando samtools v.1.942 y dividido en archivos BAM de celdas individuales con un script Pysam v0.15.443 personalizado basado en los códigos de barras celulares. Se llamaron variantes (en todo el archivo BAM del conjunto de datos) con FreeBayes v1.3.144 paralelos utilizando argumentos de análisis "-iXu -C 2 -q 1". El archivo vcf resultante (que contiene los SNP) se filtró aún más mediante bcftools filter QUAL < 80 DP < 100 (QUAL, calidad; profundidad de DP). En cada celda individual, la cantidad de lecturas que respaldan cada SNP se contó utilizando samtools mpiléup. Se excluyeron los indeles y se calculó la tabla de frecuencias de cada base para cada SNP. Los SNP con dos o más bases por posición se consideraron como variantes de interés. Las siguientes variantes se filtraron aún más en función de la abundancia entre las células. Para que se considere una variante, debe estar presente en un mínimo del 1% de las células.

Para filtrar celdas, las variantes obtenidas en los pasos anteriores se aplicaron para contar el número de lecturas de SNP por celdas (calidad de llamada base ≥90 y cobertura de lectura de variante por celda ≥2). Luego, las celdas se filtraron para contener un mínimo de 20 SNP (10 para conjuntos de datos de mezcla desequilibrada o cuando la calidad de los datos era baja). La matriz de celdas resultante se usó para imputar los datos faltantes usando Dineof28. La matriz recalculada se utilizó para la reducción de dimensiones y el trazado mediante UMAP29 con parámetros n_neighbors = 300, min_dist =0, n_components = 3 (n_neighbors se redujo a 50 para conjuntos de datos desequilibrados con un número reducido de celdas). Cuando fue necesario, si no se conoce el número de individuos (número de grupos) en la mezcla, NbClust30 determinó el número de grupos. La matriz de oxidación se usó para el agrupamiento y trazado de k-medias. Al aplicar estos pasos, la primera iteración se completó generando una asignación de agrupamiento de células basada en mtDNA.

Para expandir los SNP de mtDNA y aumentar el número de células, así como la efectividad de la agrupación, primero fusionamos los archivos BAM de las células en función de la agrupación de mtDNA. Después de la fusión, las variantes se llamaron usando FreeBayes v1.3.144 paralelos con argumentos "-iXu -C 2 -q 1". Las listas de variantes de clúster se fusionaron con Picard Tools versión 2.25.6 MergeVcfs. El vcf resultante se filtró con el filtro bcftools (QUAL < 80 DP < 100) y las variantes no únicas se descartaron con bcftools norm45. La lista creada se usó para crear recuentos por variante por celda y comenzar una segunda iteración para llamar SNP y celdas de grupo (Fig. 1a). El archivo BAM y los SNP por grupo generados al final de la segunda iteración se utilizaron para el análisis final (ascendencia biogeográfica, sexo e identificación individual).

La secuenciación del exoma completo (WES) se realizó en el ADN extraído de hisopos bucales. Se pidió a cada individuo que se frotara las mejillas con un hisopo durante 15 s en cada lado sin tocarse los dientes. A continuación, se extrajo el ADN añadiendo 800 µl de agua, 30 µl de proteinasa K (10 mg/ml), 90 µl de SDS al 10 % y se incubó a 55 °C durante 3 h. A continuación, se añadieron 300 µl de NaCl 5 M y las muestras se incubaron durante 10 min a temperatura ambiente. Después de la centrifugación, el sobrenadante se mezcló con 1 volumen de isopropanol y se centrifugó nuevamente. A continuación, el sedimento se lavó dos veces con etanol al 70 % y se secó. A continuación, el sedimento resultante se disolvió en 50 µl de agua milliQ y se midió con pico green. Luego, las muestras se diluyeron para contener 500 ng de ADN en 30 µl. La calidad del ADN (integridad) se comprobó en gel al 0,1%.

La biblioteca se preparó utilizando un kit Hyperprep (Roche) con fragmentación enzimática y ligadura de adaptador de índice dual. La captura del exoma se realizó utilizando las sondas SeqCap EZ MedExome (Roche). A continuación, las muestras se secuenciaron en un Novaseq6000. Los datos se desmultiplexaron y las lecturas de alta calidad se alinearon con la referencia del genoma humano hg19 utilizando la herramienta de alineación Burrow-Wheeler (BWA versión 0.7.3a). La puntuación de calidad base se recalibró y los indeles se realinearon utilizando Genome Analysis ToolKit (GATK versión 3.7)46. Los duplicados se marcaron con Picard (Picard Tools versión 1.90). La llamada de variantes se realizó con HaplotypeCaller (GATK v3.8). Posteriormente, las muestras se agruparon para llamadas combinadas con el flujo de trabajo de GATK GenotypeVCFs y VariantQualityScoreRecalibration. Las métricas de control de calidad de muestra se obtuvieron utilizando los módulos de profundidad de cobertura y evaluación de variantes de GATK. Los niveles de ruido de fondo se estimaron y corrigieron utilizando la herramienta verificarBAMid y la opción de "fracción de contaminación" en HaplotypeCaller de GATK.

La ascendencia materna (mtDNA) se adquirió aplicando Haplogrep2.1.20 en el archivo vcf de cada grupo después del archivo vcf usando el filtro bcftools (QUAL < 80 DP < 20). Los resultados del análisis se compararon con una base de datos de ADNmt EMPOP47 (para la densidad geográfica del haplogrupo de ADNmt) y PhyloTree48 (para el árbol filogenético de las variaciones del ADNmt). La ascendencia del cromosoma Y se determinó utilizando Y-leaf33 que utiliza el archivo BAM de clúster como entrada y los parámetros –b 90 –q 20 –r 2 según lo recomendado por el manual del usuario.

La presencia del cromosoma Y se determinó contando el número de lecturas que se alinean con el cromosoma Y y comparando entre diferentes grupos. El nivel de expresión del ARN largo no codificante, ARN XIST (del cromosoma X) que cubre el cromosoma X inactivo en las células femeninas, se utilizó para determinar la presencia de un cromosoma X inactivo. La ubicación del gen XIST se determinó utilizando las coordenadas del gen Ensembl49. Las lecturas en el gen XIST y el cromosoma Y se extrajeron del archivo SAM y se contaron usando samtools45.

Primero determinamos el porcentaje de coincidencia comparando las variantes de cada grupo (de scRNA-seq) y la referencia del exoma. Se llama a una coincidencia entre un exoma de referencia y un grupo determinado si el porcentaje de coincidencia fue superior al 90 %. Para un procesamiento posterior, se conservaron los SNP no coincidentes (SNP sin coincidencia entre la referencia del exoma y el grupo) y solo los SNP comunes entre la referencia del exoma y el grupo. Las variantes se filtraron aún más según su presencia en la base de datos 1000 Genomes35. A continuación, generamos un conjunto de datos de referencia de 1000 genomas utilizando las cinco poblaciones continentales (europea, africana, estadounidense, del sur de Asia y del este de Asia) en el proyecto 1000G. Se realizó un paso de poda para evitar efectos de desequilibrio de enlace donde se requería una distancia mínima de 500 kb entre los SNP incluidos. Para cada muestra, se realizó un análisis de ascendencia biparental utilizando STRUCTURE (v2.3.4)34. Brevemente, el software utiliza un modelo estadístico para asignar iterativamente a cada individuo a fracciones de un número de supuestas poblaciones hasta que se supone que el modelo converge. Realizamos 10 000 iteraciones de quemado y 10 000 iteraciones posteriores con cinco poblaciones supuestas (K = 5) con el modelo de mezcla aplicado.

Los resultados del análisis de ascendencia biparental se usaron para determinar la población dominante en la muestra (grupo), que a su vez se usó para extraer la frecuencia alélica (AF) para nuestros SNP. Para los cálculos de los parámetros forenses, los SNP se recortaron aún más para incluir solo marcadores genéticos en los que las frecuencias alélicas no variaran en más de 0,3 entre las poblaciones. Simultáneamente, podamos los SNP utilizando una distancia de 500 kb entre los marcadores incluidos, lo que mitiga los efectos potenciales del desequilibrio de enlace. Entonces calculamos:

Probabilidad de coincidencia aleatoria total (RMP) usando:

donde i denota el i-ésimo SNP, N el número total de SNP y Pr(Gi) toma el valor AFi2 para genotipos homocigotos, Gi y 2AFi(1-AFi) para genotipos heterocigotos y donde AFi es la frecuencia alélica del SNP . Hemos asumido el equilibrio de Hardy Weinberg a lo largo de nuestros cálculos, aunque el ajuste por desequilibrio es un pequeño cambio.

La razón de verosimilitud (LR) se derivó directamente del RMP como

donde hemos asumido el escenario donde hay una coincidencia perfecta entre el genotipo de la muestra y alguna referencia (no utilizada en este estudio), mientras que el modelo puede ampliarse fácilmente para tener en cuenta los abandonos/retrocesos alélicos y otros errores.

La probabilidad de coincidencia combinada (CPM), denominada solo PM en el texto, se calculó como

donde la suma interna atraviesa todos los genotipos posibles (Gi,g) en el marcador i y resume la probabilidad de observar dos genotipos idénticos en cada marcador. El CPM es el producto de las probabilidades de cada marcador.

Tenga en cuenta que 1 y 2 están relacionados con el perfil de ADN específico, mientras que 3 está relacionado con las estadísticas promedio de los marcadores disponibles del grupo y que quedan después de la poda.

Se obtuvieron cuatro conjuntos de datos de scRNA-seq disponibles públicamente de 10x genomics (https://www.10xgenomics.com/resources/datasets). Los SNP se llamaron utilizando los argumentos de análisis de FreeBayes v1.3.144 "-iXu -C 2 -q 1–throw-away-indels-obs". El archivo SNP vcf se filtró con bcftools filter QUAL < 80 DP < 20 y se usó para análisis posteriores. La ascendencia materna, paterna y biparental se determinó como se describe anteriormente.

Se generó una mezcla equilibrada que contenía entre 5 y 9 individuos mediante la selección aleatoria de códigos de barras de cada conjunto de datos (Tabla complementaria 2 para todos los contenidos de la mezcla in-silico) y la combinación de las lecturas de los códigos de barras seleccionados de cada conjunto de datos. Cada conjunto de datos retuvo la información del código de barras celular para permitir una evaluación adicional. El número de celdas en cada mezcla está disponible en la Tabla complementaria 2. Los conjuntos de datos se procesaron a través de la canalización de desconvolución y análisis como se describe anteriormente.

Se realizaron mezclas desequilibradas utilizando dos conjuntos de datos (A2, A4) que se obtuvieron de fuentes disponibles públicamente seleccionando aleatoriamente un total de 1000 celdas. Para el conjunto de datos principal (A4) se utilizaron todas las celdas disponibles. Para el conjunto de datos menor (A2), se preseleccionaron 1000 celdas, con la mayor cantidad de lecturas por celda, para evitar sesgar el análisis con celdas con poca información. La relación entre el componente menor y el mayor osciló entre 1:9 y 1:99. Luego, cada uno de los conjuntos de datos se filtró para las lecturas que contenían los códigos de barras seleccionados. Los subconjuntos del conjunto de datos resultante se fusionaron en una nueva mezcla. Para la separación, utilizamos una canalización de deconvolución modificada utilizando un número reducido de SNP y vecinos UMAP para reflejar un número más bajo de celdas. En este, debido al bajo número de células, se utilizaron los parámetros de filtrado SNP de QUAL < 50 DP < 50. Los datos se analizaron más a fondo utilizando la canalización de análisis con la modificación descrita para conjuntos de datos limitados, así como analizando la asignación correcta de cada celda al grupo de su fuente original.

En función de la asignación de grupos de deconvolución del conjunto de datos M4, seleccionamos aleatoriamente códigos de barras de celdas de cada grupo. Luego filtramos las lecturas de los códigos de barras seleccionados para crear un subconjunto desequilibrado del conjunto de datos original. A continuación, generamos dos conjuntos de datos, cada uno con una mezcla proporcional de componentes menores y mayores. En la primera mezcla, seleccionamos un componente minoritario (3% del total de células) y tres componentes principales (proporcionalmente el 97% del total de células). La segunda mezcla contenía tres grupos de componentes menores (cada uno con un 3 % del total de células) y un grupo de componentes principales (el 91 % restante del total de células). Las mezclas se procesaron utilizando la canalización de deconvolución y análisis como se describió anteriormente.

Para cada grupo del conjunto de datos M4, seleccionamos aleatoriamente entre 10 y 500 códigos de barras de celdas (según la deconvolución anterior y la asignación de celdas a grupos). Para cada punto (número de códigos de barras) seleccionamos 10 veces para corregir el efecto de lote. Las lecturas de los códigos de barras seleccionados se filtraron del conjunto de datos M4 original creando un nuevo subconjunto de datos. Cada subconjunto de datos tenía variantes llamadas usando FreeBayes v1.3.144 con argumentos "-iXu -C 2 -q 1–throw-away-indels-obs". A continuación, se realizó la tubería de análisis para cada subconjunto (utilizando el archivo SNP vcf llamado y el archivo BAM del subconjunto como entrada). Se promediaron los resultados de la coincidencia del exoma y los parámetros forenses por punto. Los resultados de la asignación de haplogrupos recibieron 1 o 0 si el haplogrupo era correcto o incorrecto, respectivamente. El valor de 0,5 se dio cuando el haplogrupo tenía 1 rama hacia arriba según PhyloTree48. Luego se promediaron las puntuaciones acumuladas.

En total, se probaron cuatro tuberías de deconvolución de mezcla (ScSplit 1.0.8, Vireo 0.2.3, SoupOrCell 2.0, De-goulash) en dos mezclas in silico. La primera mezcla silico se preparó mezclando dos conjuntos de datos de un solo donante (conjuntos de datos A3 y A4, consulte la Tabla complementaria 2) que generaron un total de 5000 códigos de barras celulares (2500 por donante). Los respectivos archivos bam se subdividieron y fusionaron usando samtools 1.9. La segunda mezcla in silico utilizada para la comparación de las tuberías fue una mezcla compleja que se generó mezclando datos generados de novo y conjuntos de datos de un solo donante (mezcla M9, ​​consulte la Tabla complementaria 2).

Para cada tubería seguimos el manual provisto y aplicamos los parámetros recomendados. El preprocesamiento para scSplit se realizó con samtools 1.9 para Vireo con cellSNP 0.3.1. Dado que Vireo y SoupOrCell requieren que se conozca el número de individuos en la mezcla, proporcionamos el número de individuos. Para cada tubería, se comparó la cantidad de tiempo consumido, la cantidad de recursos utilizados y el agrupamiento final (se registró la deconvolución).

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de Nature Portfolio vinculado a este artículo.

Los conjuntos de datos individuales utilizados en la parte in silico del estudio están disponibles a través del sitio web de 10x: A1: https://www.10xgenomics.com/resources/datasets/5-k-peripheral-blood-mononuclear-cells-pbm-cs -de-un-donante-saludable-v-3-química-3.0.2 A2: https://www.10xgenomics.com/resources/datasets/peripheral-blood-mononuclear-cells-pbm-cs-from-a- donante-saludable-chromium-connect-channel-1-3.1.0 A3: https://www.10xgenomics.com/resources/datasets/4-k-pbm-cs-from-a-healthy-donor-2.1.0 A4: https://www.10xgenomics.com/resources/datasets/10-k-pbm-cs-from-a-healthy-donor-gene-expression-and-cell-surface-protein-3.0.0 Los conjuntos de datos mixtos que se generaron de novo en este estudio están disponibles en la base de datos de EGA con EGAS00001006202. Los archivos de coordenadas UMAP y el agrupamiento de STRUCTURE 1000Genomes utilizados para generar los gráficos de agrupamiento se pueden encontrar en figshare50,51,52.

La canalización de bioinformática de-goulash24 está disponible en: https://github.com/genid/de-goulash.

Kayser, M. & De Knijff, P. Mejorando el análisis forense humano a través de avances en genética, genómica y biología molecular. Nat. Rev. Genet. 12, 179–192 (2011).

Artículo CAS PubMed Google Académico

Bennett, L. et al. Desconvolución de mezclas mediante secuenciación paralela masiva de microhaplotipos. En t. J. Pierna. Medicina. 133, 719–729 (2019).

Artículo Google Académico

Holland, MM, McQuillan, MR & O'Hanlon, KA La secuenciación de segunda generación permite la deconvolución de la mezcla de mtDNA y la detección de alta resolución de heteroplasmia. Croata. Medicina. J. 52, 299–313 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Perlin, MW et al. Validación de la interpretación de la mezcla de ADN TrueAllele (R). J. ciencia forense. 56, 1430–1447 (2011).

Artículo CAS PubMed Google Académico

Novroski, NMM et al. Expansión más allá de los loci STR centrales actuales: una exploración de 73 marcadores STR con mayor diversidad para mejorar la deconvolución de la mezcla de ADN. Ciencia forense. En t. Gineta. 38, 121–129 (2019).

Artículo CAS PubMed Google Académico

Hwa, HL et al. Un panel de polimorfismos de 1204 nucleótidos simples y de polimorfismos de inserción-deleción para el análisis de secuenciación paralela masiva de mezclas de ADN. Ciencia forense. En t. Gineta. 32, 94–101 (2018).

Artículo CAS PubMed Google Académico

Gill, P., Jeffreys, AJ & Werrett, DJ Aplicación forense de huellas dactilares de ADN. Naturaleza 318, 577–579 (1985).

Artículo CAS PubMed Google Académico

Vuichard, S. et al. Extracción de ADN diferencial de muestras desafiantes de agresión sexual simulada: un estudio colaborativo suizo. investigando Gineta. 2, 11 (2011).

Artículo PubMed PubMed Central Google Académico

Kayser, M. Uso forense del ADN del cromosoma Y: una descripción general. Tararear. Gineta. 136, 621–635 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Alladio, E. et al. Interpretación de mezclas de ADN: una comparación de varios software de prueba de concepto que destaca el rendimiento de diferentes métodos probabilísticos en muestras difíciles. Ciencia forense. En t. Gineta. 37, 143–150 (2018).

Artículo CAS PubMed Google Académico

Budowle, B. et al. Interpretación de mezclas: definición de las características relevantes de las pautas para la evaluación de perfiles de ADN mixtos en el trabajo de casos forenses. J. ciencia forense. 54, 810–821 (2009).

Artículo CAS PubMed Google Académico

Gill, P. et al. Interpretación de mezclas de STR simples usando áreas de picos de alelos. Ciencia forense. En t. 91, 41–53 (1998).

Artículo CAS PubMed Google Académico

Buckleton, JS et al. El Software de Genotipado Probabilístico STRmix: Utilidad y Evidencia de su Validez. J. ciencia forense. 64, 393–405 (2019).

Artículo PubMed Google Académico

Anslinger, K. & Bayer, B. ¿De quién es la sangre? Aplicación de la tecnología DEPArray(TM) para la identificación de individuo/s que contribuyeron con sangre a una mancha mixta. En t. J. Pierna. Medicina. 133, 419–426 (2019).

Artículo CAS Google Académico

Williamson, VR, Laris, TM, Romano, R. y Marciano, MA Desconvolución de mezcla de ADN mejorada de muestras de delitos sexuales utilizando el sistema DEPArray. Ciencia forense. En t. Gineta. 34, 265–276 (2018).

Artículo CAS PubMed Google Académico

Anslinger, K., Graw, M. y Bayer, B. Desconvolución de mezclas de sangre y sangre mediante el perfilado de STR de células individuales separadas por DEPArray(TM). Rechtsmedizin 29, 30–40 (2019).

Artículo Google Académico

Elliott, K., Hill, DS, Lambert, C., Burroughes, TR y Gill, P. El uso de microdisección láser mejora enormemente la recuperación de ADN de los espermatozoides en portaobjetos de microscopio. Ciencia forense. En t. 137, 28–36 (2003).

Artículo CAS PubMed Google Académico

Fontana, F. et al. Aislamiento y análisis genético de células puras a partir de mezclas biológicas forenses: La precisión de un enfoque digital. Ciencia forense. En t. Gineta. 29, 225–241 (2017).

Artículo CAS PubMed Google Académico

Verdon, TJ, Mitchell, RJ, Chen, W., Xiao, K. y Van Oorschot, RAH Separación FACS de mezclas biológicas relevantes desde el punto de vista forense no comprometidas. Ciencia forense. En t. Gineta. 14, 194–200 (2015).

Artículo CAS PubMed Google Académico

Watkins, DRL, Myers, D., Xavier, HE y Marciano, MA Revisión del análisis de células individuales en la ciencia forense. ciencia Rep. 11, 7054 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Kayser, M. Fenotipado de ADN forense: predicción de la apariencia humana a partir del material de la escena del crimen con fines de investigación. Ciencia forense. En t. Gineta. 18, 33–48 (2015).

Artículo CAS PubMed Google Académico

Phillips, C. Análisis genético forense de la ascendencia biogeográfica. Ciencia forense. En t. Gineta. 18, 49–65 (2015).

Artículo CAS PubMed Google Académico

Tang, X., Huang, Y., Lei, J., Luo, H. & Zhu, X. La secuenciación unicelular: nuevos desarrollos y aplicaciones médicas. Biociencia celular. 9, 53 (2019).

Artículo PubMed PubMed Central Google Académico

Kulhankova, L. et al. Canalización de análisis forense y deconvolución de células de desgoulash. https://doi.org/10.5281/zenodo.7559996 (Github, 2022).

Xu, J. et al. Desmultiplexación libre de genotipos de secuencias de ARN unicelulares agrupadas. Genoma Biol. 20, 290 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Heaton, H. et al. Souporcell: agrupamiento robusto de datos de RNA-seq de una sola célula por genotipo sin genotipos de referencia. Nat. Métodos 17, 615–620 (2020).

Artículo CAS PubMed Google Académico

Huang, Y., McCarthy, DJ & Stegle, O. Vireo: Desmultiplexación bayesiana de datos agrupados de ARN-seq de una sola célula sin referencia de genotipo. Genoma Biol. 20, 273 (2019).

Artículo PubMed PubMed Central Google Académico

Zheng, S., Huang, SX & Fang, HX Relleno de datos a partir de conjuntos de datos oceanográficos incompletos mediante cálculos EOF. (World Acad Union-World Acad Press, 2008).

McInnes, L., Healy, J. & Melville, J. UMAP: Proyección y aproximación de variedad uniforme para la reducción de dimensiones. Preimpresión en arXiv https://doi.org/10.48550/arXiv.1802.03426 (2020).

Charrad, M., Ghazzali, N., Boiteau, V. & Niknafs, A. Nbclust: un paquete R para determinar el número relevante de clústeres en un conjunto de datos. Estado J. suave 61, 1–36 (2014).

Artículo Google Académico

Pontier, DB & Gribnau, J. Xist regulación y función exploradas. Tararear. Gineta. 130, 223–236 (2011).

Artículo PubMed PubMed Central Google Académico

Weissensteiner, H. et al. HaploGrep 2: clasificación de haplogrupos mitocondriales en la era de la secuenciación de alto rendimiento. Ácidos Nucleicos Res. 44, W58–W63 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Ralf, A., Montiel Gonzalez, D., Zhong, K. & Kayser, M. Yleaf: software para la inferencia de haplogrupos del cromosoma Y humano a partir de datos de secuenciación de próxima generación. mol. Biol. Evol. 35, 1291–1294 (2018).

Artículo CAS PubMed Google Académico

Pritchard, JK, Stephens, M. & Donnelly, P. Inferencia de la estructura de la población utilizando datos de genotipo multilocus. Genética 155, 945–959 (2000).

Artículo CAS PubMed PubMed Central Google Scholar

Consorcio del Proyecto 1000 Genomas. et al. Una referencia mundial para la variación genética humana. Naturaleza 526, 68–74 (2015).

Artículo Google Académico

Chen, EY et al. Enrichr: herramienta de análisis de enriquecimiento de listas de genes HTML5 interactiva y colaborativa. BMC Bioinforma. 14, 128 (2013).

Artículo Google Académico

Collins, A. & Morton, NE Razones de probabilidad para la identificación de ADN. proc. Academia Nacional. ciencia EE. UU. 91, 6007–6011 (1994).

Artículo CAS PubMed PubMed Central Google Scholar

Martire, KA, Kemp, RI, Sayle, M. & Newell, BR Sobre la interpretación de los cocientes de probabilidad en la evidencia científica forense: formatos de presentación y el efecto de evidencia débil. Ciencia forense. En t. 240, 61–68 (2014).

Artículo CAS PubMed Google Académico

Greytak, EM, Moore, C. & Armentrout, SL Genealogía genética para investigaciones activas y de casos sin resolver. Ciencia forense. En t. 299, 103–113 (2019).

Artículo CAS PubMed Google Académico

Das, S., Abecasis, GR & Browning, BL en Revisión anual de genómica y genética humana, vol. 19 (eds. A. Chakravarti y ED Green) 73–96 (2018).

Genómica, x. subconjunto-bam, https://github.com/10XGenomics/subset-bam (2020).

Danecek, P. et al. Doce años de SAMtools y BCFtools. GigaScience 10, giab008 (2021).

Artículo PubMed PubMed Central Google Académico

Pysam-desarrolladores. Pysam, https://github.com/pysam-developers/pysam (2020).

Garrison, E. & Marth, G. Detección de variantes basada en haplotipos a partir de secuenciación de lectura corta. Preimpresión en arXiv https://doi.org/10.48550/arXiv.1207.3907 (2012).

Li, H. et al. El formato de mapa/alineación de secuencias y SAMtools. Bioinformática 25, 2078–2079 (2009).

Artículo PubMed PubMed Central Google Académico

McKenna, A. et al. The Genome Analysis Toolkit: un marco MapReduce para analizar datos de secuenciación de ADN de próxima generación. Genoma Res. 20, 1297–1303 (2010).

Artículo CAS PubMed PubMed Central Google Scholar

Parson, W. & Dür, A. EMPOP: una base de datos forense de ADNmt. Ciencia forense. En t. Gineta. 1, 88–92 (2007).

Artículo PubMed Google Académico

van Oven, M. & Kayser, M. Árbol filogenético integral actualizado de la variación global del ADN mitocondrial humano. Tararear. Mutat. 30, E386–E394 (2009).

Artículo PubMed Google Académico

Howe, KL et al. Ensembl 2021. Ácidos Nucleicos Res. 49, D884–D891 (2021).

Artículo CAS PubMed Google Académico

Kulhankova, L. et al. Archivos de agrupamiento Iteración1, https://doi.org/10.6084/m9.figshare.21790061.v2, (Figshare, 2022).

Kulhankova, L. et al. Archivos de agrupamiento Iteración2, https://doi.org/10.6084/m9.figshare.21790061.v2, (Figshare, 2022).

Kulhankova, L. et al. Archivos de agrupamiento de ESTRUCTURA, https://doi.org/10.6084/m9.figshare.21792344.v2, (Figshare, 2022).

Chiaroni, J., Underhill, PA & Cavalli-Sforza, LL Diversidad cromosómica Y, expansión humana, deriva y evolución cultural. proc. Academia Nacional. ciencia EE. UU. 106, 20174–20179 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

Descargar referencias

Agradecemos a todos los voluntarios que proporcionaron material para este estudio. Nos gustaría agradecer al personal de la Instalación de Genómica Humana (HuGE-F) del Laboratorio de Genética, Departamento de Medicina Interna, Erasmus MC por producir los datos WES para este estudio. También nos gustaría agradecer a Bella Banjanin, Stijn Fuchs, Bianca de Graaf, Almira Zada ​​y Martijn Ernst por su ayuda con la recolección de muestras.

Diego Montiel González

Dirección actual: Centro Princes Maxima de Oncología Pediátrica, Utrecht, Países Bajos

Los siguientes autores contribuyeron igualmente: Manfred Kayser, Eskeatnaf Mulugeta.

Departamento de Identificación Genética, Erasmus MC, Centro Médico Universitario de Róterdam, Róterdam, Países Bajos

Lucie Kulhankova, Diego Montiel González, Manfred Kayser y Skeatnaf Mulugeta

Departamento de Hematología, Erasmus MC, Centro Médico Universitario de Róterdam, Róterdam, Países Bajos

eric bindels

Departamento de Genética Forense y Toxicología, Junta Nacional de Medicina Forense, Linköping, Suecia

daniel kling

Departamento de Biología Celular, Erasmus MC, Centro Médico Universitario de Róterdam, Róterdam, Países Bajos

Skeatnaf Mulugetá

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

MK y EM conceptualizaron y diseñaron el estudio, interpretaron los datos, supervisaron el trabajo, proporcionaron recursos y escribieron el manuscrito; LK preparó las muestras, recolectó, analizó e interpretó los datos, ayudó con la tubería bioinformática, visualizó los resultados y escribió el manuscrito; DMG desarrolló la tubería de bioinformática; EB llevó a cabo la secuenciación de sc-RNA; DK contribuyó a los análisis de identificación individual. Todos los autores comentaron y aprobaron el manuscrito final.

Correspondencia a Manfred Kayser o Skeatnaf Mulugeta.

Los autores declaran no tener conflictos de intereses.

El estudio se llevó a cabo de conformidad con las normas y reglamentos de investigación de Erasmus MC, incluidas las éticas del Comité de Ética Médica (METC) de Erasmus MC. El consentimiento por escrito fue proporcionado por todos los voluntarios involucrados.

Communications Biology agradece a Sumanta Ray y a los otros revisores anónimos por su contribución a la revisión por pares de este trabajo. Editores principales de manejo: Debarka Sengupta y Christina Karlsson Rosenthal.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Kulhankova, L., Montiel González, D., Bindels, E. et al. La secuenciación del transcriptoma de una sola célula permite la separación genética, la caracterización y la identificación de individuos en mezclas biológicas de varias personas. Comun Biol 6, 201 (2023). https://doi.org/10.1038/s42003-023-04557-z

Descargar cita

Recibido: 31 mayo 2022

Aceptado: 06 febrero 2023

Publicado: 20 febrero 2023

DOI: https://doi.org/10.1038/s42003-023-04557-z

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.