NucleScores, vers une meilleure compréhension des séquences génomiques
À mesure que les bases de données de séquences génomiques connaissent une croissance exponentielle, le besoin de mesures fiables permettant d'évaluer la qualité et l'intégrité biologique des assemblages génomiques est devenu crucial. Les mesures conventionnelles telles que le N50 fournissent des informations sur la contiguïté, mais ne reflètent souvent pas la cohérence biologique sous-jacente d'un assemblage. Le NucleScore, un rapport nucléotidique conçu de manière empirique et introduit dans la suite logicielle getSequenceInfo (gSeqI), représente une approche novatrice pour évaluer les assemblages génomiques en se basant sur les schémas intrinsèques de distribution des nucléotides.
Le NucleScore est calculé à partir d'informations nucléotidiques localisés afin de fournir un repère de référence pour la qualité des assemblages dans divers taxons, notamment les bactéries, les virus et les eucaryotes. Les premières implémentations dans l'outil nucleScore.pl démontrent que cette métrique permet de distinguer les génomes de référence de haute qualité des assemblages fragmentés en identifiant les écarts par rapport aux signatures nucléotidiques spécifiques à l'espèce attendues. Cependant, en tant que ratio empirique, le NucleScore actuel est limité par des seuils statiques qui peuvent ne pas tenir compte des architectures génomiques complexes et non linéaires présentes chez les organismes non modèles ou dans les régions hautement répétitives.
Nous proposons d'améliorer le NucleScore par l'intégration d'architectures d'apprentissage profond (DL), en particulier des réseaux neuronaux convolutifs (CNN) et des transformateurs tels que DNABERT. En entraînant des modèles sur des ensembles de données de référence massifs et de haute qualité (par exemple, RefSeq), le NucleScore amélioré par l'IA peut aller au-delà des simples ratios pour reconnaître des signatures k-mères sophistiquées et des dépendances à longue portée. Des modèles d'apprentissage automatique, tels que les machines à boost de gradient, pourraient être utilisés pour pondérer le NucleScore avec d'autres métadonnées (par exemple, la teneur en GC et la source d'isolement) afin de fournir un « score de confiance » pour les assemblages nouvellement séquencés et trouver de nouveaux biomarqueurs.
