Digital Spotlight

Data et Machine learning pour la santé

opportunités et défis techniques & humains

Rappel – Qu’est-ce que le machine learning?

« Basé sur des algorithmes qui peuvent apprendre des données sans s’appuyer sur une programmation explicitement basée sur des règles », le machine learning est souvent défini comme « la science qui permet aux ordinateurs d’agir sans être explicitement programmés ».

Le 10/11/20 a eu lieu le Summit AI for Health qui a réuni un grand nombre d’acteurs privés et publics des milieux de la santé et de l’intelligence artificielle.

Au delà des use-case classiques et connus en santé, quelles pistes de reflexion spécifiques à l’industrie de la santé en 2020, tant au niveau des données (la brique de base, avant toute analyse) qu’au niveau des algorithmes?

NB : les présentations Powerpoint proviennent des présentations du AI for Health Summit

LA QUESTION DES DONNEES

Accès

Il est essentiel de développer une démarche conjointe et standardisée pour avoir accès aux bonnes données. Nous l’avons vu (et le voyons encore) pendant la crise de Covid-19, avec l’intérêt des time series qui permettent de visualiser l’évolution de la pandémie.

Les données existent – elles sont produites chaque fois qu’un patient est pris en charge. Cependant, si les données sont partout, il est difficile d’y avoir accès, même pour les chercheurs qui doivent parfois attendre jusqu’à 3 ans pour y avoir accès.

La réglementation doit s’adapter et la question de la confiance doit être pensée afin que les bonnes personnes puissent accéder aux données dont elles ont besoin pour développer des modèles utiles pour l’amélioration de la prise en charge médicale.

Le projet Health Data Hub est une avancée majeure dans ce sens.


Interopérabilité

Reste à ce que les données soient « facilement » (ré)utilisables. L’interopérabilité est la capacité que possède un produit ou un système, dont les interfaces sont intégralement connues, à fonctionner avec d’autres produits ou systèmes existants ou futurs et ce sans restriction d’accès ou de mise en œuvre. 

Le Cadre d’Interopérabilité des Systèmes d’Information de Santé (CI-SIS) fixe les règles d’une informatique de santé communicante.

Cependant, si depuis plus de 20 ans, on connaît la nécessité de rendre interopérables les données de santé. Pourtant, à la différence d’autres secteurs en France qui ont su se digitaliser et partager ses données, cet objectif semble plus difficile à être atteint dans la santé.

MACHINE LEARNING ALGORITHMS & AI

Des algorithmes d’IA avancés peuvent contribuer à aider les soignants à s’occuper des patients, en leur donnant des outils pour des soins de haute qualité.

L’exemple de l’utilisation des données texte des dossiers patients

Le suivi des parcours de soins complexes est un facteur clé de la réussite opérationnelle des hôpitaux : tant pour la satisfaction des patients que pour la bonne gestion des coûts. Détecter les parcours de soins susceptibles d’être complexes est une tâche difficile pour un modèle d’IA, si l’on considère uniquement les informations disponibles au point d’entrée dans l’hôpital (par exemple, l’âge, le sexe, le code GEMSA, le code CCMU).

Or, les dossiers patients textuels contiennent la plupart des informations cliniques (historique du patient, résultats et analyses, diagnostic supposé, etc).

Les capacités d’inférence des modèles d’IA peuvent donc être améliorées en tenant compte du rapport textuel.

Cette démarche présente plusieurs challenges, notamment :
1) Le passage de texte (non structuré) à donnée structurée
2) Le dictionnaire médical à utiliser (ex: UMLs)
3) Le système de détection pour « mapper » le texte extrait

Des travaux ont été initiés par Dr Warehouse dont quelques éléments présentés pendant la conférence sont partagés ci-dessous


Une fois les bonnes données extraites du texte, le choix est fait de recourir au deep learning pour incorporer ces données dans l’analyse, en raison de la quantité de données et de features.

L’analyse sur la problématique de l’optimisation des lits en hôpitaux, à l’aide d’une méthode de random forest incorporant ces données textuelles a montré une amélioration significative de la performance de l’algorithme de machine learning, sur les 3 indicateurs choisis.


Le NLP est largement développé, mais l’accès à des millions de données médicales est un aspect essentiel pour le rendre pertinent, d’où l’importance de la question d’accès et d’interopérabilité des données évoqué précedemment.


De nouvelles pistes

Que faire lorsqu’on a pas accès à ces « millions de données médicales »?

De nombreux problèmes en génomique nécessitent la capacité d’identifier des caractéristiques pertinentes dans des ensembles de données avec des tailles d’échantillons relativement faibles. Cette configuration pose des problèmes statistiques et informatiques, et les méthodes traditionnelles de sélection des caractéristiques ne sont pas à la hauteur.

Chloé-Agathe Azencott, professeur associée, experte en machine learcning et recherche thérapeutique (Mines ParisTech & Institut Curie) a présenté les travaux en cours sur la manière de relever ces défis.

Comme on le mentionnait, on démarre par une dénomination différente, en parlant plutôt ici de « fat data » :


La méthodologie classique consiste à utiliser des tests statistiques classiques, mais cette démarche possède plusieurs limitations.

De nouveaux travaux proposent des démarches alternatives.

https://kyushu-u.pure.elsevier.com/en/publications/multi-task-feature-selection-on-multiple-networks-via-maximum-flo

LE BESOIN DE COLLABORATION

Chaque acteur du secteur a accès à des données spécifiques. Il est de l’intérêt de tous de partager au moins partiellement ces données pour améliorer les solutions proposées pour les patients.

Dans le contexte spécifique des startups (mais l’intérêt s’étend plus globalement à tout nouveau projet), les partenariats avec les hôpitaux/cliniques/établissements de soins et patients sont essentiels. Cela permet d’être certain que la technologie s’accompagne d’une proposition de valeur claire, de se rendre compte d’éléments essentiels pour l’adoption par le patient et d’améliorer le produit ou service proposé.


Pour conclure

L’application du machine learning à la santé est plus complexe, probablement car l’accès aux données est naturellement beaucoup plus reglementé d’une part, d’autre part car beaucoup de données utiles sont non structurées et sous formats divers (images/texte).

Une des réponses à cette problématique de données n’est pas technique, et c’est intéressant, mais éthique : comment faire en sorte de créer cette confiance nécessaire pour l’utilisation des données de santé? La question reste ouverte.

0 comments on “Data et Machine learning pour la santé

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

%d blogueurs aiment cette page :