Réel non supervisé
Rapports scientifiques volume 12, Numéro d'article : 20783 (2022) Citer cet article
2447 accès
1 Citations
96 Altmétrique
Détails des métriques
Nous présentons le traitement de données du monde réel sur des données de temps de vol d'électrons mesurés via des réseaux de neurones. Plus précisément, l'utilisation d'auto-encodeurs variationnels désenchevêtrés sur les données d'un instrument de diagnostic pour la surveillance en ligne de la longueur d'onde au laser à électrons libres FLASH à Hambourg. Sans connaissance a priori, le réseau est capable de trouver des représentations de spectres FEL monocoup, qui ont un faible rapport signal sur bruit. Cela révèle, d'une manière directement interprétable par l'homme, des informations cruciales sur les propriétés des photons. L'énergie et l'intensité du photon central ainsi que des caractéristiques très spécifiques au détecteur sont identifiées. Le réseau est également capable de nettoyer les données, c'est-à-dire de débruiter, ainsi que de supprimer les artefacts. Dans la reconstruction, cela permet d'identifier des signatures de très faible intensité qui sont difficilement reconnaissables dans les données brutes. Dans ce cas particulier, le réseau améliore la qualité de l'analyse diagnostique au FLASH. Cependant, cette méthode non supervisée a également le potentiel d'améliorer l'analyse d'autres types similaires de données de spectroscopie.
Les lasers à électrons libres (FEL) permettent la science atomique et moléculaire dans le régime femtoseconde à attoseconde en créant des impulsions photoniques très intenses sur cette échelle de temps. Cependant, les FEL basés sur le principe de l'émission spontanée auto-amplifiée (SASE)1,2, tels que FLASH3, produisent des propriétés d'impulsion spatiales, spectrales et temporelles qui fluctuent fortement d'une impulsion à l'autre. Par conséquent, un diagnostic photonique fiable sur la base d'un seul coup est essentiel pour une analyse solide des données des expériences d'utilisateurs scientifiques réalisées dans de telles installations. Le tri post-expérience des données enregistrées par rapport à différentes propriétés, telles que l'intensité ou la longueur d'onde, peut révéler des signatures de processus physiques autrement obscurcis ou même cachés dans les ensembles de données. Un certain nombre d'instruments de diagnostic aux FEL sont utilisés pour mesurer la photoionisation des cibles gazeuses, tels que le détecteur de gaz (GMD)4,5 pour la mesure de l'énergie absolue des impulsions, le striage THz6,7 pour la détermination de la structure temporelle des impulsions photoniques8, ainsi que le spectromètre de photoionisation en ligne OPIS9,10 (voir Fig. 1) et la boîte à cookies8,11 qui utilise la spectroscopie photoélectronique pour obtenir des informations sur la distribution spectrale du rayonnement FEL. Ces méthodes de diagnostic ont l'avantage de pouvoir être conçues pour être presque totalement non invasives. Dans un processus de photoionisation, en raison de l'intensité FEL élevée, une importante charge d'espace10 peut être créée dans la cible de gaz ionisé dans la région d'interaction des instruments. Cette charge d'espace s'accumule même pour des taux de répétition d'impulsions FEL élevés, car les ions du gaz cible créés ne peuvent pas se dissiper assez rapidement par répulsion coulombienne ou être reconstitués avec des atomes frais et syndiqués avant l'arrivée de la prochaine impulsion FEL. Pour les instruments basés sur la spectroscopie photoélectronique, comme OPIS, la charge d'espace peut fausser la mesure diagnostique car elle altère la distribution de l'énergie cinétique des photoélectrons. Pour minimiser ces effets néfastes induits par la charge d'espace, OPIS fonctionne à de faibles pressions de gaz cible. Pour cette raison, les spectres à un seul coup d'OPIS montrent généralement de faibles taux de comptage et, par conséquent, les photolignes ne comprennent qu'un petit nombre d'événements à un seul électron, apparaissant comme des pointes dans le spectre, qui ne se distinguent pas clairement des pointes de bruit aléatoires (voir Fig. 1). Afin d'obtenir des résultats de longueur d'onde significatifs, un schéma de moyenne mobile sur des intervalles de temps variables est généralement appliqué. Par conséquent, des informations fiables d'un coup à l'autre, ce qui est important pour les expériences, n'ont pas pu être fournies dans la majorité des cas dans le passé. Nous présentons ici une méthode pour révéler les propriétés des photons en mode résolu monocoup, malgré les faibles statistiques, en utilisant une intelligence artificielle qui tire parti d'un type spécial d'auto-encodeur, qui représente les données obtenues par le dispositif de diagnostic de manière compressée et compréhensible.
Les méthodes d'analyse traditionnelles telles que l'analyse en composantes principales (ACP) sont robustes et ont prouvé leur capacité dans diverses applications10 mais peuvent être limitées par deux problèmes principaux : (a) la méthode est linéaire et donc intrinsèquement incapable de décrire les effets non linéaires et (b) les représentations des données (les composantes principales et leurs facteurs d'échelle) ne sont pas nécessairement faciles à interpréter. Bien mis à l'échelle avec une dimensionnalité élevée et capables de décrire des effets non linéaires, les réseaux de neurones sont devenus populaires au cours des dernières décennies en tant qu'outil d'analyse puissant dans toutes les catégories de la science12. Les réseaux d'auto-encodeur (AE)13 construits par des couches de neurones sont capables de compresser les données à une dimensionnalité inférieure, ce que l'on appelle l'espace latent. Alors qu'un réseau AE à une couche équivaut à une analyse PCA12, les problèmes de complexité supérieure et avec des effets non linéaires peuvent être traités en ajoutant plusieurs couches de neurones à l'encodeur et au décodeur. Lors de l'utilisation d'un tel réseau, la représentation de l'espace latent ne peut généralement pas être facilement utilisée pour l'extraction de connaissances et doit être traitée ultérieurement afin de la transformer en paramètres que les humains peuvent interpréter. Cela peut être fait, par exemple, avec un autre réseau de neurones. Cependant, ce processus nécessite la mise en place d'étiquettes pour l'entraînement du réseau, c'est-à-dire l'attribution des valeurs réelles de certaines propriétés physiques au moment de la mesure aux données enregistrées, qui dans notre cas ainsi que dans de nombreuses autres applications ne sont pas disponibles. Les réseaux d'auto-encodeurs variationnels14,15 (VAE) effectuent une opération d'échantillonnage sur un vecteur moyenne et écart-type dans le goulot d'étranglement dimensionnel du réseau. En forçant ces deux vecteurs à être proches d'une distribution normale par l'utilisation d'un terme supplémentaire dans la fonction de perte, on crée une représentation avec une plage de valeurs et une variation données. En faisant varier l'espace latent dans ces limites, il est possible, avec la partie décodeur du réseau, de créer des échantillons de données artificiels qui représentent des résultats de mesure possibles. Cette idée a été mise en œuvre par les réseaux dits \(\beta\)-VAE16 dans lesquels le terme de désenchevêtrement dans la fonction de perte est mis à l'échelle par un facteur, appelé \(\beta\). Ainsi, il est possible d'équilibrer le poids entre une reconstruction parfaite (c'est-à-dire l'écart quadratique moyen des données brutes et reconstruites) et un désenchevêtrement parfait des composantes du vecteur d'espace latent, créant un compromis entre le désenchevêtrement (\(L_{\text {dis}}\)) et la qualité de la reconstruction (\(L_{\text {rec}}\)), tous deux représentés dans la fonction de perte globale (\(L_{\text {all}}\)) :
Généralement, trouver la meilleure valeur absolue de \(\beta\) est difficile16,17. \(\beta\) dépend fortement des données, c'est-à-dire du niveau de bruit, de la taille et de la forme de la région d'intérêt, et de la mesure utilisée pour évaluer la qualité de la reconstruction.
FLASH3 fonctionne selon un modèle dit de mode rafale, générant des trains de paquets avec un taux de répétition de rafale de 10 Hz. Chaque train de paquets comprend jusqu'à plusieurs centaines d'impulsions de photons uniques, en fonction du taux de répétition des paquets allant jusqu'à 1 MHz. Au FLASH218, l'énergie et la durée des impulsions s'étendent respectivement sur 1 à 1 000 µJ et 10 à 200 fs, couvrant une plage de longueurs d'onde de 4 à 90 nm. Pour la surveillance en ligne de la longueur d'onde FEL avec OPIS (voir Fig. 1, pour plus de détails, voir9), une cible de gaz rare, dans notre étude le néon (pression de gaz \(4,4 \times 10^{-7}\) mbar), introduite dans la chambre d'interaction est ionisée par les impulsions FLASH. L'énergie cinétique \(E_{kin}\) des photoélectrons générés est mesurée par quatre spectromètres à temps de vol d'électrons (eTOF) fonctionnant indépendamment. Connaissant l'énergie de liaison \(E_{bin}\) des orbitales excitées, pour notre étude néon 2p et 2s, on peut calculer l'énergie photonique \(E_{pho}\) via
Dans l'eTOF, les photoélectrons voyagent le long d'un tube de dérive de 309 mm de long et sont ensuite détectés par des détecteurs à plaque à microcanaux (MCP). Des tensions de retardement peuvent être appliquées aux tubes de dérive afin de décélérer les photoélectrons et donc d'augmenter la résolution en énergie des spectromètres eTOF.
Onze spectres de temps de vol représentatifs à un seul coup (échantillons) obtenus par les quatre spectromètres d'électrons OPIS (eTOF 0–3): les traces grises en bas ne montrent aucun signal de photoélectron, tandis que les dix autres traces ci-dessus contiennent des lignes de photoélectrons Ne 2p avec des temps de vol successivement plus longs, indiquant une diminution de l'énergie des photons FEL. Les données brutes sont représentées par des graphiques en gras colorés tandis que la reconstruction des échantillons correspondants est représentée par des lignes fines noires. Pour une meilleure visibilité, les lignes de base sont séparées par un décalage vertical de 0,1. Les quatre panneaux supérieurs montrent les spectres de temps de vol d'électrons complets, qui sont l'entrée du réseau de neurones, tandis qu'un zoom avant de la région d'intérêt correspondante, où la ligne 2p est attendue, est présenté dans les quatre panneaux inférieurs. L'axe de zoom avant est converti en énergie cinétique du photoélectron. Les principales caractéristiques des traces sont étiquetées, telles que la position du pic, les coups aléatoires, les perturbations de la ligne de base, une structure en zigzag, l'invite, la ligne 2s et 2p, la réflexion électronique due à la non-concordance d'impédance sur la connexion du câble et la fonction de réponse du détecteur correspondante. Ceux-ci sont reconstruits (en dehors des hits aléatoires) et encodés dans l'espace latent. Les encarts agrandis représentent des caractéristiques difficiles à voir à grande échelle. Toutes les échelles sont linéaires.
Les traces temporelles des signaux amplifiés provenant des détecteurs MCP sont enregistrées au moyen de convertisseurs analogique-numérique (ADC) rapides avec un taux d'échantillonnage de 7 GS/s et une résolution verticale de 8 bits. Chaque spectre monocoup se compose de 3500 canaux ADC et l'agrégat des quatre spectres eTOF représente un échantillon de données d'apprentissage avec une dimensionnalité de \(4 \times 3,5\,\text {k = 14 k}\) (incluant seulement un nombre estimé d'électrons allant de 0 à 20). Quelques exemples sont présentés à la Fig. 1. L'intensité des lignes de photoélectrons dans les spectres TOF enregistrés est comparable dans les quatre eTOF, étant en moyenne à moins de 15% de l'amplitude (écart type). Cependant, dans les spectres à un seul coup, les intensités des photolignes varient considérablement entre les quatre eTOF en raison d'effets statistiques. La figure 1 représente une série de données monocoup normalisées correspondant à différentes valeurs de l'énergie photonique du rayonnement FEL, pour un temps de vol variable des électrons 2p du néon. Une période de surveillance continue de la longueur d'onde est choisie dans laquelle les paramètres de fonctionnement OPIS (cible de gaz, pression de la chambre, retard du spectromètre) sont restés inchangés. Dans cet intervalle de temps, l'énergie des photons FEL a été balayée entre 214 et 226 eV avec un motif irrégulier donné. Dans OPIS, le néon a été utilisé comme gaz cible et la tension de retardement a été réglée à 170 V, ce qui a entraîné une énergie cinétique finale réduite de 22,4 à 34,4 eV et de 0,0 à 7,5 eV des photoélectrons 2p et 2s détectés, respectivement. Environ 40 millions d'échantillons ont été enregistrés.
Le but ultime est de former un réseau qui fournit toutes les informations souhaitées dans un espace latent de faible dimension, c'est-à-dire que chaque composant de l'espace latent doit représenter une propriété du principe de base sous-jacent qui peut être interprétée par l'esprit humain et peut donc être directement utilisée comme information pour les expériences. Pour la fonction de perte, l'erreur quadratique moyenne (MSE) est utilisée comme critère de qualité de la reconstruction. Le démêlage est décrit par la divergence Kullback-Leibler (KL)20 du vecteur moyenne et écart-type par rapport à une distribution normale. Afin de rester automatiquement dans la plage de valeurs de [0,1], la couche de sortie est activée avec une fonction sigmoïde. Afin d'optimiser les hyperparamètres du réseau de neurones, environ 700 réseaux différents ont été entraînés. Les meilleures performances ont été obtenues avec des couches entièrement connectées et activées par Mish22 avec le décodeur et l'encodeur composés respectivement de 5 et 4 couches. Des tailles de lot de 252 ont été utilisées en combinaison avec l'optimiseur Adam23 et un taux d'apprentissage décroissant programmé allant de \(10^{-5}\) à \(10^{-7}\) sur 25 000 époques. La valeur optimisée de \(\beta\) est de 0,034. Sur les 40 millions d'échantillons de données enregistrés au total, 33 millions ont été utilisés pour la formation, 1 million pour la validation et les 6 millions restants représentent les données de test utilisées en dehors du processus de formation. Les meilleures performances de l'encodeur et du décodeur sont obtenues lorsque les couches sont choisies de telle sorte que la dimensionnalité soit réduite avec le même facteur pour chaque couche, ce qui signifie que pour 5 couches et un espace latent à 12 dimensions, appelé z, les dimensionnalités des couches sont
Le pas de 24 à 12 est l'opération d'échantillonnage. Le décodeur est la version miroir de l'encodeur à l'exclusion de l'opération d'échantillonnage. Le nombre 12 a été dérivé en entraînant un réseau commençant par un z unidimensionnel uniquement, puis en augmentant successivement la taille du goulot d'étranglement dimensionnel. Pour une taille supérieure à 12, la valeur de perte finale ne s'est pas améliorée de manière significative. Nous utiliserons la notation \(z=\left\{ z_{0},z_{1},z_{2},...,z_{11}\right\}\) pour traiter les composants individuels \(z_{i}\) de l'espace latent.
Le but des mesures OPIS est de révéler les valeurs de certaines grandeurs physiques. Pour analyser si le réseau a trouvé un espace latent représentant ces quantités, des étiquettes sont créées par une analyse conventionnelle effectuée sur les données brutes. Pour fournir des étiquettes fiables, les données doivent répondre à des critères spécifiques, qui ne s'appliquent qu'à une petite fraction des données disponibles. Par exemple, pour le temps de vol des photoélectrons, c'est-à-dire la position de la photoligne sur l'échelle TOF (désignée par l'étiquette \(T_{0,1,2,3}\)), une analyse conventionnelle d'ajustement du profil de la ligne des moindres carrés du pic le plus fort dans chacun des quatre eTOF a été effectuée. Ici, les critères de discrimination d'une caractéristique de ligne de photoélectrons valide à partir du bruit ou des coups d'électrons aléatoires ont été définis de telle sorte que (a) l'amplitude de crête doit être supérieure à un seuil d'intensité minimale (0,5 sur l'échelle de la Fig. 1) et (b) les positions centrales des pics doivent se situer dans une petite plage TOF (15 canaux TOF). L'application de ce filtre réduit considérablement la taille des données de test, mais renvoie des données de haute qualité. Environ 3 % des données remplissent ce critère et peuvent contribuer à la comparaison entre les étiquettes et l'espace latent. Les étiquettes pour les intensités individuelles pour chaque eTOF appelées \(I_{0,1,2,3}\) sont en outre créées dans le processus de la procédure d'ajustement de pic. La position du faisceau du FEL dans le plan perpendiculaire à l'axe de propagation est également fluctuante. Afin d'avoir une étiquette robuste et simple pour ces variations de pointage, la différence de temps de vol d'électrons 2p est calculée, ce qui donne \(P_{02}\) (eTOF0 comparé à l'eTOF2 positionné à l'opposé) et \(P_{13}\) (eTOF1 comparé à l'eTOF3 positionné à l'opposé). Ceci est expliqué en détail dans les informations complémentaires (SI). La perturbation "Baseline 1" \(B_{1}\) peut être identifiée en évaluant eTOF0 en ce qui concerne les discontinuités, c'est-à-dire la caractéristique "arête" nette à des valeurs de temps de vol élevées. Il est identifié en calculant la somme des intensités de 40 canaux ADC avant le bord divisée par 40 après le pas dans la ligne de base de la trace. La seconde perturbation \(B_{2}\) (voir "Baseline 2" et "Intensité centrale" sur la Fig. 1) est une caractéristique plus large couvrant la partie centrale de chaque spectre TOF. Il est identifié et étiqueté en sommant la partie centrale des spectres qui est ensuite divisée par la moyenne des données dans les régions spectrales au début et à la fin du spectre. Pour l'acquisition de données, le taux d'échantillonnage effectif de 7 GSamples/s est obtenu en entrelacant dans le temps quatre puces ADC, échantillonnant avec 1,75 GS/s chacune. Nous nous sommes rendu compte que le réseau encodait une corrélation pointant directement vers des défauts d'entrelacement systématiques : dans une grande partie des données, le gain des ADC entrelacés respectifs de chaque canal eTOF n'est pas identique, ce qui crée une structure en zig-zag caractéristique dans les données (voir zoom avant et "zig-zag" sur la Fig. 1). Cela peut être facilement étiqueté en ajoutant séparément tous les canaux ADC impairs et pairs, puis en divisant ces deux sommes, ce qui donne les étiquettes \(L_{0,1,2,3}\). Pour l'énergie des photons, une valeur indépendante d'OPIS est le paramètre de longueur d'onde défini \(\lambda _{FEL}\) qui ne représente que la longueur d'onde nominale correspondant à la configuration de l'accélérateur et de l'onduleur FLASH. La longueur d'onde FEL réelle peut présenter un certain décalage, principalement en raison de deux facteurs : premièrement, l'énergie du faisceau d'électrons dans la section de l'onduleur peut s'écarter de la valeur d'énergie mesurée dans la section de l'accélérateur en raison de composants d'orientation du faisceau tels que les chicanes d'extraction et de compression de paquets FLASH218. Deuxièmement, l'orbite du faisceau d'électrons peut s'écarter de l'orbite nominale dans la section de l'onduleur, en particulier si les onduleurs à intervalle variable sont réglés pour des balayages de longueur d'onde. De plus, la longueur d'onde fluctue en raison du processus SASE dans une bande passante de typiquement \(\sim\) 1%3, ce qui dans notre cas correspond à une bande passante d'énergie photonique d'environ 2 eV. Par conséquent, l'étiquette \(\lambda _{FEL}\) est une étiquette « estimée » avec une signification modérée pour l'énergie du photon à un seul coup. De plus, une expérience de bouteille magnétique21 a été réalisée en parallèle de notre étude et ses données sont utilisées comme référence croisée pour la longueur d'onde, qui est présentée dans le SI.
Ces étiquettes, qui résultent du processus d'ingénierie des caractéristiques susmentionné, sont comparées aux valeurs \(z_{i}\) que le réseau dérive pour les données de la Fig. 2. La qualité de reconstruction (courbes noires de la Fig. 1) est incroyablement élevée pour un goulot d'étranglement à 12 dimensions. Le réseau trouve la position correcte des photoélectrons 2p, il reconstruit la fonction de réponse MCP individuelle pour chacun des 4 eTOF, il élimine les événements aléatoires non corrélés et est également capable de reproduire la perturbation de base. En plus de ces découvertes, la raie du néon 2s n'est contenue dans la reconstruction que dans les cas où l'énergie des photons est en fait suffisamment élevée pour surmonter la tension de ralentissement utilisée des tubes de vol. Étant donné que pour nos données, la section efficace d'ionisation est \(\sim\) 5 fois plus faible pour Ne 2s par rapport à Ne 2p dans la gamme d'énergie des photons de 214 eV à 226 eV et que l'intensité de la photoligne 2s s'étale sur un intervalle TOF plus grand, c'est un résultat impressionnant19. Les signatures Ne 2s peuvent difficilement être identifiées dans les données brutes à l'œil nu ou à l'aide de méthodes d'analyse conventionnelles. Tout aussi impressionnante est la reconstruction du soi-disant signal rapide, qui est créé par des photons diffusés frappant les MCP et produit donc une autre caractéristique de crête minuscule à une position TOF fixe. Ce signal marque la référence t = 0 pour la détermination du temps de vol des photoélectrons et est donc d'une grande importance.
La structure du réseau \(\beta\)-VAE (a) et le codage non supervisé du principe de base sous-jacent (b), à savoir la position, l'intensité, la ligne de base, le pointage et l'entrelacement, sont présentés. Les diagrammes de densité représentent la dépendance de l'espace latent par rapport aux étiquettes, qui ont été dérivées par une analyse de données traditionnelle utilisant des données de haute qualité (3 % de l'ensemble de données). Les valeurs de l'axe correspondant (\(z_{i}\) et étiquettes) sont normalisées min–max pour les échantillons de test traités. Toutes les échelles sont linéaires.
Un élément d'information critique pour la plupart des expériences sur les sources SASE-FEL est l'énergie du photon central à un coup. Dans les mesures OPIS, cela correspond à la position du pic dans le spectre eTOF qui est codée en deux composantes de z, à savoir \(z_{0}\) et \(z_{1}\). Dans les cartes de position \(z_{0,1}\), il présente une dépendance ressemblant respectivement aux fonctions sinus et cosinus. Cependant, la position n'est pas codée en sinus-cosinus ou en cercle parfait. Ceci est combiné à une phase \(\phi\) définie par :
Comparaison des performances entre l'analyse traditionnelle et le réseau de neurones : (a) La différence moyenne de la prédiction du réseau de la position du temps de vol (bleu) par rapport à la position attendue à la \(\lambda _{FEL}\) donnée à partir de l'étalonnage est nettement inférieure à l'erreur moyenne donnée par l'analyse traditionnelle (orange). La bande passante attendue est transformée en STD dans les canaux TOF (rouge). Les STD des prédictions du réseau de neurones sont presque identiques à la bande passante. (b) Pour les 25 \(\lambda _{FEL}\), les positions TOF déterminées du réseau et de l'analyse traditionnelle sont comparées à une courbe d'étalonnage selon l'étalonnage de l'instrument OPIS, qui a été déterminé indépendamment lors des campagnes de mise en service de l'instrument. (c) Un exemple de tir (gris) est montré qui a plusieurs pics à différentes positions dans les eTOF. La position attendue dans la bande passante donnée est indiquée en rouge. Alors que l'analyse traditionnelle ne peut pas décider lequel des pics désigner comme signal photoélectronique réel, le réseau reconstruit les pics à la position correcte tout en ignorant tous les autres pics dans les données brutes.
Afin de fournir la longueur d'onde la plus précise, \(\phi\) est corrigé avec un réseau neuronal supplémentaire. Une fraction des données (3 % de données de haute qualité) où les quatre eTOF fournissent les mêmes informations pour la longueur d'onde, c'est-à-dire des photolignes claires à des positions similaires, est utilisée pour former un perceptron multicouche entièrement connecté (MLP)24. Ce MLP projette \(\phi\) sur les positions TOF moyennes des moindres carrés ajustées des pics 2p des quatre eTOF (voir Informations supplémentaires). La performance de la méthode est évaluée de trois manières : elle est comparée à (a) les résultats de l'analyse de données conventionnelle (voir la section "Méthodes"), (b) \(\lambda _{FEL}\) et (c) le centre de masse de l'expérience de la bouteille magnétique (voir Informations supplémentaires). La comparaison avec \(\lambda _{FEL}\) est effectuée en utilisant la courbe d'étalonnage d'OPIS qui est illustrée à la Fig. 3b pour le réseau et l'analyse traditionnelle. Les résultats sont résumés dans la Fig. 3a. La différence moyenne de la prédiction du réseau dans les canaux TOF est inférieure d'un facteur 2 par rapport à la méthode conventionnelle. La largeur de bande estimée du FEL est traduite en une valeur d'écart type (STD) dans les canaux TOF. Ce STD de la bande passante est proche du STD des prédictions du réseau, alors que le résultat classique s'en écarte plus significativement. Pour montrer comment le réseau surpasse l'analyse conventionnelle, la figure 3c représente un plan difficile à analyser. Plusieurs pics d'amplitude similaire apparaissent à différentes positions TOF. \(\lambda _{FEL}\) incluant la bande passante est indiqué pour indiquer la région où les photoélectrons sont attendus. Le réseau reconstruit le pic dans la bonne région, présenté sur la figure 3c. À l'opposé, la méthode traditionnelle a du mal à identifier le(s) pic(s) correct(s). En tant que comparaison indépendante des fluctuations SASE, la longueur d'onde prédite est également comparée au centre de masse de la photoligne 2p du soufre du 2-Thiouracile dans l'expérience de la bouteille magnétique, qui se déroulait en parallèle à notre étude. Ici, un bon accord est également trouvé et celui-ci est présenté dans le SI.
Outre la récupération de la longueur d'onde, plusieurs autres caractéristiques sont codées dans l'espace latent pendant le processus d'apprentissage non supervisé. Le réseau code la distribution d'intensité des 4 eTOF dans \(z_{2}\), \(z_{3}\) et \(z_{4},\) qui est tracée sur la Fig. 2. \(B_{1}\) et \(B_{2}\) sont codés dans deux composantes distinctes de z, à savoir \(z_{4}\) et \(z_{5}\), comme le montre la Fig. 2. Fait intéressant, \(B _{1}\) ne se produit que dans deux groupes spécifiques du train d'impulsions et \(B_{2}\) est même limité à un seul groupe (voir les cartes Bunch-No. vs \(z_{i}\)), indiquant le bruit électronique synchronisé induit par l'environnement de l'accélérateur comme cause. \(B_{1}\) et \(B_{2}\) sont codés dans un état marche/arrêt et donc \(z_{4}\) et \(z_{5}\) peuvent utiliser une région de valeur extrême pour "on" et tandis que la perturbation de base est "off", ils peuvent utiliser le reste de la plage de valeurs pour le codage d'une caractéristique différente. En conséquence, \(z_{4}\) code également l'intensité de eTOF3 tandis que \(z_{5}\) code également \(P_{13}\). Le réseau utilise la sixième dimension de z pour l'autre étiquette liée pointée \(P_{02}\). La dépendance linéaire de \(z_{5}\) vs \(P_{13}\), combinée à la dépendance en croix de \(z_{4}\) vs \(P_{13}\), peut maintenant être utilisée pour déterminer la variation de la position spatiale du faisceau qui peut également être un paramètre important pour les expériences. \(L_{0,1,2,3}\) sont entièrement encodés en \(z_{7}\). Les composants \(z_{8-11}\) n'influencent que très peu la reconstruction et sont donc considérés comme inutilisés. Cependant, la réduction de la dimensionnalité de l'espace latent augmente la perte globale, ce qui entraîne un codage plus compliqué des étiquettes fabriquées à la main.
Exemple de nettoyage de données : Les données brutes (en gris) sont reconstruites via le réseau comme indiqué en noir. Tous les coups aléatoires sont rejetés, le niveau de bruit est réduit et le signal d'invite est reconstruit. Une modification de l'espace latent permet d'éliminer le problème d'entrelacement et de supprimer la perturbation de la ligne de base (magenta).
La reconstruction des données par le réseau seul supprime déjà automatiquement tous les hits aléatoires des données brutes. De plus, le niveau de bruit de la ligne de base est fortement réduit. Enfin, avec les deux parties du réseau, l'encodeur peut être utilisé pour obtenir la représentation 12D des échantillons individuels et, par conséquent, on peut nettoyer de manière sélective les données compromises de tous ces effets, ce qui est illustré à la Fig. z_{7}\) il est possible d'éliminer l'effet d'entrelacement. Une procédure similaire (voir Informations supplémentaires) peut être utilisée pour supprimer la perturbation de la ligne de base.
Afin d'exploiter pleinement les taux de répétition élevés des machines FEL avec des accélérateurs supraconducteurs, qui délivrent un rayonnement FEL avec des propriétés photoniques très fluctuantes en raison du mode de fonctionnement SASE, des informations sur les paramètres essentiels sont nécessaires sur une base unique. Idéalement, ces informations devraient être fournies par des dispositifs de diagnostic entièrement indépendants, qui peuvent être utilisés en parallèle de l'expérience utilisateur en cours. De cette façon, la meilleure analyse possible, même en temps quasi réel, peut être activée, permettant toutes les possibilités de tri des données, de regroupement et de méthodes similaires, afin de révéler les dépendances sur les propriétés du photon pour le processus physique à l'étude. Ceci est particulièrement important pour les techniques expérimentales gourmandes en photons, telles que les mesures de coïncidence, qui reposent sur l'accumulation d'un grand nombre d'événements d'interaction de photons uniques. Il est possible d'éviter de brouiller ou même de déguiser les effets de dépendance en faisant la moyenne d'échantillons de données couvrant une étendue de différentes valeurs de propriétés de photons. OPIS en combinaison avec le réseau \(\beta\)-VAE formé peut fournir une telle capacité et permet ainsi l'utilisation de la propriété FEL "longueur d'onde" comme paramètre de tri indépendant pour toute analyse de données expérimentales. Les prochaines étapes consisteront à former des réseaux plus généraux. Les paramètres de fonctionnement d'OPIS, c'est-à-dire les espèces de gaz cibles, la pression de la chambre et les tensions de ralentissement sur les eTOF, ont été maintenus à des valeurs fixes pour les résultats présentés dans ce travail. Nous avons enregistré et enregistrerons des spectres pour une variété de combinaisons de ces paramètres. Tout d'abord, des réseaux dédiés seront entraînés pour différents paramètres de fonctionnement. Dans ce cas, pour chaque mode de fonctionnement, un réseau spécifique peut être utilisé pour l'analyse en ligne. Deuxièmement, un seul réseau sera formé pour tous les paramètres de fonctionnement, permettant l'utilisation du même réseau pour tous les modes de fonctionnement. Ces deux approches seront ensuite comparées.
Nous avons montré qu'un réseau \(\beta\)-VAE optimisé est capable de trouver le principe de base sous-jacent des données de spectroscopie de temps de vol de photoélectrons de haute dimension sans aucune connaissance a priori et de manière non supervisée. Toutes les données brutes avec un faible rapport signal sur bruit sont débruitées et les résultats aléatoires non corrélés aux processus de photoionisation observés sont rejetés. En conséquence, les spectres reconstruits sont de bien meilleure qualité et peuvent dans certains cas très clairement montrer des caractéristiques photoélectroniques qui sont obscurcies dans les données brutes et ne peuvent pas être facilement traitées par les méthodes d'analyse conventionnelles. La représentation dans l'espace latent couvre toutes les principales propriétés physiques intrinsèques du spectre, offrant un accès direct à des informations essentielles telles que la longueur d'onde FEL monocoup. Le temps d'inférence du réseau formé est rapide et il peut donc être déployé en tant qu'outil en ligne pendant la mesure du diagnostic des photons, fournissant des informations cruciales pour les expériences des utilisateurs FLASH en temps réel. Cela permettra ou améliorera l'analyse des données à la volée, ce qui contribuera à améliorer l'efficacité d'un temps de faisceau. Par exemple, en surveillant la qualité des données en termes de statistiques, pour l'effet étudié, on peut optimiser le temps d'enregistrement et l'évaluation des résultats. Cette analyse concomitante offre à l'utilisateur la possibilité d'adapter les mesures à la volée tout au long de la campagne expérimentale. De plus, toute analyse de données post-expérimentation hors ligne bénéficiera également des labels fournis par le réseau \(\beta\)-VAE. A cet égard, la possibilité d'isoler ou d'éliminer certaines propriétés des données en fixant à zéro les valeurs des VAE représentant ces propriétés peut être très utile pour une analyse approfondie et détaillée du jeu de données.
Pour des mesures de longueur d'onde précises avec OPIS, un étalonnage de l'instrument est nécessaire. Dans les campagnes de mise en service OPIS, les fonctions de conversion qui attribuent l'énergie cinétique aux valeurs de temps de vol mesurées ont été déterminées de manière empirique pour chaque réglage de tension de retard. Dans ces mesures d'étalonnage, soit l'énergie des photons, soit l'énergie cinétique des électrons était connue avec précision (Eq. (2)). Ceci a été réalisé par des mesures simultanées, avec un spectromètre à réseau optique comme référence, ainsi que par l'utilisation des capacités d'étalonnage intrinsèques au moyen de processus Auger. Les électrons Auger sont émis avec une énergie cinétique fixe correspondant à la différence des deux orbitales électroniques impliquées dans la transition Auger et peuvent donc servir de marqueurs d'énergie cinétique directe dans le spectre TOF. En outre, des schémas peuvent être utilisés dans lesquels la longueur d'onde FEL est accordée jusqu'à ce que la position TOF d'une photoligne d'une orbitale particulière corresponde précisément à une position de ligne Auger. Cela détermine également la longueur d'onde et définit donc l'énergie cinétique à la position TOF pour d'autres lignes de photoélectrons dans le même spectre. Des informations plus détaillées sur l'étalonnage OPIS peuvent être trouvées dans les références 9,10.
Le tableau 1 montre l'espace d'hyperparamètres qui a été exploré lors de la formation des réseaux \(\sim\) 700. La taille du lot, le paramètre \(\beta\), le taux d'apprentissage et les échantillons par époque ont été testés à une valeur fixe ainsi que dans un processus de planification. Outre l'évaluation de la perte globale, qui est une combinaison de la perte de reconstruction MSE et de la perte de désenchevêtrement de divergence KL de l'espace latent, l'évaluation du réseau, en ce qui concerne l'interprétabilité de l'espace latent avec les étiquettes artisanales, a été réalisée via l'ajustement des moindres carrés comme le montre la Fig. 2. Pour la perte de reconstruction, l'erreur absolue (AE) et l'entropie croisée binaire (BCE) ont également été testées. Les composants de z sur la figure 2 (et le texte) sont réorganisés pour une meilleure lisibilité. Dans le cas de l'optimiseur de descente de gradient stochastique (SGD), la quantité de mouvement a été testée de 0 à 0,9. Les 40 millions d'échantillons sont divisés et mélangés au hasard en 40 fichiers hdf5 contenant chacun un million d'échantillons. 33 de ces fichiers sont utilisés pour la formation, un million d'échantillons comme données de validation pendant le processus de formation et les six millions restants pour tester le réseau formé par la suite. Aux fins de chargement des données, une époque est définie comme une étape d'optimisation au cours de laquelle le réseau traite un fichier, c'est-à-dire un million d'échantillons. Pendant la formation, le réseau continue la formation avec le même million d'échantillons pendant un nombre fixe d'époques jusqu'à ce que les données soient remplacées par un autre million d'échantillons provenant d'un autre fichier et ainsi de suite. La mémorisation des données, en ce qui concerne une partie fixe d'un million d'échantillons de données, n'est observée que dans des réseaux très profonds et également seulement après quelques milliers d'époques. En raison de cet effet, les données d'entraînement en mémoire sont remplacées toutes les 10 époques, garantissant qu'aucun surajustement ne se produit, tout en permettant un transfert rapide des données vers le GPU qui est utilisé pour entraîner le réseau. Une indication supplémentaire que cette méthode de formation ne compromet pas le résultat final est qu'aucun changement brusque n'est observable dans la fonction de perte si l'ensemble de données est remplacé après 10 époques. Si le nombre d'époques pour les mêmes données est défini sur 1, le processus peut être interprété comme traitant l'intégralité des données d'apprentissage de 33 millions d'échantillons toutes les 33 époques. Les données ont été normalisées min-max, c'est-à-dire que la plage entière verticale de 8 bits de [0,255] a été transformée en valeurs flottantes dans l'intervalle [0,1].
Le MLP pour la correction de phase de \(z_{0}\) et \(z_{1}\) a l'architecture de réseau suivante
tandis que l'entrée est la phase et la cible de prédiction est donnée par la position TOF moyenne dérivée en ajustant les 4 spectres eTOF. Il a été entraîné sur 2 000 époques avec 200 000 échantillons, une taille de lot de 100 et un taux d'apprentissage de \(10^{-5}\), tandis que l'activation Mish et l'optimiseur Adam étaient utilisés. Les données n'ont pas été normalisées. La qualité de la prédiction a été mesurée en MSE.
Plusieurs méthodes ont été testées pour traiter les données brutes uniques de manière robuste et efficace. La comparaison a été faite en fonction de la concordance des données avec \(\lambda _{FEL}\). Les meilleurs résultats ont été obtenus par une procédure itérative qui analyse uniquement la région d'intérêt, les canaux TOF [600, 1000], correspondant à la région de zoom sur la Fig. 3c. Tout d'abord, un seuil de 0,2 (par rapport aux valeurs indiquées sur la figure 1) est défini pour déterminer toutes les positions de pic possibles dans les quatre eTOF (plusieurs pics dans un eTOF sont possibles). Ces positions maximales sont des valeurs entières de la ou des positions maximales. Deuxièmement, les positions maximales de tous les détecteurs sont comparées. S'il y a plus d'un pic dans la même fenêtre de 20 canaux TOF pour plusieurs détecteurs, un traitement supplémentaire de ces pics est effectué. Sinon, si l'amplitude d'un pic est supérieure (d'une valeur absolue de 0,15), un traitement supplémentaire n'est effectué que sur ce pic unique. Si ce n'est pas le cas, le traitement se poursuit sur tous les pics trouvés. Toutes les positions de pic restantes sont ensuite optimisées en calculant le centre de masse du pic (avec une précision en virgule flottante). De plus, il a également été vérifié si d'autres méthodes d'analyse, par exemple les routines d'ajustement d'optimisation des moindres carrés, pourraient être plus appropriées. Il s'avère qu'il n'y a aucun avantage à utiliser ces autres méthodes, mais elles présentent l'inconvénient d'une forte augmentation du temps de calcul. La valeur moyenne de toutes les positions de crête déterminées est ensuite prise comme résultat final.
Les ensembles de données utilisés et analysés au cours de la présente étude ainsi que le code pour le processus de formation du réseau de neurones sont disponibles auprès de l'auteur correspondant sur demande raisonnable.
Kondratenko, AM & Saldin, EL Génération d'un rayonnement cohérent par un faisceau d'électrons relativistes dans un onduleur. Partie. Accél. 10, 207-216 (1980).
CAS Google Scholar
Zhirong, H. & Kwang-Je, K. Examen de la théorie des lasers à électrons libres à rayons X. Phys. Rév. ST Accel. Poutres 10(3), 034801 (2007).
Article Google Scholar
Ackermann, W. et al. Fonctionnement d'un laser à électrons libres dans la gamme de longueurs d'onde allant de l'ultraviolet extrême à la fenêtre de l'eau. Nat. Photonics 1, 336–342 (2007).
Article Google Scholar
Sorokin, A. et al. Un moniteur de gaz à rayons X pour les lasers à électrons libres. J. Radiat synchrotron. 26, 1092-1100 (2019).
Article CAS PubMed PubMed Central Google Scholar
Tiedtke, K. et al. Détecteur de gaz pour lasers à rayons X. J. Appl. Phys. 103, 094511 (2008).
Article Google Scholar
Grguras, I. et al. Caractérisation d'impulsions de rayons X ultrarapides sur des lasers à électrons libres. Nat. Photonique 6, 852–857 (2012).
Article Google Scholar
Frühling, U. et al. Caméra à rayons X pilotée par champ THz à un seul coup. Nat. Photonics 3, 523–528 (2009).
Article Google Scholar
Hartmann, N. et al. Structure temps-énergie attoseconde des impulsions laser à rayons X à électrons libres. Nat. Photonique 12, 215-220 (2018).
Article CAS Google Scholar
Braune, M. et al. Un spectromètre de photoionisation en ligne non invasif pour FLASH2. J. Radiat synchrotron. 23, 10-20 (2016).
Article CAS PubMed PubMed Central Google Scholar
Braune, M. et al. Mesures de longueur d'onde en ligne non invasives à FLASH2 et référence actuelle. J. Radiat synchrotron. 25, 3–15 (2018).
Article PubMed PubMed Central Google Scholar
Walter, P. et al. Réseau de spectromètres d'électrons multi-résolution pour les futures expériences laser à électrons libres. https://arxiv.org/abs/2103.07603.
Bishop, Christopher M. Reconnaissance de formes et apprentissage automatique (Springer, Berlin, 2006).
MATH Google Scholar
Kramer, M. Analyse en composantes principales non linéaire à l'aide de réseaux de neurones auto-associatifs. AIChE J. 37(2), 233–243 (1991).
Article CAS Google Scholar
An, J., & Cho, S. Détection d'anomalie basée sur l'auto-encodeur variationnel utilisant la probabilité de reconstruction. Dans Conférence spéciale sur IE, Vol. 2 (2015).
Kingma, DP & Welling, M. Une introduction aux auto-encodeurs variationnels. Trouvé. Tendances Mach. Apprendre. 12(4), 307–392 (2019).
Article MATH Google Scholar
Higgins, I. et al.\(\beta\)-VAE : Apprentissage des concepts visuels de base avec un cadre variationnel contraint. Dans publié en tant que document de conférence à l'ICLR 2017.
Burgess, C. et al. Comprendre le démêlage en \(\beta\)-VAE. http://arxiv.org/abs/1804.03599.
Faatz, B. et al. Fonctionnement simultané de deux lasers à rayons X mous à électrons libres pilotés par un accélérateur linéaire. Nouveau J. Phys. 18, 062002 (2016).
Article Google Scholar
Wuilleumier, F. & Krause, MO Photoionisation du néon entre 100 et 2000 eV : processus uniques et multiples, distributions angulaires et sections efficaces de sous-couche. Phys. Rev. A 10, 242 (1974).
Article CAS Google Scholar
Kullback, S. & Leibler, RA Sur l'information et la suffisance. Anne. Mathématiques. Statistique 22(1), 79–86 (1951).
Article MathSciNet MATH Google Scholar
Metje, J. et al. URSA-PQ : un instrument pompe-sonde mobile et flexible pour les échantillons en phase gazeuse au laser à électrons libres FLASH. Appl. Sci. 10(21), 7882 (2020).
Article CAS Google Scholar
Misra, D. Mish : une fonction d'activation non monotone autorégularisée, soumise le 23 août 2019 (v1), dernière révision le 13 août 2020 (v3). https://arxiv.org/abs/1908.08681.
Kingma, D. & Ba, J. Adam : Une méthode d'optimisation stochastique. Soumis le 22 décembre 2014 (v1), dernière révision le 30 janvier 2017 (v9). https://arxiv.org/abs/1412.6980.
Hastie, T., Tibshirani, R. & Friedman, J. Les éléments de l'apprentissage statistique : exploration de données, inférence et prédiction (Springer, Berlin, 2009).
Livre MATH Google Scholar
Télécharger les références
Les auteurs remercient DESY (Hambourg, Allemagne), membre de l'Association Helmholtz HGF, pour la mise à disposition d'installations expérimentales. Certaines parties de cette recherche ont été menées à FLASH2. GH remercie Irina Higgins pour les discussions fructueuses sur l'application, l'interprétation et la présentation de la \(\beta\)-VAE. Ils reconnaissent l'assistance et le soutien du Laboratoire commun de méthodes d'intelligence artificielle pour la conception d'expériences (AIM-ED) entre Helmholtz-Zentrum Berlin für Materialien und Energie et l'Université de Kassel. Financé en partie par le pool d'innovations du projet BMBF : Data-X—Réduction des données pour la science des photons et des neutrons. Financé en partie par le projet BMBF : 05K20CBA. Nous reconnaissons le soutien financier du Conseil suédois de la recherche via le programme Röntgen Ångström Cluster (RÅC) (n° 2019-06093).
Financement Open Access activé et organisé par Projekt DEAL.
Helmholtz Center Berlin for Materials and Energy GmbH, Albert-Einstein-Strasse 15, 12489, Berlin, Allemagne
Gregor Hartmann, Peter Feuer-Forson, David Meier, Felix Möller, Luis Vera Ramirez & Jens Viefhaus
Synchrotron électronique allemand (DESY), Notkestrasse 85, 22607, Hambourg, Allemagne
Gesa Goetzke, Stefan Düsterer, Markus Guehr, Kai Tiedtke & Markus Braune
Institut de physique et d'astronomie, Université de Potsdam, Karl-Liebknecht-Strasse 24/25, 14476, Potsdam-Golm, Allemagne
Fabiano Lever et Markus Guehr
Systèmes embarqués intelligents, Université de Kassel, Wilhelmshöher Allee 73, 34121, Kassel, Allemagne
David Meier
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
GH et MB ont co-écrit le manuscrit avec la contribution de tous les auteurs. MB a conçu et mis en service l'instrument OPIS. MB, SD, FL, KT et MG ont réalisé l'expérience pour enregistrer les données utilisées. GH a écrit le code \(\beta\)-VAE pour cette étude. FL a effectué l'analyse des données des données de la bouteille magnétique. GH, GG, PF, LV, DM, FM, SD, MB et JV ont interprété et optimisé le réseau \(\beta\)-VAE.
Correspondance à Gregor Hartmann.
Les auteurs ne déclarent aucun intérêt concurrent.
Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.
Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur tout support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.
Réimpressions et autorisations
Hartmann, G., Goetzke, G., Düsterer, S. et al. Extraction non supervisée de connaissances du monde réel via des auto-encodeurs variationnels désenchevêtrés pour le diagnostic de photons. Sci Rep 12, 20783 (2022). https://doi.org/10.1038/s41598-022-25249-4
Télécharger la citation
Reçu : 21 juin 2022
Accepté : 28 novembre 2022
Publié: 01 décembre 2022
DOI : https://doi.org/10.1038/s41598-022-25249-4
Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :
Désolé, aucun lien partageable n'est actuellement disponible pour cet article.
Fourni par l'initiative de partage de contenu Springer Nature SharedIt
En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.
Précédent: IA