Una reunión en el IFIC inicia el diseño del nuevo sistema de datos del futuro LHC
El Instituto de Física Corpuscular (IFIC, CSIC-Universitat de València) organiza los días 12 y 13 de febrero una reunión para preparar el diseño del que será el nuevo sistema de procesado y almacenamiento de datos del experimento ATLAS en el High Luminosity LHC (HL-LHC), la mejora del Gran Colisionador de Hadrones del CERN prevista en 2025. La treintena de expertos reunidos en el IFIC discutirá varias opciones para hacer frente a dos grandes retos, el enorme incremento de datos previsto y un escenario tecnológico muy cambiante. El IFIC lidera varias tareas en este proyecto, llamado Event White Board: la primera selección de datos y la creación de ‘metadatos’ que identifiquen cada colisión en el GRID, el sistema de computación distribuido por todo el mundo donde se almacenan los datos del LHC.
La reunión, a la que asisten expertos en computación de la colaboración ATLAS (donde participan más de 3.000 científicos e ingenieros de 38 países), comenzará con la evaluación del sistema actual de procesado de datos del experimento, el más grande del LHC. Este sistema, llamado Event Index, se puso en marcha en 2015 para mejorar el existente mediante la utilización de bases de datos de código libre y un nuevo sistema de clasificación de los datos a la vez que se producen las colisiones en el interior del experimento. El IFIC tuvo una importante participación en el desarrollo e implementación del proyecto Event Index.
Este sistema funciona “perfectamente”, según los organizadores del evento del IFIC. El LHC produce 40 millones de colisiones por segundo, de las que solo se registran las más interesantes para buscar nuevos fenómenos físicos (proceso que se conoce como trigger). Sin embargo, el gran incremento de datos que se espera con el LHC de Alta Luminosidad (High Luminosity LHC), que pretende aumentar 10 veces la cantidad total de colisiones alcanzada al final del actual ciclo de funcionamiento del LHC, hace necesario otro sistema. En el caso de ATLAS se trata del proyecto Event White Board, que se discutirá el segundo día de reunión.
Este nuevo sistema pasaría de clasificar las colisiones (‘eventos’ o ‘sucesos’, en el argot de los físicos) por conjuntos a hacerlo de manera individual, permitiendo mejorar las búsquedas y evitar así la duplicación de datos, siendo de esta manera más eficiente para el usuario final (los físicos que tienen acceso a los datos de ATLAS desde cualquier parte del mundo). En Valencia se discutirán algunas de las decisiones tecnológicas importantes para desarrollar el primer prototipo de este sistema, cuya primera versión está prevista para este año y que tomará los datos del último ciclo de funcionamiento del LHC antes de su gran actualización.
A partir de la experiencia acumulada en el desarrollo del anterior proyecto Event Index, el IFIC lidera ahora dos de las tareas principales en el proyecto Event White Board: la primera selección o indexado de datos procedentes de las colisiones (Data Production), que se realiza de forma simultánea para distribuirlos luego a todo el mundo a través del GRID; y la obtención de datos de los eventos ya indexados (Data Collection), lo que se conoce como ‘metadatos’, que sirven para identificar cada suceso según ciertos parámetros que también se almacenan.
El GRID se estructura de forma jerárquica, en capas o nodos que procesan y almacenan los datos que producen el LHC, unos 20 petabytes de datos al año. El primer nivel de esta estructura es el llamado Tier 0, dos grandes centros de supercomputación en la sede del CERN de Ginebra y en Budapest donde se reciben los primeros datos. De ahí se distribuyen a los Tier 1, 11 centros repartidos por todo el mundo (que incluye el Puerto de Información Científica, PIC, en Barcelona). La última capa es el Tier 2, donde se almacena y procesa definitivamente la información. Cada experimento del LHC tiene su propio Tier 2. El IFIC alberga el 60% de los recursos de computación distribuida del Tier 2 de ATLAS en España, lo que implica 1.360 cores de potencia de cálculo y 2,5 petabytes de capacidad de almacenamiento de datos.