//Росатом/ ВНИИЭФ
 
Главная / Деятельность /Исследования /Теоретические исследования, математическое моделирование /

Теоретические исследования, математическое моделирование

Для эксплуатации многопроцессорных вычислительных комплексов с неоднородным аппаратным и программным обеспечением разработан пакет базового системного и прикладного программного обеспечения, который позволяет: унифицировать создание, выполнение, контроль и планирование счета потока параллельных задач; унифицировать формат файла результатов счета параллельных математических программных комплексов; поддерживать необходимый уровень свободного файлового пространства для выполняющихся на супер-ЭВМ приложений; контролировать эффективность распараллеливания программных комплексов и степень использования вычислительных ресурсов в целом; оптимизировать состав оборудования создаваемых ЭВМ; упростить наладку и тестирование ЭВМ.

Базовое системное программное обеспечение, включающее операционную систему, очередь управления заданиями, коммуникационные библиотеки, реализовано на базе собственных разработанных компонент или с использованием компонент с открытым исходным кодом, что обеспечивает возможность переноса его на вычислительные системы и его функционального расширения и модернизации. БСППО установлено на всех ЭВМ ВЦ ВНИИЭФ.

Система сетевой загрузки ОС
Позволяет отказаться от использования дисков на узлах вычислительного поля и загружать операционную систему по сети Ethernet или высокоскоростной коммуникационной сети. Включает компоненты дистрибутива Linux, сценарии автоматической сборки образов ОС и изменения их содержания. Позволяет повысить надежность многопроцессорных ЭВМ, сократить время инсталляции системного ПО и подбора оптимальной его конфигурации. Для минимизации объема занимаемой ОС оперативной памяти реализована технология создания специализированной компактной ОЗУ-резидентной операционной системы вычислительных узлов, оптимизированной для высокопроизводительных вычислений.

PIFS - параллельная иерархическая файловая система высокопроизводительного ввода-вывода и многоуровневого хранения данных больших объемов
Основными компонентами PIFS являются параллельная масштабируемая файловая система на базе открытого кода и средства автоматической миграции данных между дисковыми и ленточными уровнями хранения данных;

ЕСУЗ - единая система управления ресурсами и заданиями на неоднородном вычислительном комплексе
Предназначена для унификации процессов ввода, выполнения и управления пользовательскими приложениями, создания единого информационного пространства между разными группами пользователей в рамках технологии счета задач на ЭВМ неоднородной архитектуры. Функционирует совместно с системами пакетного запуска заданий: Open PBS, Torque, и JAM (эта система пакетного запуска заданий разработана в рамках проекта ЕСУЗ), но иерархически находится над ними, выполняя функции управляющей программы.
Обеспечивает:

  • единое формирование задач и управление их счетом на всех ЭВМ;
  • подбор подходящей ЭВМ для счета задачи;
  • рестарт задач при сбое;
  • защиту от несанкционированного доступа;
  • сбор и обработку информации использованных задачами ресурсов ЭВМ.

В ЕСУЗ реализованы два способа ввода и контроля счета заданий – командная строка и графический интерфейс (ВЕБ - интерфейс). Система упрощает работу математиков, отдела планирования счета и операторской службы. Для взаимодействия задач с математиком-расчетчиком реализован интерфейс, позволяющий:

  • информировать математика и оператора о произошедших событиях в ходе счета;
  • управлять ходом счета задачи.

JAM - локальная система управления заданиями, оптимизированная для эффективного использования ресурсов Супер-ЭВМ
JAM – это система пакетного запуска заданий, наиболее тесно связанная с ЕСУЗ, в которой реализованы наиболее полезные функции ее аналогов (PBS, LoadLeveler, SLURM, Condor и т.д.) и ориентированная на полноценный учет специфики ЭВМ и счета на них задач. JAM поддерживает последовательные, параллельные задания. В системе реализован эффективный алгоритм планирования – метод фонового заполнения Backfill, который  имеет ряд особенностей:

  • учитывает возможность задачи считаться на различном числе процессоров;
  • подбирает оптимальный фрагмент вычислительного поля ЭВМ для счета задачи;
  • минимизирует простой свободной части вычислительного поля ЭВМ, продвигая счет подходящих задач пока невозможно удовлетворить ресурсы более приоритетной задачи;
  • контролирует продвижение счета задач;
  • позволяет резервировать ресурсы ЭВМ для отдельных пользователей и их групп;
  • контролирует работоспособность вычислительных узлов ЭВМ, автоматически исключая аварийные из множества для счета задач;
  • выполняет глобальные по всем узлам ЭВМ команды управления;
  • снижает накладные расходы на печать информации в стандартные выводные файлы больших параллельных задач;
  • производит доставку расчетчику информации об ошибке в ходе решения задачи;
  • выполняет подкачку входных файлов задачи из архива на ЭВМ для счета и активизирует обрабатывающую программу задачи по завершению счета;
  • поддерживает собственную отказоустойчивость.

STK – инструментальные средства исследования эффективности выполнения параллельных приложений
Система STK предназначена для  анализа качества методов распараллеливания программных комплексов, контроля эффективности их выполнения на многопроцессорных ЭВМ. Система состоит из подсистемы сбора характеристик MPI-обменов и ввода-вывода в ходе счета задачи и интегрированной в ЕСУЗ подсистемы визуализации/анализа собранных характеристик. Основная цель первой подсистемы - определить структуру коммуникационного потока в параллельной задаче и временные затраты на его обработку.
Реализованы два режима сбора характеристик – отладочный и экономичный. Первый предназначен для тюнинга параллельных программных комплексов, второй - для счета по ним производственных задач. В процессе счета подсистема сбора накапливает суммарные простои вычислительного ресурса ЭВМ, происходящие при расчете параллельной задачи.
Основная цель второй подсистемы STK – информировать пользователя и службы эксплуатации об эффективности использования задачей предоставленных ей вычислительных ресурсов, а также предоставить пользователю подробные данные для анализа причин полученной эффективности. Для обеспечения такой возможности реализовано долговременное хранение собранных характеристик всех задач в базе данных с возможностью последующего извлечения их для анализа.

NoM Suite - пакет программ и инструментальных средств анализа нестабильности функционирования аппаратно-программных компонент многопроцессорных ЭВМ
NoM Suite – свободно распространяемый пакет программ и инструментальных средств, обеспечивающих автоматизированный процесс измерения, сбора, представления, обработки и анализа результатов измерения нестабильности функционирования аппаратно-программных компонент вычислительной системы.
Пакет является расширяемым как в части состава библиотек и программ, так и в части создания собственных алгоритмов и методик оценки нестабильности параллельных приложений с использованием программ и инструментальных средств данного пакета.
Благодаря разработанным средствам можно предсказать возможное влияние «шума» на конкретное приложение, подсказать источники наиболее влиятельного «шума» в кластерном ПО узлов, чтобы далее сосредоточиться на его оптимизации

PMLP/Parsol - библиотека последовательных и параллельных решателей разреженных систем линейных алгебраических уравнений
Предназначена для решения больших разреженных линейных систем, возникающих при дискретизации дифференциальных уравнений на сетках.
Представляет собой объектно-ориентированную, переносимую библиотеку последовательных и параллельных решателей линейных систем и включает в себя:
- средства генерации распределенных по процессорам слау в параллельном режиме;
- набор предобусловливателей и итерационных решателей для решения потока систем линейных алгебраических уравнений (СЛАУ) с эффективным алгоритмом исполнения на последовательных и параллельных машинах с общей и распределенной памятью; 
- набор прямых решателей для решения небольших СЛАУ,  средства нахождения собственных значений и векторов матриц, средства перенумерации СЛАУ для последовательных машин.
Основная часть библиотеки решателей СЛАУ представляет собой набор текстов, написанных на языке С++ с применением шаблонов, классов и функций. PMLP/ParSol предоставляется в виде бинарной статической библиотеки с API для программ, написанных на языках: С++/С, Fortran-90, для платформ Windows 9x/ NT/2000, Linux. Для распараллеливания используется MPI, pthreads и MPI+phreads. Использование данной библиотеки позволяет:

  • облегчить создание параллельных программных комплексов математического моделирования, снимая часть задачи по распараллеливанию с разработчиков комплексов;
  • использовать новое поколение высокоэффективных итерационных решателей в комбинации с предобусловливателями на большом числе процессов (>10 000);
  • повысить гибкость программного комплекса, внося возможность выбора произвольного (в том числе автоматического) решателя.

PMLP/ParSol используется в ряде прикладных методик ИТМФ при решении задач на параллельных ЭВМ. На базе PMLP/ParSol разработан также исследовательский и обучающий комплекс - Visual Sparse Tools (VST), обеспечивающий визуализацию матриц СЛАУ, выявление их свойств, нахождение собственных значений и собственных векторов, тестирование распределенных СЛАУ, генерацию СЛАУ.

ParallelDB – инструментальные средства отладки параллельных MPI приложений
Состоит из: Parallel, Application Debugger; Библиотека LibFault.
Parallel Application Debugger – это масштабируемый графический отладчик параллельных приложений, который позволяет отладить параллельное приложение, запущенное на кластере. Отладчик ориентирован на работу в среде Unix/Linux.
Графический интерфейс PAD позволяет отлаживать: все процессы. произвольную группу процессов; отдельный процесс; отдельный поток.
PAD обеспечивает навигацию по локальным переменным, фреймам стека процессов и сложным структурам данных. При навигации по фреймам стека – автоматически выводятся исходные тексты приложения
Поддерживается отладка приложений, написанных на языках C/C++ и FORTRAN, использующих библиотеку MPI высокопроизводительной коммуникационной среды.
Запуск приложения осуществляется непосредственно из графического окна PAD. В настоящий момент поддерживается система пакетной обработки задач JAM.
Библиотека LibFault  обеспечивает пользователя средствами обработки исключительных прерываний в процессе выполнения параллельного приложения и предоставляет дополнительную отладочную информацию.

Автоматизированная Системы Тестирования (ACT) - пакет программ тестов ВНИИЭФ и система автоматического тестирования
Создана в ИТМФ для оценки производительности параллельных вычислительных систем,  обеспечивает автоматический  запуск тестов, сбор полученных результатов и размещение их в базе данных, визуальное представление результатов. Предусмотрены средства ввода данных из других, внешних по отношению к АСТ, источников результатов тестирования. Инструмент визуализации базируется на технологии аналитического многомерного представления данных OLAP.
В состав АСТ входят: Международные тесты Linpack, NASA NPB, PMB, Stream, SPPM, B_eff; тесты ВНИИЭФ GD2, PAUK, C-95, TDU.

 
© 2011- ФГУП РФЯЦ-ВНИИЭФ
607188
Нижегородская обл., г.Саров, пр. Мира, 37
e-mail: staff@vniief.ru
Тел.: 8 (83130) 2-48-02
Факс: 8 (83130) 2-94-94