DSaaS: почему анализ данных как услуга набирает обороты
Базовые тренды современного ИТ находятся на стыке разных дисциплин — технологий, медицины, менеджмента, финансов, юриспруденции и т.д. Применение решений DSaaS позволяет минимизировать время развертывания необходимых систем, дает гибкость настройки под требования конкретных исследователей и экономит финансы, используя ресурсы по модели «все как сервис».
Особенность момента — осознание важности данных в основной деятельности, которое сейчас проходят как отдельные компании, так и целые индустрии и отрасли. Ставшая избитой фраза «данные — это новая нефть» уже описывает только часть реальности, так как сегодня данные — это и «руда», и «вода», и «электричество», а также многое другое для всех субъектов бизнеса.
В технологическом плане данные также находятся в фокусе внимания наряду с ориентацией на облака и развитием программного обеспечения в самом широком смысле — от прикладного до отвечающего за software definition. Красивый принцип «Cloud led, Data Centric and Software first» сформулирован в ходе недавнего ребрендинга компанией NetApp, он есть и у остальных, просто не все это еще осознали в полной мере.
Особенности современной медицины
Развитие медицины идет полным ходом, а данные для медицинских исследований также имеют ключевое значение, как и в любой другой отрасли. История с ковидом несколько затмила в информационном поле исследования в других областях, которые также продолжаются — новые лекарства и продвинутые способы диагностики создают для борьбы с онкологическими заболеваниями, для лечения сердечно-сосудистых болезней и т.д. Также ведутся активные разработки в разных профильных направлениях — от геронтологии до спортивной медицины.
Исследования требуют сложной обработки огромного количества данных, медицинское направление в этом случае вполне в тренде. Про использование в медицине суперкомпьютерных вычислений — для расшифровки ДНК или структур белков, моделирования лекарств и т.д. — знают многие, а про решение медицинских задач, связанных с большими данными, известно существенно меньшему количеству людей. Но в направлении медицинских больших данных происходит много интересного и показательного.
Определимся с терминами
Под большими данными понимают крупные объемы информации, обладающей значительным многообразием, представленной как в структурированной, так и неструктурированной форме. По неформальному определению большие данные начинаются от петабайта, причем в общем случае это не только таблицы и не базы данных, а некий многообразный набор данных, из которых аналитики эвристическими методами получают нужную информацию.
Большие данные находятся в интересной диалектической связи с инструментами, использующими возможности нейросетей. В данном случае важна возможность обучения нейросетей для решения ряда практических задач, что позволяет быстро и относительно просто создавать эффективные решения, в том числе, и для работы с большими данными. Сегодня именно такие обученные нейросети называют искусственным интеллектом, хотя они похожи на человеческий интеллект только способом организации, но не возможностями.
Особенности вертикального рынка медицинских исследований
Как и у любых других индустрий, вычислительные задачи у исследователей появляются неравномерно — сегодня может быть крайне острая нужда в вычислительных мощностях, а завтра начинается очередной этап клинических исследований, когда компьютеры нужны разве что для оформления документов.
Очевидно, что в такой ситуации оптимальный путь — брать оборудование для работы с большими данными в аренду, использовать его по модели «как сервис», то есть оплачивая только за потребленные ресурсы. Однако, ресурсы в этом случае потребуются разнообразные. Прежде всего, нужны вычислительные мощности, причем специализированные — GPU прекрасно подходят для работы с нейросетями, позволяя существенно ускорить процессы обработки. Необходимы разные системы хранения данных для размещения массивов информации и результатов промежуточных вычислений, то есть и скоростные СХД, и объектные хранилища больших объемов. В том числе сети — куда уж без них! — причем лучше программно-определяемые для большей гибкости настройки и изменений по мере необходимости. Потребуется программный стек, включающий операционные системы, контейнеры, гипервизоры, софт для оркестровки, а также среды разработки (например, Python), инструменты автоматизации (например, Ansible) и, наконец, специализированный софт для работы со всем этим «зоопарком».
Установка и настройка работающей системы из такого количества компонентов представляет собой непростую инженерную задачу. При этом данную систему нужно обслуживать — оптимизировать настройки, распределять ресурсы, обновлять программное обеспечение и т.д. Задачи специфические, найти под них свободных ИТ-специалистов с профильными компетенциями весьма непросто, вариант медикам самим заниматься настройками своего инструмента — еще более проблематичен. Что делать?
Нужен комплексный подход
Набирает популярность Data Science as a Service (DSaaS) — предоставление готового к работе профильного стека с простым и легким доступом через портал самообслуживания. Выигрыш в этом случае очевиден, причем для всех сторон. Исследователи получают легкий доступ к нужным им профильным ИТ-ресурсам, причем получая приятную возможность платить по арендной модели, игроки рынка — возможность расширить аудиторию для мощных и дорогих решений и профильного оборудования.
Но тут есть тонкости, которые должны понимать не сами медики, а сотрудники компаний, предоставляющие соответствующие сервисы. Для управления перечисленной выше инфраструктурой из многочисленных профильных элементов, составляющих законченный стек — от вычислительных мощностей до Python, включительно — разработаны и доступны специализированные инструменты, среди которых наиболее современными являются NetApp AI Control Plane и NetApp Data Science. Эти сервисы позволяют создать «фабрику по обработке данных», охватывающую все пространство — от периферии до облаков — которая может выполнять обработку данных с использованием ИИ, оптимизируя при этом нагрузку на задействованную ИТ-инфраструктуру. «NetApp AI Control Plane позволяет специалистам по обработке данных и разработчикам сосредоточиться на создании прототипов, а не на разработке программного обеспечения, интеграции систем и устранении неполадок». — говорит Роман Ройфман, технический директор NetApp в России и СНГ.
Именно применение решений NetApp дает возможность получить для DSaaS основные преимущества, в частности, минимальное время развертывания, гибкость настройки под требования конкретных исследователей, экономию средств в результате применения разных современных технологий — от облаков до автоматизации ряда задач обслуживания систем. Вряд ли найдутся медики, способные заниматься, например, оркестрацией систем соответствующего профиля и масштаба, а привлекать ИТ-специалистов не всегда возможно, учитывая высокую стоимость таких сотрудников и периодичность задач. DSaaS в данном случае просто находка. Однако, управлять инфраструктурой все же необходимо, поэтому на стороне DSaaS-провайдера должны быть и специалисты, и профильное обеспечение — NetApp AI Control Plane, NetApp Data Science и т.д. в комплексе обеспечивает простоту и доступность для исследователей сервисов по работе с большими данными.
Новости
Все новостиИнтервью
Фёдор Прохоров:
Сбер дает доступ к своему облачному суперкомпьютеру и искусственному интеллекту