Конвейер для данных
По сути, Data Fabric — это архитектура, упрощающая и автоматизирующая работу с данными, в основе которой лежат искусственный интеллект и машинное обучение.
Работа любого современного предприятия связана с данными, поток которых растет непрерывно с каждым годом. Оборудование, умные устройства, корпоративные системы — все это и многое другое непрерывно генерирует данные, с которыми нужно работать, использовать их для принятия управленческих решений. Эти сведения носят разрозненный и разноплановый характер, но их нужно не просто хранить, а непрерывно использовать, структурировать, анализировать, интегрировать с информационными системами. Подобные процессы должны быть доступны не только руководителям и
Доступ к данным без преград
Какие преимущества дают фабрики данных предприятию по сравнению с обычным хранением? Как утверждает Роман Ройфман, технический директор NetApp в Восточной Европе, России, Турции и странах СНГ, фабрика данных помогает стандартизировать системы управления данными и работу в облаке, в собственном ЦОДе и на периферийных устройствах. «Среди преимуществ архитектуры можно выделить анализ данных, быстрое получение доступа и контроля, защиту и безопасность данных. В основе Data Fabric — интегрированная архитектура хранения. Это новый стратегический подход к работе корпоративной СХД, который позволяет раскрыть все преимущества облака, ЦОДа и периферии. Фабрика данных может работать в любом месте — локальных, публичных и частных облаках, устройствах для IoT, сохраняя централизованное управление. Фабрика данных состоит из набора функций по управлению данными, который обеспечивает согласованность в интегрированных средах и сокращает затраты на управление за счет автоматизации, ускоряет разработку, тестирование и развертывание. С помощью такой унифицированной платформы можно отслеживать производительность, эффективность, быстро вносить изменения в
Еще один вызов, который принимает фабрика данных, — это постоянное увеличение объема информации. Неправильно спроектированная инфраструктура может остановить
бизнес-процессы из-за невозможности последующего масштабирования. Data Fabric в свою очередь помогает компаниям использовать весь потенциал данных для удовлетворения своих потребностей и получения преимуществ на рынке.
«Одним из ключевых преимуществ фабрики данных является устранение „
Эффективное внедрение фабрики данных позволяет своевременно получать практически значимую информацию на основе аналитических задач. Часто это предполагает развертывание общих аналитических конфигураций одним нажатием, что упрощает обеспечение согласованности и общий доступ к решению.
Никита Андреянов, руководитель отдела внедрения и продвижения решений Департамента цифровой трансформации Crosstech Solutions Group, обращает наше внимание на такой аспект использование фабрики данных, как удобство. «Фабрика данных объединяет существующие инструменты по сбору, обработке, хранению и анализу данных и является цельной экосистемой с единым интерфейсом и согласованной архитектурой. Этот подход позволяет пользователям получать доступ к нормализованным данным множества платформ практически в режиме реального времени, то есть без длительного ожидания и согласования технических работ с
Фабрика данных не панацея. Она позволяет повысить эффективность существующих ETL- и Data
Analytics-процессов . Для успешного построения фабрики данных компания должна иметь серьезную базу и опыт работы с данными.
Чтобы «озеро» не стало «болотом»
Что касается задач, недостижимых при обычном подходе к работе с данными, фабрики данных позволяют построить процесс монетизации данных через создание
Хранилище данных — это склад, и искать на нем нужные данные приходится долго. А фабрика данных — это высокоскоростной конвейер создания
data-продукта .
«Как и многое другое на логическом уровне обработки данных, Data Fabric позволяет пользователям аналитических систем получить доступ к данным в источниках без привлечения служб, эксплуатирующих или администрирующих эти системы, или с минимальным их участием. Все, что необходимо знать о данных в источниках хранения, будет известно аналитикам данных из единого
По словам Никиты Кардашина, руководителя практики комплексной цифровизации процессов компании Naumen, фабрики данных призваны перейти от простого хранения данных к обеспечению их доступности и гибкой интеграции в
Фабрики данных позволяют консолидировать процессы управления данными в едином центре, При этом повышается уровень безопасности данных и операций с ними, создаются единые стандартизованные интерфейсы (API) для и приема и передачи данных между системами, и обеспечивается сквозная интеграция всех информационных систем, работающих с ними.
«Очень важно наличие в контуре фабрики данных специализированных средств продвинутой аналитики, таких как
Мост между техникой и бизнесом
Какую пользу принесут фабрики данных обычным предприятиям, если вынести за скобки сверхзадачи? «Любое современное крупное предприятие производит огромный поток данных, — комментирует Андрей Кондратьев, заместитель технического директора по комплексным проектам компании Step Logic. — Как указано в отчете Gartner о технологических тенденциях на 2022 год (где технология Data Fabric была поставлена на первое место), за последнее десятилетие количество разрозненных хранилищ данных и приложений выросло многократно. При этом команды, которые с этими данными работают, практически не увеличились. Решить проблему можно с помощью фабрик данных: они обеспечат поиск, обмен, преобразование информации между приложениями и
Для оперативной поддержки управленческих процессов собирать и обрабатывать их нужно очень быстро. Фабрика данных как раз позволяет эффективно хранить и обрабатывать разрозненную и неструктурированную информацию, а также предоставлять ее в нужном виде для систем поддержки принятия решений.
«Огромное количество сценариев использования фабрик варьируются в зависимости от используемой индустрии. От финансового сектора — с антифродом „горячего“ цеха и ретроспективным анализом „холодного“ цеха, до мира автономных автомобилей с компьютерным зрением и умного логистического склада с построением сквозных процессов перемещения оборудования. Основной камень преткновения заключается в том, что зрелость фабрик данных обгоняет зрелость потенциальных потребителей фабричных изделий, а соответственно, нужна более активная просветительская деятельность, позволяющая перекинуть мостик между техникой и бизнесом», — добавляет Михаил Шпак, руководитель отдела технологического консалтинга Huawei Enterprise в России.
В свою очередь, Алексей Аверин, руководитель технической команды финансового сектора Pure Storage в России/СНГ и странах Балтии, обращает внимание на то, что фабрики данных позволяют получить от оборудования максимум. «Сегодня никто не строит озера данных и не покупает СХД, чтобы только хранить данные. Как правило, речь идет о больших инвестициях, и поэтому системы хранения покупают, чтобы решать свои задачи: скорость аналитики, скорость поиска, предложение клиентам дополнительных сервисов, резервное копирование, восстановление после воздействия вредоносных программ
Платформа для эффективной работы с данными должна быть современной. Использование исторического наследия, так называемого legacy, будет ограничивать производительность, масштабируемость, и в итоге предприятие не получит выгоды от применения такого подхода.
ИИ — помощник аналитика
Как мы уже говорили, при построении фабрик данных активно применяются технологии искусственного интеллекта (ИИ) и машинного обучения (ML). Для чего они нужны и как их применить максимально эффективно? «Технологии ИИ широко используются сейчас в большом количестве платформенных решений для аналитики данных. Data Fabric здесь играет роль того, что может объединить непосредственно системы ИИ (где выполняются вычислительные алгоритмы для задач аналитики) с данными, на базе которых они осуществляются. Поэтому, когда мы говорим о Data Fabric, то подразумеваем, что говорим об ИИ прежде всего как о неотъемлемой части любой системы продвинутой аналитики», — отмечает Роман Шемпель (IBM).
Концепция Data Fabric больше связана с логическим уровнем управления данными, чем с физическим (уровнем носителей), к которому относится СХД. Data Fabric обеспечивает связность различных систем источников данных (СХД — СУБД), слоев агрегации данных (хранилища) и инструментов трансформации данных с уровнем
бизнес-приложений для осуществления собственно аналитики.
При этом, добавляет эксперт, сами вычисления с применением ИИ все больше опускаются с уровня
«Данные, машинное обучение и акселератор приложений — это наиболее правильная триада, используемая в современных „озерах“ и „океанах“ данных. Насчет реализации хотелось бы отметить необходимость автоматизации данных столпов, чтобы они не стали современным колоссом на глиняных ногах. Стоит использовать один их принципов
Фабрики данных готовы к экспоненциальному горизонтальному расширению слоя данных без деградации времени их обработки, классические же СХД будут бутылочным горлышком во времени взрывного роста данных во всех индустриях.
По мнению Романа Ройфмана (NetApp), главная особенность современных Data Fabric заключается в глубоком использовании инструментария больших данных, искусственного интеллекта и машинного обучения для организации алгоритмов управления данными. «При обработке информации машинное обучение предусмотрено на каждой ступени, начиная от анализа получаемых данных и заканчивая оптимизацией алгоритмов обработки. При наличии Data Fabric пользователи и аналитики смогут быстрее получить доступ к достоверным данным для приложений, аналитических задач и автоматизации
Фабрика данных позволяет реализовать конвейер цифровых проектов, сокращая
time-to-market для внедрения нового функционала. Теперь на разработку цифрового проекта уходит не полгода, а несколько месяцев.
«Фабрика данных, включающая инструменты и процессы работы с искусственным интеллектом, позволяет значительно повысить производительность, удовлетворив уникальные потребности каждой группы специалистов, с помощью специально подобранных конфигураций инструментов и автоматизированных процессов, — заключает Виталий Тукмаков (HPE). — Это позволяет специалистам сосредоточиться на своей работе, не отвлекаясь на управление инфраструктурой. Совместные репозитории кода, моделей предоставляют специалистам возможность обмениваться знаниями и наработками, что значительно сокращает время проектирования новых систем и приложений. Высокопроизводительная распределенная файловая система оптимизирует доступ специалистов к данным, обеспечивая при этом выполнение политик безопасности и управления».
Мы обязательно вернемся к теме построения фабрик данных в одном из ближайших номеров нашего журнала, где обсудим ее практические аспекты.