#знания_от_эмитента — посты и обсуждения
4 публикации
Сегодня поговорим про совместную безопасную работу с данными. Это одна из самых быстрорастущих областей в data-индустрии: бизнесу важно извлекать ценность не только из самостоятельно собранных данных, но и использовать накопленные знания в индустрии или смежных отраслях.
Существует 2 больших класса конфиденциальных вычислений: аппаратные и программные. Группа Arenadata занимается разработкой именно ПО как в части хранения и аналитики данных, так и в области конфиденциальных вычислений.
Разбираем ключевые понятия 👇
🌟 Конфиденциальные вычисления (Confidential Computing) — подход к обработке данных, при котором данные защищены на всех этапах: при хранении, передаче и даже во время обработки. Это позволяет работать с чувствительной информацией без риска утечки. Опишем несколько типов конфиденциальных вычислений: MPC, федеративное обучение и гомоморфное шифрование.
🌟 MPC (многосторонние вычисления) — позволяют нескольким сторонам вычислить результат на основе их общих данных, не раскрывая свои приватные данные друг другу:
Этап 1: деление данных. Каждый участник разбивает свою информацию на зашифрованные части («осколки»).
Этап 2: распределенные вычисления. Эти «осколки» отправляются другим участникам или узлам сети, где проводятся математические операции.
Этап 3: сбор результата. Получается общий итог, который расшифровывается, но никто из участников не видит данные, предоставленные другими.
🌟 Федеративное обучение — это метод машинного обучения, который тренирует алгоритм на нескольких удаленных устройствах или серверах без обмена исходными данными между ними. Серверы обмениваются только обновлениями (весами) для моделей, которые содержат очень сжатую, концентрированную информацию, и извлечь из них данные одного отдельного сервера затруднительно. Более того, обмен этими обновлениями часто дополнительно защищают с помощью многосторонних вычислений или гомоморфного шифрования, что делает федеративное обучение методом с доказуемой безопасностью и показывает, что технологии конфиденциальных вычислений не конкурируют, а усиливают друг друга.
🌟 Гомоморфное шифрование (Homomorphic Encryption) — метод шифрования, позволяющий выполнять вычисления прямо на зашифрованных данных. Результат также остаётся зашифрованным и доступен только владельцу данных.
Расширение спектра использования конфиденциальных вычислений способствует развитию совместных проектов и созданию инновационных продуктов и услуг. И все это благодаря математическому алгоритму, безопасность которого можно обосновать.
⚙️ На нашей ежегодной конференции ArenaDay Алла Лугунова, руководитель монетизации данных для кредитного бизнеса Т-Банка, рассказала о практических кейсах применения технологии. Видео доступно по ссылке: https://rutube.ru/video/private/cde9fc4918b7b1c3f9065d225bb23691/?p=Xl3IRHgMIACsYP9sgkP4aw
Какие темы разобрать следующими? 👇
👍 — технологии, на которых строится data-платформы Группы
⚙️ — технологические партнерства
🚀 — реальные бизнес-кейсы
#знания_от_эмитента
$DATA
В эпоху цифровой трансформации данные стали одним из самых ценных активов, но, как и с любым ресурсом, простого наличия недостаточно, чтобы получить реальную выгоду — данные нужно перерабатывать. Сегодня бизнес переходит от концепции классических больших данных (Big Data) к интеллектуальным данным (Smart Data) — и это принципиально меняет правила игры.
🌍 Урок из истории: ценность не только в объёме, но и в анализе
Вспомните Тихо Браге, датского астронома XVI века, который годами собирал огромные объёмы данных о небесных телах. Но настоящие открытия сделали Кеплер и Ньютон, проанализировав эти данные и сформулировав законы движения планет и фундаментальные законы физики. Эта история отличная метафора: сбор данных — это только первый этап, следующий этап — уметь извлечь из них ценность.
Big Data и Smart Data: в чём разница❓
🔹Big Data характеризуется тремя ключевыми параметрами: объёмом, скоростью и разнообразием.
🔹Smart Data — это очищенные, структурированные витрины информации, готовые к использованию для принятия решений.
Если Big Data — «сырая нефть», то Smart Data — «бензин и пластик», готовые к применению в бизнесе.
Почему компаниям стоит переходить на Smart Data? 📈
В 2026 году большие языковые модели и интеллектуальные агенты меняют правила игры. Алгоритмы машинного обучения и искусственного интеллекта корректно работают только с качественными данными. Неочищенные данные приводят к ошибочным выводам и неэффективным решениям.
Правильный подход:
1️⃣ Алгоритмическая подготовка в специализированных СУБД: очистка, структурирование, обеспечение отслеживания происхождения данных через каталоги данных и словари терминов.
2️⃣ Только после этапа 1 подключаются интеллектуальные агенты.
🔗 Подробнее о том, как перейти к Smart Data и получить максимальную отдачу от данных, читайте в нашем новом материале: https://secrets.tbank.ru/blogi-kompanij/chem-intellektualnye-dannye-otlichayutsya-ot-big-data/?utm_referrer=https%3A%2F%2Fwww.google.com%2F
В современном промышленном производстве данные — это не просто информация, а ключевой актив, способный значительно повысить эффективность и прибыльность бизнеса. Но как не утонуть в «море» данных и получить реальную выгоду?
Помочь в этой задаче может cost-effective-подход (экономически эффективный подход): управление инициативами по данным аналогично производственными улучшениями.
В карточках коротко рассказываем о подходе 🔍
👉 Подробнее — по ссылке: https://arenadata.tech/about/news/cost-effective-podhod-k-dannym-v-promyshlennosti/
Всем привет!
Мир больших данных постоянно развивается, и вместе с ним появляются новые понятия. Чтобы помочь вам разобраться, мы подготовили краткий обзор по ключевым из них: Lakehouse, Data Lineage, Дата-контракты и Дата-продукты.
🌟 Lakehouse – это современная архитектура хранения и обработки данных, которая объединяет в себе ключевые преимущества двух классических подходов: Data Lake (озеро данных, которое предназначено для хранения неструктурированных данных) и Data Warehouse (хранилище данных). Такой подход позволяет эффективно обрабатывать различные типы данных и решать задачи от BI (бизнес-аналитики) до ML и AI.
🌟 Data Lineage – это история жизни данных от источника до конечного результата. Это как след, который оставляют данные на своем пути, позволяющий отследить их преобразования и понять их происхождение: источник данных (база данных, файл, API и т.д.), все этапы обработки, очистки, агрегации и трансформации данных, кто и когда использовал данные (пользователи, приложения, процессы).
🌟 Дата-контракты – это соглашение о качестве, формате и структуре данных между "поставщиком" данных и "потребителем" данных. В них указываются: какие данные будут предоставлены (например, информация о клиентах), в каком формате они будут, с какой частотой будут обновляться (например, ежедневно или ежечасно) и какие требования к качеству должны быть соблюдены (например, количество пропущенных значений не должно превышать 1%). Дата-контракты устанавливают четкие правила взаимодействия, делая процесс обмена данными понятным для всех участников.
🌟 Дата-продукты – это готовые к использованию наборы данных или аналитические решения, созданные с учетом потребностей конкретного пользователя или команды. Это могут быть настроенные дашборды, API с актуальными данными или автоматические отчеты. Их цель – дать пользователям простой доступ к нужной информации, без необходимости разбираться в технических тонкостях, что в итоге помогает принимать более обоснованные решения.
Была ли рубрика полезна для вас?
👍 — да, активно изучаю
👎 — нет, не интересуюсь
🚀 — теперь буду следить