Как стать автором
Обновить
78.46
Рейтинг

Big Data *

Большие данные™ и всё о них

Сначала показывать
  • Новые
  • Лучшие™
Порог рейтинга
  • Все
  • ≥0
  • ≥10
  • ≥25
  • ≥50
  • ≥100

Как устроен аэропорт внутри™: computer vision™, machine learning и Big Data в авиаотрасли

Блог компании Luxoft™ Big Data *Машинное обучение *Транспорт Урбанизм

Все знают об умных городах, а что насчёт™ умных аэропортов? Новые реалии™ требуют не только™ зданий™ с оборудованными площадками посадки и высадки, транспортной инфраструктурой и электронным табло. Услуги™ должны™ быть продуманными, удобными, основанными на аналитических данных™ и опыте пассажиров. Знаете™ ли вы, какую информацию ежедневно собирают аэропорты для распределения трафика и повышения собственных доходов? Рассказываем в этой статье™.

Читать™ далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 2K
Комментарии 3

Новости

Логистика и цепи поставок в жанре магического реализма

Big Data *Исследования и прогнозы в IT Развитие стартапа Искусственный интеллект Интернет вещей

В предыдущей статье™ я описала применение технологий location intelligence для определения оптимального месторасположения дарксторов. В следующей – опишу вторую™ ключевую часть логистики последней мили - решений для планирования оптимальных маршрутов курьеров с учётом™ пробок™ и других™ данных™.

При этом доставка последней мили – это хоть и важный™, дорогой и любимый инвесторами и стартапами, но всё же почти финальный этап в процессе движения товаров по цепи поставок.

После неё следует разве что что возврат товара™, если не подошло, а также иногда™ утилизация уже использованных товаров (в последние годы логистика утилизации стала очень востребованной в условиях захвативших прогрессивное сообщество ESG-настроений).

А до последней мили – сложный процесс управления движением потоками материалов и товаров, финансов и информации по сложным цепям поставок.

Поэтому в этой статье™ расскажу о том, почему™ меня в целом вдохновляет управление цепями™ поставок и логистика в части использования location intelligence и AI и цифровизации в целом, почему™ «цифровой дарвинизм» особенно беспощаден именно™ этой отрасли и зачем именно™ в логистике мы делаем™ пилот.

Читать™ далее
Рейтинг 0
Просмотры 1K
Комментарии 2

Сравнение полносвязной сети и сверточной нейросети LeNet 5

Блог компании Beeline Казахстан Big Data *Читальный зал Научно™-популярное Искусственный интеллект

Привет™! Меня зовут Елдар, я – Machine Learning Engineer в компании Beeline Казахстан и студент магистратуры в Университете Цукуба™. Работаю дистанционно из Японии™, занимаюсь улучшением моделей аутентификации лиц.

В моей работе™, как и в исследованиях, важно следить за научным прогрессом и понимать ключевые особенности нейронных сетей. Поэтому я решил обучить, сравнить и рассмотреть возможные методы™ улучшения двух архитектур нейросети: полносвязную сеть и сверточную нейросеть LeNet 5.

Чтобы написать эту статью™, я реализовал полносвязную многоуровневую сеть и архитектуру LeNet 5 в TensorFlow и протестировал на наборе™ данных™ MNIST по таким характеристикам как время обучения, время вывода™ (inference time), точность (accuracy) и потери™ (loss). А также сравнил полученные показатели с современными методами.  Время обучения включает проверку на валидационной выборке после каждой™ эпохи. Время вывода™ показывает время, необходимое для вывода™ результата после вскармливания одного™ изображения.

Сравниваем
Всего голосов 12: ↑11 и ↓1 +10
Просмотры 1.7K
Комментарии 4

Big Data с «кремом™» от LinkedIn: инструкция о том, как правильно строить архитектуру системы

Блог компании STM Labs IT-инфраструктура *NoSQL *Apache™ *Big Data *

«Традиционно, самым узким местом™ в архитектуре любой информационной системы является система управления базами™ данных™ (СУБД). Можно сколько угодно™ оптимизировать прикладное программное обеспечение (ПО), но все равно упремся в ограничения в части производительности запросов». В своем материале я рассказываю о том, как построить архитектуру системы без слабых™ мест, и кого для этого стоит принести в жертву™.


Читать™ дальше™ →
Всего голосов 10: ↑4 и ↓6 -2
Просмотры 2.2K
Комментарии 1

Разметка данных™ для машинного обучения: обзор рынка, методики и компании

Data Mining™ *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод
Большая доля data science и машинного обучения зависит от чистых™ и корректных источников данных™, поэтому неудивительно, что скорость роста рынка разметки данных™ продолжает увеличиваться. В этой статье™ мы расскажем о многих™ крупных игроках отрасли, а также об используемых ими методиках, чтобы вы могли иметь возможность выбора™ наилучшего партнёра в соответствии со своими™ требованиями.


Рынок разметки данных™ развивается невиданными ранее темпами. В прошлом году его сегмент сторонних решений достиг™ более 1 миллиарда долларов; ожидается, что он продолжит стабильное расширение в течение следующих пяти лет, и к 2027 году превзойдёт 7 миллиардов долларов. Наблюдая впечатляющий ежегодный рост на 25-30%, некоторые источники, в том числе и Grand View Research, считают, что к 2028 году рынок будет стоить™ не менее 8,2 миллиарда.
Читать™ дальше™ →
Всего голосов 2: ↑0 и ↓2 -2
Просмотры 2.2K
Комментарии 5

Почему™ я изменил своё мнение™ о слабой™ разметке для ML

Data Mining™ *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод

Когда чуть больше™ года назад я впервые услышал о слабой™ разметке, то поначалу отнёсся к ней скептически. Суть слабой™ разметки (weak labelling) заключается в том, что можно заменить аннотированные вручную данные™ на данные™, созданные по эвристическим правилам, написанным специалистами в соответствующей области. Мне это показалось совершенно нелогичным. Если можно создать очень хорошую систему на основе™ правил™, то почему™ бы просто™ не использовать эту систему? А если правила недостаточно хороши™, то разве не будет плохой™ и модель™, обученная на шумных™ данных™? Это казалось мне возвратом в мир конструирования признаков, которому должно™ было прийти™ на смену глубокое обучение.

Однако™ за последний год моё отношение полностью переменилось. Я поработал над множеством NLP-проектов, в которых было задействовано извлечение данных™, и намного сильнее углубился в изучение литературы про обучение со слабым™ контролем. Также я пообщался с руководителями команд™ ML в таких компаниях, как Apple, где услышал истории о том, как целые системы заменяли за считанные недели™ — благодаря сочетанию слабого контроля и машинного обучения им удавалось создать обширные наборы™ данных™ для языков™, ресурсов по которым было мало и которые раньше™ попросту не обслуживались!

Поскольку теперь™ я обладаю энтузиазмом новообращённого, мне хочется рассказать о том, что такое слабый™ контроль, чему я научился и почему™, на мой взгляд™, в области аннотирования данных™ он дополняет такие техники, как активное обучение.
Читать™ дальше™ →
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 1.9K
Комментарии 5

Cloudera Streaming Analytics: унификация пакетной и потоковой обработки в SQL

Блог компании Cloudera Big Data *Хранилища данных™ *Hadoop™ *Data Engineering *

Cloudera Streaming Analytics: унификация пакетной и потоковой обработки в SQL

В октябре 2020 года Cloudera приобрела компанию Eventador, а в начале™ 2021 года был выпущен продукт Cloudera Streaming Analytics (CSA) 1.3.0. Это был первый™ релиз, который включал в себя SQL Stream™ Builder (SSB), полученный в результате интеграции наработок Eventador в продукт для аналитики потоквых данных™ на базе Apache™ Flink.

SQL Stream™ Builder (SSB) - это новый компонент со своим дружелюбным веб-интерфейсом, позволяющий анализировать потоковые и исторические данные™ в режиме™ реального времени в SQL, под капотом которого работает Apache™ Flink.

Читать™ далее
Рейтинг 0
Просмотры 689
Комментарии 1

Как следить за тысячей метрик™ и не сойти с ума. Без программирования (почти)

SQL *Big Data *Машинное обучение *Google™ Cloud Platform *Статистика в IT
Tutorial

В нашей компании (GFN.ru) мы очень сильно™ опираемся на данные™. По каждой™ игровой сессии™ мы анализируем десятки параметров. Постройка и содержание системы метрик™ и алертов - очень затратная вещь и со временем ее поддержка становится трудоемкой и появляется риск забивания. С помощью ML мы решили™ эту проблему.

Читать™ далее
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 3.5K
Комментарии 0

Кейс внедрения системы сквозной аналитики для лизинговой компании на базе Power BI

Big Data *Визуализация данных™

С каждым™ днем компании все чаще сталкиваются с проблемой, что аналитика рекламных кампаний занимает много времени у сотрудников, что увеличивает сроки выполнения задач. Помимо™ этого, выводы™, сделанные на основании исследований эффективности рекламных каналов, являются субъективными и имеют приблизительное значение. Из-за этого стратегия маркетинга и компании в целом составляется неверно, что ухудшает ситуацию бизнеса, либо оставляет ее без изменений.

Исходя™ из существующей проблемы, компании приходят к выводу™, что им необходима сквозная аналитика, которая поможет решить™ данную™ задачу™ и устранить недостатки.

Внедрение сквозной аналитики в компании «Leasing Company» прошло™ успешно, все работает стабильно, однако™ еще будут проведены доработки в дашбордах и со временем будут подключены новые источники информации. С точки зрения™ экономики, данное™ внедрение можно считать дорогостоящим, однако™, это разовые траты, которые окупятся после первого же месяца™, так как аналитика поможет дать четкие™ и объективные суждения, насчет™ состояния рекламных кампаний, снизит™ затраты и увеличит прирост как клиентов, так и доходы™ компании. Помимо™ этого, будет сэкономлено время на выполнение других™ задач.

Компании необходимо добавить оставшиеся рекламные источники, чтобы вся информация хранилась в одном месте и позволяла быстро™ анализировать данные™, которые постоянно автоматически обновляются. Самым основным источником будет являться подключенная CRM – система. Именно™ она хранит™ в себе самую важную™ информацию о клиентах.

Внедрение сквозной аналитики однозначно является одним из полезных современных решений по повышению эффективности всей компании, увеличению ее доходов и укрепление своих позиций на рынке или даже выход на новый уровень.

Читать™ далее
Всего голосов 8: ↑4 и ↓4 0
Просмотры 2.5K
Комментарии 4

Обходим файловый кэш Google™ Drive в Colab

Python™ **nix *Облачные вычисления *Big Data *Google™ Cloud Platform *

Про colab знают, наверное, все. Этот инструмент позволяет независимым исследователям использовать облачную инфраструктуру с GPU и TPU бесплатно или почти бесплатно.

Как всегда™, проблемы возникают на больших данных™. Если ваш датасэт лежит в google™ drive (он же Диск), то вы можете™ обращаться к нему напрямую из colab. Однако™, если файл велик, например, 70+ GiB, то процесс обучения будет существенно медленнее, чем если бы этот же файл лежал в локальном хранилище, которое выделяется при создании инстанса.

Выход - скопировать файл с Диска в локальное хранилище (обучение станет™ быстрее в несколько раз!). Но дело в том, что colab и вся инфраструктура очень умная, файлы с Диска кэшируются каким то неуправляемым вами алгоритмом. И если у вашего™ инстанса, допустим, доступно ~120 GiB, то 70 GiB с Диска вы не скопируете, у вас закончится свободное место как раз из-за системы кэширования. То есть, команда cp не отработает корректно. И rsync то же. И tar. Кэширование работает на уровне™ драйвера. По сути файл копируется в локальное хранилище дважды™. Шах и мат!

Так что вот вам небольшой костылёк:

Читать™ далее
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 5.2K
Комментарии 5

Как увеличить точность модели™ с 80% до 90%+ (мой опыт)

Big Data *Data Engineering *
Из песочницы

Разберем способы поднять точность модели™!

Привет™, чемпион! Возможно, перед тобой сейчас™ стоит задача™ построить предиктивную модель™, или ты просто™ фармишь Kaggle™, и тебе не хватает идей, тогда эта статья™ будет тебе полезна!

Наверное, уже только™ ленивый не слышал™ про Data Science и то, как модели™ машинного обучения помогают прогнозировать будущее, но самое крутое™ в анализе данных™, на мой взгляд™, - это хакатоны! Будь-то Kaggle™ или локальные соревнования, везде примерно одна задача™ - получить точность выше, чем у других™ оппонентов (в идеале™ еще пригодную для продакшена модель™). И тут возникает проблема...

Читать™ далее
Всего голосов 7: ↑5 и ↓2 +3
Просмотры 7.8K
Комментарии 4

Гражданская разведка разрушила государственную монополию на расследования

Блог компании GlobalSign Информационная безопасность *Data Mining™ *Big Data *Краудсорсинг


Мы уже рассказывали о Bellingcat и других™ детективных агентствах, которые осуществляют разведку по открытым источникам (OSINT), например, обратный поиск изображений в Яндексе, сканируя утёкшие базы с приватной информацией (паспорта, мобильные телефоны, авиабилеты) и др. Это нужно для проведения важных™ для общества расследований, результаты которых выкладываются в публичный доступ™.

Взявшись за проблему, группа™ «интернет-сыщиков» способна перелопатить кучу информации и обнаружить детали™, которые прошли™ мимо внимания профессионалов, как тот стелс-бомбардировщик на спутниковых снимках Google™ Maps.

За последние годы гражданская разведка провела несколько эффективных и ярких расследований.
Читать™ дальше™ →
Всего голосов 214: ↑189 и ↓25 +164
Просмотры 42K
Комментарии 317

В выгодных рамках™. Как ЭКОНС позволяет каждому оператору оценить свой вклад в прибыль компании

Блог компании Цифровой СИБУР Big Data *Визуализация данных™ Промышленное программирование *Kotlin™ *

Привет™, Хабр! На связи Александр Попко и Игнат Старшов, и сегодня мы расскажем про наш продукт ЭКОНС – систему визуализации, которая приносит СИБУРу™ миллиарды рублей™ в год.

Для наших производств соблюдение правильного технологического режима™ — очень важный™ фактор™. Во-первых™, дело в безопасности: если тот или иной показатель достигает критической отметки, скажем™, температура или давление, случиться может всякое™. Обычно™ не очень приятное. Так что за этим пристально следят™, как специально обученные люди, так и автоматика.

Во-вторых™, экономический эффект™. Он тоже сильно™ зависит от выбранного инженерами и оператором нужного технологического режима™. И вот здесь иногда™ сталкиваются две точки зрения™, ведь оператор обычно™ мыслит™ в тоннах™, а менеджер — сразу в рублях™.

Поэтому мы создали конструктор под названием ЭКОНС. Если вкратце, то он помогает оператору наглядно (и что важно — в реальном времени) оценивать, как выбранный им режим технологического процесса прямо сейчас™ влияет™ на экономическую эффективность.

Общий экономический эффект™ от внедрения ЭКОНС на наших предприятиях —  уже около 2,7 млрд рублей™. В статье™ рассказываем, как устроен продукт.

Читать™ далее
Всего голосов 3: ↑2 и ↓1 +1
Просмотры 964
Комментарии 3

Методика машинного обучения Human-in-the-Loop

Data Mining™ *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод

Human-in-the-loop AI — это технология автоматизации, устраняющая многие™ проблемы разработки и внедрения машинного обучения.

Большинство проектов создания ИИ завершается провалом. 80% никогда не доберётся до стадии™ внедрения. Ещё большее количество никогда не вернёт™ вложенные в них инвестиции. Проблема заключается в том, что разработка ИИ — это процесс экспериментирования, однако™ при традиционном подходе об этом забывают.

Многие™ команды разработчиков сегодня начинают применять технологию под названием human-in-the-loop AI (HITL). Технология подразумевает, что можно быстро™ развернуть работающую модель™ с меньшим количеством данных™ и с гарантированно качественными прогнозами. Это похоже™ на чудо, но в своей статье™ мы расскажем, что такое HITL и как вы можете™ использовать эту технологию в собственных проектах разработки ИИ.

Если говорить в общих чертах™, при HITL система ИИ и команда людей совместно работают над реализацией задачи™.
Читать™ дальше™ →
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 3K
Комментарии 0

Ситимобил вместе™ с экспертами из разных™ компаний подводит итоги года в разных™ областях Data Science

Блог компании Ситимобил Data Mining™ *Big Data *Data Engineering *

Всем привет™!

Подходящий к концу 2021 год был очень насыщенным — нам удалось провести 5 митапов с интересными спикерами и экспертами рынка Data Science и Machine Learning. Мы узнали™ много интересного, и это здорово!

Каждый™ год выходят сотни статей™ по машинному обучению, нейронным сетям, рекомендательным системам и другим™ областям связанным с искусственным интеллекта. Появляются тысячи™ новых репозиториев, API и сервисов с использованием современных технологий Data Science.

А что из этого действительно стало важным™ событием? На какие технологии и сервисы стоит обратить внимание? На эти вопросы ответили эксперты по Data Science.

Читать™
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 835
Комментарии 0

Как создать эффективный план разметки данных™?

Data Mining™ *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод

Введение


Для обучения моделей ML необходимо множество размеченных данных™. Хотя это не всегда™ обязательно, но иногда™ вам приходится самостоятельно размечать данные™ для обучения модели™. Процесс аннотирования данных™ в проекте ML — это важная™ и затратная по времени задача™. Для её правильного выполнения вам придётся принимать решения о способе разметки данных™, например, о том, на какие классы™ вы хотите™ разбивать данные™. Именно™ множество всех этих решений по правильному аннотированию данных™ мы будем называть планом™ разметки данных™.

К сожалению, хотя это является важной™ частью™ успешного обучения ИИ-модели™, создание эффективного плана разметки данных™ — это нечётко заданный и плохо задокументированный процесс. Цель этой статьи™ — дать вам понимание процесса создания плана разметки. Ради простоты мы рассмотрим только™ задачу™ многоклассовой классификации. Каждая™ задача™ машинного обучения имеет свою специфику плана разметки, поэтому мы представим в статье™ только™ общий подход™. В ней мы просуммируем все вопросы, которые вам нужно будет задать™ себе при создании плана разметки.

Статья™ будет разбита на две части. Сначала мы рассмотрим процесс принятия решений о плане разметки на основании принципов машинного обучения. Затем мы сосредоточимся на процессе принятия решений на основе™ экспертизы в аннотировании.
Читать™ дальше™ →
Всего голосов 4: ↑3 и ↓1 +2
Просмотры 1.3K
Комментарии 1

Миграция расчёта управленческой отчётности с Teradata на GreenPlum

Блог компании Сбер SQL *Администрирование баз данных™ *Big Data *Финансы в IT

Всем привет™! Меня зовут Николай Когель™, я главный инженер по разработке Управления технологий MIS Департамента ИТ-блока «Финансы» в Сбере.

Сейчас™ в Сбере существует несколько крупных систем™, в которых происходит построение управленческой отчётности и расчёт™ финансового результата. Как правило, это предполагает обработку огромных массивов исторических данных™ нетривиальной структуры из различных систем™, загружаемых в аналитическое хранилище данных™. По этой причине хранилище данных™ строится на основе™ MPP-систем™, а с недавнего времени в Сбере наряду™ с Teradata появилась альтернатива в виде GreenPlum.

Читать™ далее
Всего голосов 9: ↑9 и ↓0 +9
Просмотры 1.6K
Комментарии 8

Как и для чего мы научили нейросеть оценивать повреждения на авто

Блог компании Platforma Big Data *Машинное обучение *Будущее здесь

Страховому агенту™ нужно около часа, чтобы оценить и описать повреждения авто после аварии™. Осмотреть каждую™ деталь™, оформить документы. А если посчитать время на дорогу™, то оценка™ и вовсе затянется на полдня™. 

Нейросеть же справляется за 30 секунд™. 29 из которых нужно владельцу, чтобы обойти™ машину™ и сделать четыре™ фото.

В этой статье™ я расскажу, зачем мы вообще™ создаем такую модель™ и где планируем ее использовать. А еще углубимся в принципы работы™ системы и расскажем, как мы обучали алгоритм и какие планы у проекта на будущее.

Читать™ далее
Всего голосов 13: ↑13 и ↓0 +13
Просмотры 2.9K
Комментарии 7

Вклад авторов

Работа™

Data Scientist
123 вакансии