Big Data

BigData - это совершенно технический и строгий термин. Это новая техника математической обработки очень больших объёмов данных, их перекрёстного анализа. Ещё не так давно просто вычислительных мощностей, требуемых для алгоритмики BigData, технически не присутствовало в природе (или присутствовало в виде уникальных суперкомпьютеров). А на сегодня эти техники могут быть перенесены на достаточно рядовые вычислительные средства.

Большие данные

Больши́е да́нные (англ. big data, [ˈbɪɡ ˈdeɪtə]) — совокупность подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence[1][2][3].

В широком смысле о «больших данных» говорят как о социально-экономическом феномене, связанном с появлением технологических возможностей анализировать огромные массивы данных, в некоторых проблемных областях — весь мировой объём данных, и вытекающих из этого трансформационных последствий[4].

Big Data от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce

21 сентября 2015 в 18:47
Термин Big Data появился сравнительно недавно. Google Trends показывает начало активного роста употребления словосочетания начиная с 2011 года.

При этом уже сейчас термин не использует только ленивый. Особенно часто не по делу термин используют маркетологи. Так что же такое Big Data на самом деле? Раз уж я решил системно изложить и освятить вопрос – необходимо определиться с понятием.
В своей практике я встречался с разными определениями:
· Big Data – это когда данных больше, чем 100Гб (500Гб, 1ТБ, кому что нравится)
· Big Data – это такие данные, которые невозможно обрабатывать в Excel
· Big Data – это такие данные, которые невозможно обработать на одном компьютере

Исходя из определения Big Data, можно сформулировать основные принципы работы с такими данными:

1. Горизонтальная масштабируемость. Поскольку данных может быть сколь угодно много – любая система, которая подразумевает обработку больших данных, должна быть расширяемой. В 2 раза вырос объём данных – в 2 раза увеличили количество железа в кластере и всё продолжило работать.

2. Отказоустойчивость. Принцип горизонтальной масштабируемости подразумевает, что машин в кластере может быть много. Например, Hadoop-кластер Yahoo имеет более 42000 машин (по этой ссылке можно посмотреть размеры кластера в разных организациях). Это означает, что часть этих машин будет гарантированно выходить из строя. Методы работы с большими данными должны учитывать возможность таких сбоев и переживать их без каких-либо значимых последствий.

3. Локальность данных. В больших распределённых системах данные распределены по большому количеству машин. Если данные физически находятся на одном сервере, а обрабатываются на другом – расходы на передачу данных могут превысить расходы на саму обработку. Поэтому одним из важнейших принципов проектирования BigData-решений является принцип локальности данных – по возможности обрабатываем данные на той же машине, на которой их храним.

Все современные средства работы с большими данными так или иначе следуют этим трём принципам. Для того, чтобы им следовать – необходимо придумывать какие-то методы, способы и парадигмы разработки средств разработки данных. Один из самых классических методов я разберу в сегодняшней статье.

Olej писал(а): Big Data от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce

Вот подборка этих публикаций:

Big Data от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce
Big Data от А до Я. Часть 2: Hadoop

Как известно парадигму MapReduce предложила компания Google в 2004 году в своей статье MapReduce: Simplified Data Processing on Large Clusters. Поскольку предложенная статья содержала описание парадигмы, но реализация отсутствовала – несколько программистов из Yahoo предложили свою реализацию в рамках работ над web-краулером nutch. Более подробно историю Hadoop можно почитать в статье The history of Hadoop: From 4 nodes to the future of data

Изначально Hadoop был, в первую очередь, инструментом для хранения данных и запуска MapReduce-задач, сейчас же Hadoop представляет собой большой стек технологий, так или иначе связанных с обработкой больших данных (не только при помощи MapReduce).

Big data от А до Я. Часть 3: Приемы и стратегии разработки MapReduce-приложений
Big Data от А до Я. Часть 4: Hbase
Big Data от A до Я. Часть 5.1: Hive — SQL-движок над MapReduce
Big Data от A до Я. Часть 5.2: Продвинутые возможности hive

Olej писал(а): Big Data от А до Я. Часть 2: Hadoop
Изначально Hadoop был, в первую очередь, инструментом для хранения данных и запуска MapReduce-задач, сейчас же Hadoop представляет собой большой стек технологий, так или иначе связанных с обработкой больших данных (не только при помощи MapReduce).

Код: Выделить всё

[olej@dell mnt]$ lsb_release -a
LSB Version:	:core-4.1-amd64:core-4.1-noarch:cxx-4.1-amd64:cxx-4.1-noarch:desktop-4.1-amd64:desktop-4.1-noarch:languages-4.1-amd64:languages-4.1-noarch:printing-4.1-amd64:printing-4.1-noarch
Distributor ID:	Fedora
Description:	Fedora release 23 (Twenty Three)
Release:	23
Codename:	TwentyThree

Код: Выделить всё

[olej@dell mnt]$ dnf list '*hadoop*'
Последняя проверка окончания срока действия метаданных: 23:26:21 назад, Thu Apr  6 16:28:39 2017.
Доступные пакеты
condor-aviary-hadoop.x86_64                                              8.5.1-2.fc23                                        updates
condor-aviary-hadoop-common.x86_64                                       8.5.1-2.fc23                                        updates
glusterfs-hadoop.noarch                                                  2.3.2-4.fc21                                        fedora 
glusterfs-hadoop-javadoc.noarch                                          2.3.2-4.fc21                                        fedora 
hadoop-client.noarch                                                     2.4.1-12.fc23                                       updates
hadoop-common.noarch                                                     2.4.1-12.fc23                                       updates
hadoop-common-native.x86_64                                              2.4.1-12.fc23                                       updates
hadoop-devel.i686                                                        2.4.1-12.fc23                                       updates
hadoop-devel.x86_64                                                      2.4.1-12.fc23                                       updates
hadoop-hdfs.noarch                                                       2.4.1-12.fc23                                       updates
hadoop-hdfs-fuse.x86_64                                                  2.4.1-12.fc23                                       updates
hadoop-httpfs.noarch                                                     2.4.1-12.fc23                                       updates
hadoop-mapreduce.noarch                                                  2.4.1-12.fc23                                       updates
hadoop-mapreduce-examples.noarch                                         2.4.1-12.fc23                                       updates
hadoop-maven-plugin.noarch                                               2.4.1-12.fc23                                       updates
hadoop-tests.noarch                                                      2.4.1-12.fc23                                       updates
hadoop-yarn.noarch                                                       2.4.1-12.fc23                                       updates
hadoop-yarn-security.x86_64                                              2.4.1-12.fc23                                       updates

Основными (core) компонентами Hadoop являются:
Hadoop Distributed File System (HDFS) – распределённая файловая система, позволяющая хранить информацию практически неограниченного объёма.
Hadoop YARN – фреймворк для управления ресурсами кластера и менеджмента задач, в том числе включает фреймворк MapReduce.
Hadoop common

Код: Выделить всё

[olej@dell mnt]$ dnf list hive
Последняя проверка окончания срока действия метаданных: 23:42:54 назад, Thu Apr  6 16:28:39 2017.
Доступные пакеты
hive.noarch                                                   0.12.0-5.fc22                                                   fedora

[olej@dell mnt]$ dnf info hive
Последняя проверка окончания срока действия метаданных: 23:43:02 назад, Thu Apr  6 16:28:39 2017.
Доступные пакеты
Имя         : hive
Архитектура : noarch
Эпоха       : 0
Версия      : 0.12.0
Релиз       : 5.fc22
Размер      : 9.3 M
Репозиторий : fedora
Краткое опи : The Apache Hadoop data warehouse
URL         : http://hive.apache.org/
Лицензия    : ASL 2.0
Описание    : The Apache Hive data warehouse software facilitates querying and
            : managing large datasets residing in distributed storage. Apache Hive
            : provides a mechanism to project structure onto this data and query
            : the data using a SQL-like language called HiveQL.

Код: Выделить всё

[olej@dell mnt]$ dnf list zookeeper*
Последняя проверка окончания срока действия метаданных: 1 day, 0:27:41 назад, Thu Apr  6 16:28:39 2017.
Доступные пакеты
zookeeper.i686                                                      3.4.6-14.fc23                                            updates
zookeeper.x86_64                                                    3.4.6-14.fc23                                            updates
zookeeper-devel.i686                                                3.4.6-14.fc23                                            updates
zookeeper-devel.x86_64                                              3.4.6-14.fc23                                            updates
zookeeper-java.x86_64                                               3.4.6-14.fc23                                            updates
zookeeper-javadoc.noarch                                            3.4.6-14.fc23                                            updates

Код: Выделить всё

[olej@dell mnt]$ dnf list mahout*
Последняя проверка окончания срока действия метаданных: 1 day, 0:29:16 назад, Thu Apr  6 16:28:39 2017.
Доступные пакеты
mahout-collection-codegen-plugin.noarch                                          1.0-3.fc23                                   fedora
mahout-collection-codegen-plugin-javadoc.noarch                                  1.0-3.fc23                                   fedora

Также существует большое количество проектов непосредственно связанных с Hadoop, но не входящих в Hadoop core:
Hive – инструмент для SQL-like запросов над большими данными (превращает SQL-запросы в серию MapReduce–задач);
Pig – язык программирования для анализа данных на высоком уровне. Одна строчка кода на этом языке может превратиться в последовательность MapReduce-задач;
Hbase – колоночная база данных, реализующая парадигму BigTable;
Cassandra – высокопроизводительная распределенная key-value база данных;
ZooKeeper – сервис для распределённого хранения конфигурации и синхронизации изменений этой конфигурации;
Mahout – библиотека и движок машинного обучения на больших данных.

Большие данные или большой обман?

27 февраля 2017 в 11:12

Поэтому многие эксперты «ругают» феномен Big Data за то внимание, которое он к себе привлекает, вынуждая многие компании идти на поводу трендов и применять технологии, которые нужны далеко не всем.

Еще одно ожидание связано с тем, что большие данные — ключ к абсолютно всем знаниям. Но дело в том, что для извлечения информации нужно уметь составлять правильные запросы. Эксперт в области больших данных Бернард Мар (Bernard Marr) считает, что большинство проектов по использованию Big Data оканчиваются неудачей именно из-за того, что компании не могут сформулировать точную цель. Сам сбор данных сегодня ничего не значит, их хранение стало дешевле, чем уничтожение.

Некоторые даже считают, что Big Data на самом деле можно назвать большой ошибкой или большим обманом. Шквал критики обрушился на большие данные после нашумевшего провала Google Flu Trends, когда проект пропустил эпидемию 2013 года и исказил информацию о ней на 140%. Тогда ученые из Северо-Восточного, Гарвардского и Хьюстонского университетов раскритиковали инструмент, выявив, что за последние два года работы анализ чаще показывал неправильные результаты. Одна из причин — изменение самого поискового инструмента Google, что привело к сбору разрозненных данных.

Часто в результате анализа больших данных выявляются связи между событиями, которые на самом деле не могли никак повлиять друг на друга. Число ложных корреляций увеличивается с количеством анализируемых данных, и слишком много данных бывает так же плохо, как и слишком мало. Это не значит, что большие данные не работают, просто помимо компьютерного анализа необходимо привлекать к работе ученых и специалистов в определенной узкой области знаний, которые смогут разобраться, какие именно данные и результаты анализа представляют практическую ценность и могут использоваться для предсказания чего-либо.

Big Data: «Серебряная пуля» или еще один инструмент

27 апреля 2016 в 10:50

Как обстоят дела у нас
Российский рынок больших данных пока относительно мал: в 2014 году его размер оценили всего в $340 млн. по сравнению с общемировыми $33,3 млрд. Однако растёт он очень быстро: если «в среднем по больнице» (по миру) рынок Big data ежегодно прибавляет по 17%, то у нас рост составляет 40% в год.
...
Большим данным – большое плавание?
Но доверять корреляциям в полученных данных можно не всегда, например, известно, что число убийств в США снижалось вместе с падением доли Internet Explorer на рынке браузеров – но это же абсурд и не имеет никакой практической применимости (кроме шуток).
...
Помимо этого, многие инструменты, основанные на больших данных, можно обмануть. Например, программы для оценки сочинений используют метрики вроде длины предложений и сложности употребляемых слов, а также выявляют соответствия в уже написанных работах, получивших высокие оценки.

В итоге алгоритм пытается свести качество творческой работы к относительно узкому набору количественных характеристик. Разумеется, определённый смысл в этой задаче есть, но процесс написания сочинения при таком подходе к оценке легко сведётся к механическому подбору «нужных слов».
...
Но и этого недостаточно: наука о данных – это смешение статистики, математики, программирования и, что немаловажно, предметных знаний, будь то торговля, банковское дело или любая другая индустрия. Слишком много организаций нанимают гениальных математиков и программистов, не обладающих этим последним компонентом.
...
Популярность Big Data привела к тому, что эту технологию начали воспринимать как универсальную «серебряную пулю», обладающую магическими способностями для решения любых задач. Но на самом деле, это всего лишь еще один инструмент, обладающий своими плюсами и минусами.

Вот интересно в тему:

Четвертая мировая. Big Data :

Примерно тот же фокус и с нашим "сознанием". Мы, конечно, считаем его невероятно мощным, но его действительный КПД курам на смех. Рассуждая, мы можем удерживать в сознании не более семи-девяти объектов, а делая выводы, способны учесть не больше трех-четырех параметров.

Конечно, и этим можно гордиться, особенно сравнивая себя с кольчатыми червями. Но глупо делать то же самое, когда нашим конкурентом выступает машина, которая, принимая решение о нас и нашей жизни, учитывает неограниченное множество элементов ситуации.

Да, искусственный интеллект не сам стал таким сообразительным, но и не мы сделали его таковым, не надо обольщаться. Всему виной человеческая глупость и высокомерие: мы, не осознавая рисков, разоблачились перед ним подчистую, провели, так сказать, полный скрининг своей "экзистенции".

И теперь искусственный интеллект знает про нас все. Это, собственно, и есть та самая BIG DATA, а по-русски говоря, "большие данные".

Искусственному интеллекту не надо «думать»: он просто учитывает все факты и действует соответствующе.
Андрей Курпатов

Ученые шепчутся, а журналисты бодро пишут о том, что Трамп выиграл эти выборы благодаря BIG DATA. Наверняка мы об этом, конечно, ничего не знаем. Но в том, что случилось, согласитесь, обнаруживается масса странностей. Во-первых, оскандалились социологи: по данным предварительных соцопросов, победа Клинтон казалась неизбежной. А вот на тебе. Во-вторых, почти вся американская пресса — этот великий рупор общественного мнения, — была против Трампа. Но Дональду хоть бы хны: в огне не горит, в воде не тонет. Наконец, в-третьих, какая-то совершенно удивительная прицельная стрельба по выборщикам: по этому ключевому для результатов выборов показателю Трамп побеждает Клинтон с большим запасом, тогда как фактических голосов американцев за него отдано на два миллиона меньше.

О том, что в деле замешаны именно BIG DATA, судят по двум весьма косвенным признакам.

Очень, очень интересно!

Истерия вокруг ... ключевые слова: Big Data, Михал Козинский, психометрия, Brexit, Трамп ...

Расследование Das Magazin: как Big Data и пара ученых обеспечили победу Трампу и Brexit

06.12.2016

В половине девятого утра 9 ноября Михал Козинский проснулся в цюрихском отеле Sunnehus. 34-летний ученый приехал, чтобы выступить в Федеральной высшей технической школе (ETH) с докладом на конференции об опасности Big Data и так называемой «цифровой революции». С подобными лекциями Козинский разъезжает по всему миру, ведь он является ведущим экспертом в психометрии — разделе психологии, основанном на анализе данных. Включив тем утром телевизор он понял: бомба разорвалась. Дональд Трамп избран президентом США, несмотря на все прогнозы социологов.

Модель оказалась настолько хороша, что стало возможным предугадывать ответы испытуемого на определенные вопросы. Опьяненный успехом, Козинский продолжал: скоро модель смогла лучше узнавать личность после десяти изученных лайков, нежели его коллеги по работе. После 70 лайков — лучше, чем друг. После 150 лайков — лучше, чем родители. После 300 лайков — лучше, чем партнер. С еще большим количеством изученных действий можно было бы узнать о человеке лучше, чем он сам.

В день третьих дебатов между Трампом и Клинтон команда Трампа отправила в соцсети (преимущественно, Facebook) свыше 175 тыс. различных вариаций посланий. Они различались лишь в мельчайших деталях, чтобы максимально точно психологически подстроиться под конкретных получателей информации: заголовки и подзаголовки, фоновые цвета, использование фото или видео в посте. Филигранность исполнения позволяет сообщениям находить отклик у мельчайших групп населения.

Действующие лица и исполнители:

[thumbnail]http://theins.ru/wp-content/uploads/201 ... efault.jpg[/thumbnail]
[thumbnail]http://theins.ru/wp-content/uploads/201 ... C_1880.jpg[/thumbnail]
[thumbnail]http://theins.ru/wp-content/uploads/201 ... 450998.jpg[/thumbnail]

Непосредственно связанная с BigData тема - это контекстный поиск строк в сверхбольших объёмах текстовых данных (4 тома "Война и мир"

) - для классификации текстов, составления словарей и т.д.
Это становится возможным с применением новых алгоритмов поиска, появившиеся за последние 20 лет.
Один из самых интересных в этом классе - суффиксные деревья: см. тему суффиксные деревья и поиск в строке.

Очень и очень интересно!
Вот что пишет в своей группе Телеграм Олег Гороховский, один из 3-х учредителей нового и очень успешного онлайн-банка Монобанк:

ОГо! [29.01.19 10:22]
Кухня кредитных решений
(получилось немного сложновато и длинновато, но так как я обещал ей поделиться, публикую. Не судите строго. Тема очень непростая)

Управление кредитным портфелем состоит из двух больших блоков:
Блок 1 - правильно оценить клиента в момент регистрации с точки зрения рисковости, доходности для банка и платежеспособности. На этом этапе Банк знает минимум информации о клиенте, поэтому этот этап очень важен.
Блок 2 - управление кредитным лимитом, по мере пользования клиентом картой и накопления поведенческой истории. На этом этапе Банк уже знает поведенческие характеристики использования карты, что наиболее точно характеризует клиента и дает возможность намного точнее управлять рисками и доходностью.

Блок 1 - оценка рисков в момент регистрации клиента

В момент первого обращения клиента большинство Банков обычно анализируют заявочную анкету, которую клиент заполняет самостоятельно и кредитную историю.

У нас же заявочная анкета становится все менее значимой и ее перекрывает множество других показателей, которые мы запрашиваем во время заполнения клиентом анкеты, таких как: информация из открытых источников (например, реестры нотариусов/адвокатов/судей, реестры доходов по госслужащим, реестры алиментщиков, судимостей, недействительных паспортов, транспортные средства, парсинги объявлений и тд), данные из ЕГР о частных предпринимателях, данные из двух кредитных бюро УБКИ (Украинское Бюро Кредитных Историй) и ПВБКИ (Первое Всеукраинское Бюро Кредитных Историй), скоринги мобильных операторов Киевстара и Водафона, скоринг транзакционных данных Айбокс Компании.
Если ранее пол и возраст были самыми предикативными параметрами, то теперь пол совсем не попадает в итоговые рисковые модели, а возраст опустился на последние места по значимости.

Наши модели анализируют, как быстро клиент заполняет анкету, какой у него телефон или IP и т.д., всего оценивается свыше 2 000 параметров.
Мы построили 17 различных скоринговых моделей, оценивающих клиентов со всех возможных сторон - риск дефолта, платежеспособность, вероятность фрода, доходность.
В моделях используются разнообразные алгоритмы - начиная от логистической регрессии и заканчивая градиентным бустингом, графовой аналитикой и нейронными сетями. Например, для оценки платежеспособности используются квантильная регрессия, которая позволяет регулировать смещение прогноза в большую либо меньшую сторону. Для анализа фото клиента используются нейронные сети. Для заявочных рисковых моделей используется градиентный бустинг (machine learning, ML), который основан на деревьях решений. Деревья решений - это по сути, сегментация, поэтому выделение сегментов и подсегментов происходит автоматически при построении моделей. C помощью алгоритма “случайный лес” используются модели для определения достаточно ли нам данных о клиенте, либо мы хотим запросить дополнительную информацию о нем во внешних платных источниках (с целью минимизации расходов) либо в виде дополнительных вопросов в заявочной анкете. Для достижения лучших результатов в построении моделей мы используем байесовские методы по оптимизации и подбору гиперпараметров.

Анализ 2000 показателей о клиенте на старте может показаться нереальным, но только в одном кредитном отчете УБКИ (Украинское Бюро Кредитных Историй) содержится более 400 различных показателей, которые преобразовываются в предикторы.

Блок 2 - управление кредитным лимитом

После выдачи карты с кредитным лимитом включаются уже поведенческие скоринговые модели:
- молодой скоринг, который в течение первых 60-ти дней в он-лайне анализирует все транзакции клиента/частоту и характер использования
- поведенческая скоринговая модель, который классифицирует клиента согласно его платежной истории по карте за более длительный период (рассчитывается раз в месяц)
- модель доходности клиента
- модель платежеспособности
Данные модели говорят, кому и на сколько можно поднять лимит, либо наоборот, нужно понизить.

На старте, как правило, мы даем небольшой кредитный лимит и управляем им в зависимости от поведения клиента.
За счет Блока 1 мы получаем в среднем 46% прироста кредитного портфеля, а за счет Блока 2 - 54%. По мере роста количества клиентов вклад Блока 2 растет и на вызревшем портфеле может достигать 70-80%.

Класс?

Olej писал(а):Непосредственно связанная с BigData тема

Ещё одна тема, связанная с бигдата, причём пригодная для прямого непосредственного применения на ваших наборах данных - это Модели классификаторов.
Там в теме есть непосредственные примеры применения, и показано как применять на разнообразных наборах данных из разных областей знаний. вы можете уже завтра начать строить и применять свои собственные модели к данным.

Google предоставил (не знаю как давно) облачный классификатор Vision AI (грубый перевод мой):

Google Cloud предлагает два продукта компьютерного зрения, которые используют машинное обучение, чтобы помочь вам понять ваши изображения с лучшей в отрасли точностью прогнозирования.

AutoML Vision
Автоматизируйте обучение ваших собственных моделей машинного обучения. Просто загружайте изображения и обучайте пользовательским моделям изображений с помощью простого в использовании графического интерфейса AutoML Vision; оптимизировать ваши модели по точности, задержке и размеру; и экспортируйте их в ваше приложение в облаке или в массив устройств на периферии.

Vision API
API Google Cloud Vision предлагает мощные предварительно обученные модели машинного обучения с помощью API REST и RPC. Назначьте метки изображениям и быстро классифицируйте их по миллионам предварительно определенных категорий. Обнаружение объектов и лиц, чтение печатного и рукописного текста и создание ценных метаданных в вашем каталоге изображений.

На каких-то маленьких объёмах обработки использование - бесплатно, что-то типа:

0–1000 images/month

На больших - начинается не очень значительная оплата за пользование.

Linux-ru

Big Data

Big Data

Re: Big Data

Re: Big Data

Re: Big Data

Re: Big Data

Re: Big Data

Re: Big Data

Re: Big Data

Re: Big Data

Re: Big Data

Кто сейчас на конференции