«Скажи мне, кто твой друг — и я скажу тебе, кто ты». Древнегреческий поэт Еврипид сам того не зная еще до нашей эры предсказал использование big data — больших данных. Теперь каждый сам себе пророк и Еврипид: достаточно открыть вкладку «История браузера» и Google Trends. А если думаете, что компьютер и смартфон — ваша персональная крепость, то доступ к поисковым запросам есть у разработчика браузера, расширений и плагинов, провайдера, владельца VPN и других людей. Не волнуйтесь, дивный новый мир Big Data уже настал, и книга «Все лгут» расскажет, как справиться с этим.

Что такое Большие Данные

Давайте спросим у автора книги «Все лгут. Поисковики, Big Data и Интернет знает о вас всё», специалиста Google по Data Science Сета Стивенса о том, что это такое — big data.

Должен признаться: я не собираюсь давать точное определение того, что такое «большие данные»

Упс! Всё дело в критерии, которым определяется размер данных. Выборка из 20 000 наблюдений — много или мало? Зайдем с другой стороны и дадим список особенностей big data:

  • большинство данных собраны из интернета;
  • обрабатываются для определения причинно-следственной связи между событиями;
  • включают в себя набор методов и инструментов обработки полученных данных;
  • для обработки используют специальные программные инструменты (например искусственные нейронные сети или краудсорсинг) — универсального метода не существует;
  • данные могут обновляться ежесекундно;
  • включают разные виды данных — запросы поисковика, «лайки» и «репосты», тэги, месторасположение, история посещений и т.д.

Data mining — способы извлечения информации из большого объема данных.

что такое big data, пример из фильма

Система “Сонар” из фильма “Темный рыцарь” использует каждый смартфон в городе в качестве передатчика данных. Это – возможное развитие идей Big Data.

Реальные кейсы использования Big Data

Как сильно люди увлечены нездоровой пищей?

Кто собрал данные: исследователи из Катара.

Что анализировали: 10 млн фотографий с Instagram с хештегом #foodporn.

Зачем: понять, насколько вредна фетишизация еды.

Итоги: в ТОП действительно попала нездоровая еда — сладкая (шоколад, торты, Nutella) и несладкая (пицца, салат, суши и бургеры). Самым популярным фруктом оказалась клубника, напитками — кофе и вино. Но вот больше «лайков» набрали фото здоровой еды, где дополнительно поставили хештеги #fitgirl, #eatclean и другие. Питаться здорово — модно!

примеры big data это

Пример фото с хештегом #foodporn в инстаграме. Надеемся, что рядом с вами есть кондитерская 😉

Как уменьшить число заключенных?

Кто собрал данные: правительство США с помощью IT-компаний (Amazon, Palantir, Code for America).

Что анализировали: медицинские записи заключенных. Остальные данные пока неизвестны.

Зачем: определить людей, которые не несут угрозы обществу и которых нет смысла держать в тюрьме.

Итоги: работа продолжается.

Как стать президентом США?

Кто собрал данные: Cambridge Analytica.

Что анализировали: персональные данные пользователей из кадастровых списков, бонусных программ, телефонных справочников, газетных подписок и т.д.

Зачем: создать психограммы (личные профили) 220 млн совершеннолетних американцев по «методу океана» и на их основе построить кампанию продвижения кандидата.

Итоги: Дональд Трамп стал президентом США.

Как создать хитовый сериал?

Кто собрал данные: точные исполнители неизвестны, заказчик — Netflix.

Что анализировали: интерес к сериалам среди 33 млн подписчиков сервиса.

Зачем: определить признаки идеального сериала.

Итоги: на основе полученных признаков составили кольцо Венна (диаграма с окружностями, которые пересекаются) и запустили в производство «Карточный домик».

Big data для анализа сериалов

Эта диаграмма Венна – не лучший пример, потому что не включает наших читателей. Что поделать….

Как знать все о своих гражданах?

Кто собрал данные: частные компании по заказу правительства Китая.

Что анализировали: кредитную историю человека, подтвержденность личных данных (адреса, номера телефона и т.п.), поведение и предпочтения.

Зачем: для запуска системы социального кредита доверия в 2020 году.

Итоги: разработана система Sesame Credit, в которой оценивают пользователей по шкале от 350 до 950 баллов. Обладатели высокого рейтинга могут быстро регистрироваться в отелях, брать в аренду автомобили без залога, ускорить получение шенгенской визы. Для тех, у кого низкий рейтинг, штрафов пока нет.

Опасность больших данных

1. В интернете больше нет анонимности и защищенности

Китайский эксперимент с социальным скорингом — только цветочки. Так журналистка Свея Эккерт и ученый Андреас Дьюс провели эксперимент — решили купить базу данных с историями посещений пользователей из Германии. Сайта фейковой маркетинговой компании оказалось достаточно, чтобы одна компания предоставила «маркетологам» (экспериментаторам) бесплатную базу данных с историями посещений 3 миллионов человек за месяц. Данные условно анонимные, но исследователи решили проверить, как установить личность пользователя по истории браузера. Например в раздел (страницу) аналитики в Twitter может войти только владелец аккаунта и его имя появится в адресной строке.

2. Нет этических стандартов и правил сбора и обработки больших данны

Так те же исследователи — Эккерт и Дьюс — нашли расширение для браузера, которое отправляло данные о посещенных сайтах. Вероятно эту возможность прописали мелким шрифтом в Условиях использования, но насколько это этично?

Big data это неэтично

То самое расширения для браузера и одноименный сервис, которые отправляли данные о посещенных сайта. В базу попало около 3 млн юзеров.

3. У систем обработки больших данных нет корректирующего механизма

Большие данные показывают зависимость чего-либо (например, платежеспособности по кредиту) от ряда факторов (например цвета кожи, места проживания или возраста). Но если факторы перестают отображать зависимость, система не изменится автоматически. Об этом уже подумал Amazon, поэтому если продажи «Рекомендованных товаров» для конкретного пользователя падают, они вносят коррективы. А вот обратная ситуация: в некоторых американских штатах работу учителей измеряют по среднему баллу учеников. Эта система «пропускает» тех педагогов, которые работают с трудными детьми в криминогенных районах — даже при хорошем успехе средний балл будет значительно ниже якобы более успешных коллег.

4. Большие данные дают иллюзию, что всё можно измерить

Facebook знает, сколько лайков у каждого поста, сколько раз его «репостили» или кликнули. Но ни один из этих параметров не даст ответа на вопрос «Это смешной пост?». Поэтому Facebook задействовали малые данные — опросы отдельных пользователей о том, почему они хотят увидеть какой-то пост в своей ленте. Насколько успешна такая комбинация? Популярность творения Цукерберга говорит сама за себя.

5. Big Data заражают «болезнью числа размерностей»

«Болезнь» приходит, когда есть много переменных («размерностей»), но нет времени на исследования. Простой пример: был громкий проект «геном человека», с помощью которого можно было собрать и проанализировать ДНК человека. Ученые собирались выявить гены, ответственные за шизофрению, склероз и другие болезни. По идее можно было определить и ген «высокого IQ», и определять вундеркиндов сразу после их рождения. И поначалу казалось, что такой ген нашли — названный учеными IGF2r встречался у студентов с IQ от 160 в 2 раза чаще, чем у студентов с IQ ниже этого уровня. Увы, через несколько лет после первого исследования оказалось, что IGF2r не коррелирует с IQ, а значит не отвечает за гениальность.

В 1277 году Папа Римский Иоан XXI заявил о еретичности «законов природы», ведь они конфликтуют с Божьим всемогуществом. Через несколько месяцев природный закон гравитации доказал свою истинность: на Иоанна XXI рухнула крыша одного из помещений папского дворца. Отрицание законов науки не означает, что они не работают.

Задача любой науки – выяснить, как что-то взаимодействует. О некоторых вещах мы не знаем практически ничего, но они существуют и влияют на жизнь. Большие данные можно воспринимать как магию, происки маркетологов или рабочий инструмент для улучшения жизни. Одно мы знаем точно — игнорировать big data уже не получится. И книга «Все лгут. Поисковики, Big Data и Интернет знают о вас все» — это лучшее тому подтверждение.

Сет Cтивенс-Давидовиц

Все лгут. Поисковики, Big Data и Интернет знают о вас все

Все лгут. Поисковики, Big Data и Интернет знают о вас все

Заказать книгу