Работа с данными в любой сфере

Читать онлайн «Работа с данными в любой сфере»


FB2 Читать текст
Год: 2019

Работа с данными в любой сфере
~ 1 ~

Переводчик Д. Шалаева

Научный редактор З. Мамедьяров

Редактор Л. Любавина

Главный редактор С. Турко

Руководитель проекта Л. Разживайкина

Корректоры Е. Аксёнова, М. Смирнова

Компьютерная верстка М. Поташкин

Художественное оформление и макет Ю. Буга

Дизайн обложки Ю. Буга

© Kirill Eremenko, 2018

© This translation of Confident Data Skills is published by arrangement with Kogan Page.

© Издание на русском языке, перевод, оформление. ООО «Альпина Паблишер», 2019

Все права защищены. Данная электронная книга предназначена исключительно для частного использования в личных (некоммерческих) целях. Электронная книга, ее части, фрагменты и элементы, включая текст, изображения и иное, не подлежат копированию и любому другому использованию без разрешения правообладателя. В частности, запрещено такое использование, в результате которого электронная книга, ее часть, фрагмент или элемент станут доступными ограниченному или неопределенному кругу лиц, в том числе посредством сети интернет, независимо от того, будет предоставляться доступ за плату или безвозмездно.

Копирование, воспроизведение и иное использование электронной книги, ее частей, фрагментов и элементов, выходящее за пределы частного использования в личных (некоммерческих) целях, без согласия правообладателя является незаконным и влечет уголовную, административную и гражданскую ответственность.

* * *

Моим родителям,

Александру и Елене Еременко,

которые научили меня самому важному в жизни – быть хорошим человеком


Бонус для читателей

Спасибо, что выбрали эту книгу. Вы сделали огромный шаг на пути в науку о данных.

Получите бесплатный доступ к моему курсу A-Z Data Science. Просто зайдите на сайт www.superdatascience.com/bookbonus и используйте пароль datarockstar.

Удачи в анализе данных!

Введение

«Наверное, вы всегда хотели стать аналитиком данных – с самого детства?»

Мне приятно, что меня об этом спрашивают. Да, я люблю свою работу. Я с большим удовольствием обучаю студентов основам науки о данных. И здорово, что люди, похоже, думают, что энтузиазм по отношению к данному предмету возник во мне еще в молодом возрасте. Но это абсолютно не соответствует действительности. Скажем честно, ни один ребенок не мечтает о том, чтобы стать ученым – аналитиком данных. Дети хотят быть космонавтами. Танцорами. Врачами. Пожарными. И если вы грезите о спасении жизней или о полетах в космическом пространстве, вы вряд ли остановите свой выбор на столь приземленном занятии.

Когда люди спрашивают меня, всегда ли я хотел построить карьеру в области науки о данных, я возвращаюсь к своему детству и вижу маленького русского мальчика, выросшего в Зимбабве. Запах тлеющих углей, брачные вопли африканских красных жаб, незабываемый уют зимнего вечера, кончики пальцев, переворачивающие страницу за страницей сборника историй для детей, – это фрагменты воспоминаний о множестве прекрасных вечеров, когда я слушал русские сказки, которые читала мне мама.

Моя мать хотела, чтобы я, мои братья и сестры любили Зимбабве, но она также заботилась о том, чтобы мы знали свои культурные корни. Она подумала, как наилучшим образом передать нам эту информацию, и решила, что самый действенный способ – сказки. Когда я в конце концов вернулся в Москву – в город, который едва помнил, – то почувствовал, что возвращаюсь домой, благодаря крупицам информации о России, вплетенным в затейливые сюжеты.

Такова сила повествования. И все множество услышанных сказок я хотел разбить на составляющие их компоненты. Мне нужно было увидеть большую картину, но я хотел видеть ее сквозь призму маленьких деталей. Я был очарован каждой частью механизма, создающего что-то настолько прекрасное. Я интуитивно знал: для того чтобы самому рассказать хорошую историю, сначала нужно собрать эти маленькие единицы информации. Именно так сформировалось мое отношение к данным.

В сегодняшнюю цифровую эпоху данные используются для создания историй о том, кто мы такие, как мы себя представляем, что нам нравится и когда мы хотим чего-то. Для того, чтобы проложить тропинку с уникальными виртуальными следами. Машины теперь знают о нас больше, чем мы сами, благодаря всем доступным им данным. Они читают наши личные данные как сборник рассказов о нас. И в науке о данных замечательно то, что любая дисциплина сегодня записывает свои данные, а это значит, что, освоив профессию аналитика данных, мы также можем стать космонавтами, танцорами и врачами, о чем так сильно мечтали.

Мало кто знает, что работать с данными в конечном итоге означает быть рассказчиком, передающим информацию. Так же, как и структурные компоненты историй, проекты по анализу и обработке данных тоже организованы логически. В книге «Работа с данными в любой сфере» четко выделяются пять этапов, которые составляют то, что я называю процессом обработки и анализа данных. Это не единственный подход, который можно использовать, но он обеспечит нашему проекту связь с практикой и продвижение к логическому завершению. И он четко и ясно структурирован, что мне так нравилось в детстве.

И вот я решил рассказать историю данных…

Но я абсолютный новичок

Наука о данных фактически является одной из тех областей, которые извлекают выгоду из опыта других сфер. Я надеюсь, что многие мои читатели уже весьма преуспели в той или иной профессии. Хорошо. Вы ничего не потеряете, если обратитесь к науке о данных, работая в другой области. Отнюдь не вредно для начала разбираться в чем-то еще. Это своего рода фундамент, который вам пригодится, чтобы стать хорошим аналитиком данных.

Начав работать в транснациональной консалтинговой компании Deloitte, я не знал ни одного из алгоритмов, которые мы рассмотрим в этой книге. Да никто от меня этого и не ожидал. Совсем немногие начали свою карьеру с науки о данных. Прочитав книгу, вы обнаружите, что те, кто добился успеха в этой сфере, даже не думали о ней, пока находились в начале своей карьеры. Итак, отбросьте страх перед цифровой неграмотностью – взяв эту книгу, вы сделали первый шаг на пути в мир науки о данных.

Эй, а где код?

Если вы, как и я, пролистываете книгу, прежде чем приступить к чтению, то, возможно, заметили, что вам не встретилось ни одной строки кода. Я слышу, как вы говорите: «Но это ведь книга о науке о данных, так что же происходит?» Наука о данных – чрезвычайно широкий предмет. «Работа с данными в любой сфере» погружает вас в тему и вдохновляет на размышления о том, как эта дисциплина может быть включена в вашу текущую или будущую деловую практику. Вы узнаете методы науки о данных – потому что ее «ингредиенты» (код) легко доступны онлайн. Если воспользоваться аналогией с приготовлением пищи, перед вами в меньшей степени просто книга рецептов и в большей – подробная информация об основных методах, используемых в науке о данных. Изучите их тщательно, и вы начнете интуитивно понимать, почему вам нужно применять определенные коды и методы, – гораздо более эффективный подход к обучению, чем просто предоставление строк кода для подключения к вашему проекту.

Как пользоваться этой книгой

Я написал эту книгу специально для того, чтобы вы могли обратиться к ней, где бы вы ни находились – в поезде, в ванне, в ожидании человека своей мечты. Читайте ее по частям или в один присест, по главам, выбирая самое лучшее, выделяя нужное желтым маркером, наклейками. В начале каждой части вы найдете краткое введение, помогающее быстро определить, какая глава окажется для вас наиболее интересной. Часть первая более объемна, она дает общее представление о науке о данных. Вторая и третья части сосредоточены на процессах анализа и обработки данных, интуиции, стоящей за некоторыми из самых мощных на сегодняшний день аналитических моделей, и на том, как повысить ваши шансы на успех, совершая первые шаги в направлении цели.

Если вы новичок, то получите максимальную отдачу от книги, прочитав ее от корки до корки. Если вы знакомы с наукой о данных как с дисциплиной и хотите добраться до сути того, как применять ее методы, не стесняйтесь обратиться к главе, которая вам больше всего поможет.

Часть первая
«Что это?» Ключевые принципы

Учитывая очевидно безграничный потенциал технических и прикладных наук и связанные с ними широкие возможности для умелых предпринимателей, некоторые могут спросить, почему они вообще должны заниматься наукой о данных – почему бы просто не изучить технологические принципы? В конце концов, технологии управляют миром и не выказывают никаких признаков сдачи позиций. Любой читатель, заботящийся о своей карьере, может подумать, что научиться разрабатывать новые технологии, несомненно, будет наилучшим способом двигаться вперед.


Книгу «Работа с данными в любой сфере», автором которой является Кирилл Еременко, вы можете прочитать в нашей библиотеке с адаптацией в телефоне (iOS и Android). Популярные книги и периодические издания можно читать на сайте онлайн или скачивать в формате fb2, чтобы читать в электронной книге.