Як Foursquare допомагає планувати міста

Ми поспілкувались з Дмитром Карамшуком — випускником ФІОТ, який вивчав аналіз даних в італійському університеті IMT Lucca. Поговорили про те, як робиться наука в Європі, як великі дані змінюють наше розуміння світу, а соцмережі та смартфони допомагають планувати міста, моніторити стан нашого здоров’я та прогнозувати поширення епідемій.

Ти був співзасновником доволі успішної компанії Stanfy, тим не менше, залишив бізнес заради науки. Чому? Адже зараз набагато частіше можна побачити випадки, коли молоді талановиті науковці навпаки жертвують науковою кар’єрою заради бізнесу.

Це особистий вибір кожного. Безперечно є всім відомі приклади Ларрі Пейджа, Сергія Бріна, Джері Янга, проте я зустрічав багато прикладів, коли люди повертались в науку після того як займались бізнесом або працювали в індустрії і робили чудові наукові кар’єри. Головне, щоб був драйв робити те, що робиш саме зараз і не боятись все змінювати, якщо стає некомфортно або менш цікаво.

Який досвід з бізнесу знадобився тобі в науці?

Науковець на заході має багато спільного з підприємцем. Так само як і підприємець, він завжди в пошуку інвестицій та фінансування, так само треба вміти себе презентувати, продавати. Бренд в науці — чи то ім’я науковця, групи, інституту чи проекту — потребує розкрутки, презентації, просування, публікацій і конференцій не менш, ніж бренд комерційний.

Так, тут можна згадати про експеримент американських психологів, які розіслали вже опубліковані статті відомих вчених в різні наукові журнали, але підписали їх іменами вигаданих науковців з невідомих університетів. В результаті майже всі роботи були відхилені, навіть тими журналами, які їх раніше друкували.

Схоже на перебільшення, проте доля правди тут є. Щоб опублікувати свої досягнення на престижній конференції, треба мати неабиякий хист презентації. Дуже важливо описати свої результати таким чином, щоб комісія з багатьох тисяч дуже якісних робіт обрала для публікації саме твою. Безумовно, рецензент, що читає текст, також зверне увагу на ім’я та публікації авторів. Тому студенти, що лише починають свою наукову кар’єру, мають бути вдвічі переконливішими, а також покладатись на авторитет своїх керівників-співавторів.

Взагалі, коли я починав аспірантуру, я уявляв процес дослідження так: ти закриваєшся на рік в лабораторії і робиш експерименти, поки, раптом, якщо тобі дуже пощастить, не відкриваєш якийсь новий бозон Хіггса. Насправді це зовсім не так. Все відбувається маленькими кроками, маленькими відкриттями і лише в спілкуванні, у взаємодії з іншими дослідниками з інших спеціальностей та груп на конференціях, семінарах та інших заходах. Якщо проаналізувати кар’єри успішних науковців, то стане зрозуміло, що багато в чому вони кращі завдяки своїм PR-здібностям, своєму вмінню якісно і цікаво презентувати свій результат. Так що в академії багато чого спільного з бізнесом.

Мабуть, тому ти відгукнувся на запрошення організаторів TEDxKyiv? Щоб прокачати свій особистий бренд?

Насправді я сам запропонував свою кандидатуру організаторам. Це був дуже цікавий експеримент для мене. TED Talks — це дуже виразна форма донесення ідей з вузького кола спеціалістів до широкого загалу. Я помітив, що проекти, над якими ми працюємо в університетах, можуть бути цікавими за їх межами, проте мова наукових статей занадто формальна та вимагає певного рівня технічної підготовки. Ідея TED полягає саме в тому, щоб пояснити ядерну фізику на пальцах і зробити з цього захоплюючу історію. Захотілося спробувати себе в ролі євангеліста. В результаті отримав дуже цікавий досвід і суттєво переглянув свій підхід до презентацій на семінарах та конференціях взагалі. Дуже вдячний за це організаторам TEDxKyiv, які працювали зі мною протягом декількох місяців. І взагалі подія вийшла дуже яскрава.

Дмитро Карамшук на TEDxKyiv. Фото: TEDxKyiv

Розкажи детальніше про свою мотивацію. Що саме привело тебе в науку?

Це складне запитання і, мабуть, краще я на нього зможу відповісти тільки через пару років. Кожна людина в певний момент може відчути, що займається чимось не тим, що є речі, які їй більш цікаві, що в її житті немає драйву. Тоді треба щось змінювати. Багато хто не може відважитись на цей крок — а треба. Треба знайти в собі сили вийти із зони комфорту.

Як ти потрапив на аспірантуру в Італію? Чому не пішов на аспірантуру в КПІ?

В певний момент я вирішив закінчити аспірантуру в Європі. Тоді я не мав жодної гадки, як це робиться, не мав жодних контактів і за кілька років роботи після університету забув, як взагалі виглядає математика. Почав працювати по всім напрямкам — потроху згадувати формули, переглядати актуальні теми в науці, найняв репетитора з англійської. Крім того, шукав на сайтах європейських університетів, яким чином туди можна потрапити. Виявилось, що можливостей потрапити туди дуже багато: персональні гранти, програми обміну, численні конкурси та стипендії. Звісно, треба було пройти через відбори, через кілька невдалих спроб, щоб зрозуміти весь процес. Та врешті-решт мені знадобилось близько шести місяців, щоб отримати місце в аспірантурі італійського університету IMT Lucca.

IMT Lucca. Фото: 

Чому не КПІ? Те, яким чином фінансується і робиться наука в Україні порівняно із Західною Європою — це два зовсім різних світи. Хоча підготовка студентів в КПІ до цих пір залишається на досить високому рівні. Тому випускник ФІОТ по підготовці буде себе дуже комфортно почувати серед аспірантів, наприклад, Кембріджу.

Який предмет твоїх досліджень? Що саме ти вивчаєш?

Я вивчаю поведінку людей в містах: яким чином люди пересуваються по місту, які місця в місті стають популярними для відвідування і чому саме це відбувається, яким чином люди фізично контактують і як ця інформація може бути використана для прогнозування епідемій чи побудови комунікаційних мереж між персональними телефонами і комп’ютерами користувачів. Зокрема, в своєму дослідженні я використовую великі масиви інформації про місцезнаходження людей в місті з геолокаційних мереж, таких як Foursquare і Gowalla.

Пульс міста: візуалізація чекінів за добу в Нью-Йорку та Токіо від Foursquare

Взагалі, зараз ми можемо спостерігати дуже цікаве явище: соціальні мережі, і в тому числі геолокаційні сервіси, які розроблялись більше як інструмент комунікації або просто для розваги, стають неймовірно масштабним джерелом унікальної інформації про поведінку мільйонів людей, якою вони самі добровільно діляться в інтернеті. Аналіз цієї інформації є дуже потужним інструментом не лише для фундаментальних досліджень, а й для прикладних задач, таких як проектування транспорту, аналіз суспільної думки, виявлення та координація надзвичайних ситуацій тощо.

З фундаментальної точки зору я займався моделюванням дієздатності децентралізованих мобільних мереж, де інформація розповсюджується виключно через бездротові контакти (наприклад, Bluetooth) між мобільними телефонами користувачів (при відсутності чи при небажанні використовувати мобільні оператори). Зокрема, ми моделювали мобільність людей в місті, щоб оцінити затримки при розповсюдженні повідомлень в таких системах та швидкість розповсюдження інформації взагалі. Дані з геолокаційних сервісів дозволили нам відкалібрувати модель для більш чіткого відображення реальної поведінки користувачів мобільних телефонів в місті.

З прикладної точки зору я аналізував потоки людей між окремими закладами та цілими районами міста, знову ж таки використовуючи дані з геолокаційних мереж. Зокрема, ми розробили модель передбачення потоків людей до закладів та, як наслідок, їх популярності, якщо такі будуть розташовані в певному районі місця. Порівнюючи поведінку користувачів геолокаційних мереж в різних точках міста, ми можемо досить чітко спрогнозувати, де саме заклад буде найбільш популярним. До речі, це дослідження ми проводили у Кембриджі, куди я їздив на півроку.

Чорні точки — це пости в Foursquare. В центрі круга радіусом 200 метрів знаходиться «Старбакс»

А який практичний результат твоїх досліджень? Чи допомогли вони реально планувати якесь місто?

Є різні типи досліджень. Є фундаментальна наука, яка не дає прямої практичної користі, проте створює можливість для інших вчених щось зрозуміти і врешті-решт принести якусь користь суспільству. Наприклад, закони Ньютона — це фундаментальні закони, на яких потім була побудована механіка і багато практичних речей. Є дослідження більш практичні — ті, які вже через три-п’ять років можуть стати технологією. Вони в свою чергу базуються на фундаментальних речах.

Я займався трохи і тим, і іншим. Думаю, деякі алгоритми, які я розробляв, можна використовувати вже зараз в плануванні міст.

Які інструменти (технології та обладнання) використовуєш в роботі? Маю на увазі конкретні алгоритми, мови програмування, софт, обчислювальні ресурси (суперкомп’ютери/GRID-системи etc). Використовуєш технології типу Hadoop (питання від читачів)?

Для подібного аналізу необхідні певні математичні та технологічні інструменти. З точки зору математики я використовую алгоритми машиного навчання, імплементації яких зараз можна знайти безкоштовно в open source бібліотеках для багатьох мов програмування. Наприклад, для Java це бібліотеки Weka, RankLib, Lenskit, Mahout тощо. Є й безліч бібліотек для Python, R та інших мов.

З точки зору обчислювальних ресурсів — в усіх інститутах, де я працював, були свої сервери з десятками ядер та гігантськими RAM. Для тих об’ємів даних, котрими займався я (таблиці з сотнями мільйонів записів), цього було більше ніж достатньо. MapReduce та його імплементацію в Hadoop на Amazon Elastic MapReduce або Google AppEngine можна розглядати як дешеву заміну серверам, коли таких серверів просто немає або їх потужностей недостатньо. В принципі, кожен студент КПІ при бажанні може собі дозволити погратись з кількома десятками серверів на Amazon Elastic MapReduce навіть зі своєї стипендії.

Наскільки високі вимоги до знання програмування? Чи можна вивчати data mining, не будучи висококласним програмістом?

Знання програмування безперечно потрібні, проте необов’язково мати диплом ІТшника. Наприклад, багато з моїх колег-економістів, фізиків і т.д. змогли вивчити Python чи R. Так само з математикою та алгоритмами: загальне уявлення важливо мати, проте, чи вдаватись в деталі функціонування алгоритму, чи використовувати його як «чорну скриньку» — індивідуальний вибір кожного.

Взагалі, питання, що головніше — алгоритми або знання предметної області — це дуже актуальне питання зараз в data science спільноті. Наприклад, є сайт Kaggle.com, на якому в data mining змагаються спеціалісти з різних областей науки та технологій. Так от, в змагання в рівній мірі виграють як спеціалісти з добрим знанням domain knowledge, так і алгоритмісти, для яких будь-які дані — це лише набір одиниць та нулів. Так що остаточну відповідь на це запитання ми отримаємо ще не скоро.

Впевнений, що при бажанні кожен може вивчити основи data science та почати використовувати data mining в своїй справі. До речі, в інтернеті повно безкоштовних онлайн-курсів з аналізу даних від кращих викладачів планети, наприклад на тій же Coursera.

Ще одне питання від читачів: як вважаєш, чи існує на даний час повноцінна альтернатива супутниковим навігаційним системам як засобу забезпечення геолокаційною інформацією?

З задачею outdoor localization, я думаю, супутникова система досить непогано справляється. А от з indoor localization, коли потрібно визначити місцеположення людини всередині великої будівлі (аеропорт, супермаркет, тощо) та ще й в умовах, коли використання додаткового обладнання є неможливим, все набагато цікавіше. На мій погляд, indoor localization є однією з найцікавіших інженерних задач в мобільних технологіях. Є неймовірно захоплюючі розробки від вчених в цьому напрямку: системи, що використовують сигнали від Wi-Fi маршрутизаторів, схеми будівлі, аналіз історії, обмін даними між парами мобільних пристроїв, тощо. Також є й реалізації від великих компаній, наприклад, Гугл запустив пілотні проекти в декількох американських аеропортах. Проте в цьому напрямку є ще велетенський простір для відкриттів.

Big Data став настільки популярним трендом в ІТ за останні кілька років, що вже з’явилось немало публікацій на кшталт «Big Data Is Overrated», «Why Your Company Doesn’t Need Big Data», «Myths About Big Data» і т.п. Як вважаєш, наскільки корисним може бути аналіз великих даних? Чого від нього можна чекати, а в чому він переоцінений?

Я впевнений, що Big Data — це величезний крок в розвитку ІТ, рівнозначний появі Internet, Web 2.0 та смартфонів. Безумовно, як це траплялось і з попередніми технологіями, Big Data не завжди дають очікуваний результат — часом через невміле використання, інколи через неякісні дані. Головне те, що дані, які сьогодні накопичуються за години лише в одному місці на планеті, за об’ємом рівноцінні всім даним, що накопичувались століттями до цього в усьому світі. І тому несуть в собі потенціал відкриттів, рівноцінний відкриттям усіх минулих століть.

Які застосування data mining вважаєш найперспективнішими?

Звісно, серйозні глобальні проблеми, як пошук ліків від раку або вирішення проблем зі зміною клімату, завжди захоплюють більше всього. Проте кожен маленький досвід, кожне відкриття та опублікована стаття не менш важлива для розвитку науки в цілому.

Можеш виділити напрями, пов’язані із аналізом соціальних даних? Який практичний толк можна отримати, аналізуючи дані мільйонів користувачів соцмереж? Просто найочевидніше застовування — маркетологічне (тартегинг, рекомендації  товарів і т.д.) — насправді, як би це сказати, не надто висока ціль.

Відповідь на питання, чому все відбувається саме так, лежить на поверхні: за цими використаннями стоять великі гроші. Один з відомих вчених нещодавно на великій конференції з аналізу даних сказав, що наша проблема зараз в тому, що кращі уми планети займаються тим, щоб продавати побільше реклами та продуктів: “The best minds of my generation are thinking about how to make people click ads. That sucks.”

Звісно ж, користь від цих даних набагато більша, ніж реклама та рекомендації. Це дуже добре розуміють західні спецслужби. Якщо поглянути на спонсорів Strata Сonference (це найкрутіша data science конференція) — там фігурує CIA, які залюбки переймають досвід.

Наприклад, проект Livehoods має на меті визначити реальні практичні кордони районів міста, аналізуючи дані з Foursquare. Вони анонсували, що до їх результатів вже прислухаються місцеві влади, щоб краще проектувати місто. В українських реаліях це звісно ж звучить трохи футуристично, проте я думаю, що через 2-5 років це може бути цілком реальним.

Райони Нью-Йорка на Livehoods.org

Інший приклад — проект Emotion Sense, який збирає інформацію про самопочуття людей в містах. Він може допомогти міським начальникам розібратись, в яких районах міста люди себе почувають краще чи гірше і чому саме це відбувається.

В принципі, задачі, які можна розв’язувати за допомогою аналізу даних з соціальних мереж, мабуть, обмежуються лише уявою. За допомогою одних лише геолокаційних сервісів можна проектувати навантаження транспорту, найоптимальніше розташування приймалень державних установ (те, що ми робимо зараз для мереж фастфудів, можна буде так само застосувати до інших типів установ через кілька років, треба лише зачекати, щоб проникнення цих сервісів вийшло хоча б на теперішній рівень в західних країнах), прогнозувати росповсюдження епідемій в місті і шляхів їх подолання (також дуже активний напрямок зараз з дуже цікавими результами) і безліч іншого.

Ніколас Крістакіс про те, як соціальні мережі допомагають прогнозувати поширення епідемій

Які ще галузі ІТ тебе цікавлять як науковця?

Якщо говорити про мобільні технології, то дуже цікавою темою є mobile sensing — використання всіх сенсорів мобільних телефонів для опису фізичного стану людини та світу, що її оточує. Наприклад, лише один мікрофон в телефоні може бути використаний для безлічі задач: від визначення того, як часто людина спілкується з іншими, коли знаходиться в транспорті, коли відпочиває вдома, до виміру об’єму легенів та діагностування астми чи пневмонії. Так само акселерометр, що лежить в кишені велосипедиста чи водія машини, може розповісти про якість доріг, а сканування доступних точок Wi-Fi може допомогти орієнтуватись в просторі.

Які у тебе плани після закінчення аспірантури? Чи збираєшся повернутись в Україну? В КПІ? В бізнес? Чи будеш продовжувати наукову діяльність?

Наразі закінчив аспірантуру. Тепер продовжую дослідження в Лондоні. Думаю, ще якийсь час буду займатись наукою, а там подивимось. З Україною намагаюсь підтримувати зв’язки.

Що тобі дало навчання в КПІ?

Дало дуже добру базу. Рівень фундаментальної підготовки був дуже високий — дозволив мені почувати себе дуже комфортно в колі західних науковців. Трохи не вистачало досвіду в написанні наукових статей таким чином, як цього вимагають на Заході. Наприклад, там магістрів часто заохочують писати та подавати статті в журнали та конференції. І взагалі стиль написання наукових текстів в Україні занадто формальний і ускладнений. В світі навпаки ціниться простота в мові і лаконічність.

А які предмети тобі найбільше знадобились в науковій діяльності? Ти закінчив кафедру обчислювальної техніки на відмінно. Як відомо, тут дуже важко вчитись. Що скажеш про навчання тут? Всі «напряги» виявились виправданими? Не жалкуєш, що на щось витратив час дарма?

Навчатись було нелегко — об’єм матеріалу та кількість практичних завдань, які потрібно було виконувати кожного семестру, був дуже великим. Скажімо так, якщо ставитись до всього серйозно, то часу більше ні на що, крім навчання, не вистачало. Базу вкладали нереальну — від того, як електрони рухаються в транзисторах, до того, як проектувати корпоративні системи та всі проміжні рівні. Звісно ж, відсоток того, що з цього я використовую безпосередньо, зараз невеликий. Проте сказати, що жалкую про витрачений час, теж не можу. В певні моменти часу такі фундаментальні знання може якось небезпосередньо та знадобились. Взагалі, коли навчаєшся, краще максимально розширювати свій світогляд в усіх можливих областях, аніж шліфувати свою майстерність в якійсь одній дуже вузькій області. Так що в цілому такий підхід мені подобається.

Що б ти порадив КПІшникам, які хочуть досягнути успіху в бізнесі?

В першу чергу — займатись бізнесом. Ламати стереотипи, менше спілкуватись з тими, хто вам каже, що це неможливо, і більше з тими, на кого ви б хотіли бути схожими через три-п’ять років.

А в науці?

Радив би поїхати в якийсь потужний науковий центр на Заході (чи на Сході — Австралія, Корея) хоча б на деякий час. Це вкрай необхідно, щоб зрозуміти, яким чином все відбувається в світі — не замикати себе в лабораторії, а навпаки — спілкуватись, переймати досвід і співпрацювати.

Тоді останнє. Про що ти ще хотів сказати, але ми тебе не запитали?

Треба ламати шаблони, робити так, як тобі хочеться. Не треба лінуватись — багато чого не відбувається в нашому житті, тому що в певний час ми лінувались. Треба завжди рухатись вперед і підштовхувати себе і своїх оточуючих, щоб не стояти на місці.


Сторінка Дмитра Карамшука на сайті інституту IMT Lucca.

Твіттер Дмитра Карамшука.

Зачем фастфуду «большие данные» — Компьютерра

Foursquare check-ins tell stores where to set up shop — New Scientist

Публікації Дмитра:

D. Karamshuk, A. Noulas, S. Scellato, V. Nicosia, C. Mascolo. Geo-Spotting: Mining Online Location-based Services for Optimal Retail Store Placement. pdf

D. Karamshuk, C. Boldrini, M. Conti, and A. Passarella. SPoT: Representing the Social, Spatial, and Temporal Dimensions of Human Mobility with a Unifying Framework. pdf

comments powered by HyperComments

Андрій Бродецький

Главный редактор и автор текстов.