Регистрация

Можно ли доверять оценкам в AppStore?

3
0
141 0
Аудио Текст
28 ноября 2012

Может ли разработчик слепо доверять звездочкам, которых удостоилось его приложение в AppStore? Или все-таки стоит глубоко вникнуть в смысл текстов в отзывах? О том, почему оценки и отзывы — это не одно и то же, Наилю Байкову рассказал сооснователь и партнер компании Empatika Байрам Аннаков.

Из передачи вы узнаете:
— почему не следует слепо доверять оценкам в AppStore;
— в чем заключается методика тестирования ревью;
— что такое сентимент-анализ;
— почему в исследованиях отзывов телу ревью присваивается вес 75%, а заголовку 25%;
— каков алгоритм работы классификатора App in Air и классификатора из библиотеки NLTK;
— в чем причина того, что около трети пользователей пишут ревью, не соответствующее по эмоциональной окраске выставленной ими оценке;
— какой полюс — завышенный или заниженный — демонстрирует наибольшее расхождение между эмоциональной и формальной оценкой;
— как влияет характер приложения (игры, бизнес-приложения) на критичность оценки;
— верна ли гипотеза о том, что пользователи, заплатившие деньги за приложение, будут ругать его чаще, если их что-то не устраивает;
— какие практические плоды может принести мониторинг ревью и пользовательских настроений;
— какие инструменты автоматического мониторинга ревью позволяют делать корректные выводы из соотношения формальной оценки и содержательной части;
— как работать с пользовательскими мнениями;
— и многое другое.

Наиль Байков: Здравствуйте, уважаемые зрители! Это программа «Бизнес online», в студии Наиль Байков. В одной из прошлых передач мы беседовали о том, как же правильно продвигать мобильные приложения в AppStore. Сегодня мы хотим продолжить эту тему и поговорим, наверное, об одном из главных практических аспектов этого продвижения, а именно о пользовательских оценках. И в этом мне любезно согласился помочь основатель и партнер компании Empatika Байрам Аннаков.

Байрам Аннаков, основатель и партнер компании Empatika.
Родился в 1983 году в городе Ашхабад.
В 2006 году окончил МГУ им. Ломоносова и МГТУ им. Баумана.
С 2003 по 2008 год работал в компании VDI, где прошел путь от младшего разработчика до старшего руководителя проектов.
В 2009 году основал компанию Empatika.

Н. Б.: Байрам, еще раз приветствую тебя в студии!
Байрам Аннаков: Приветствую!
Н. Б.: Существует утверждение — ну, это не утверждение, а, наверное, факт, — что пользовательские оценки и частота скачиваний, или, как ты любишь говорить, даунлоадов, — это один из критериев попадания в топ-25 AppStore. В октябре 2012 года ты на одном из известных ресурсов опубликовал пост «Почему не следует доверять оценкам в AppStore?». Ну, пост был удален, кто знает, тот знает, не будем говорить, где это было размещено. Давай зададим вектор, градус нашего разговора: почему же, на твой взгляд, не стоит доверять оценкам?
Б. А.: Потому что они берутся тогда, когда того хочет разработчик, а не пользователь чаще всего. Очень многие приложения встраивают внутрь так называемый operator, который после некоторого времени, а чаще всего после удачного опыта использования приложения выскакивает и говорит: «По нашим данным, тебе нравится наше приложение, ты уже сделал 50 чекинов, не хочешь ли оценить нас в AppStore?» Юзер в благодарность жмет, его перебрасывает в AppStore, и там он рейтингует приложение. Это первая часть. Вторая часть сводится к тому, что подчас оценка, которую люди поставили, и содержание комментария, который они дали, расходятся между собой. И, ориентируясь только на количественный показатель оценки, можно неправильно воспринять фидбек. Как в русском языке конструкция «Ну да, конечно»; точно так же иногда цифра не соответствует реальности, содержанию. Поэтому очень важно смотреть еще и в содержание ревью, особенно когда у вас их тысячи.
Н. Б.: В своем исследовании вы утверждали, что проанализировали практически 500 тыс. ревью. Можно вот узнать, какие приложения, какие ревью вы тестировали?
Б. А.: Мы взяли топ-10 приложений, причем не из AppStore, а самые популярные, начиная с YouTube и заканчивая Path. И в итоге у них порядка полумиллиона ревью в сумме: у некоторых — 60 тыс., у некоторых — 100 тыс. с чем-то. И мы прогнали их через наш анализатор. Мы в свое время разработали систему, которая анализирует контент чего угодно и раскладывает его: «Это позитивный», «Это негативный». Получились интересные результаты. Сначала мы опубликовали это на TechCrunch, через три дня вышла статья, которая вызвала очень большой интерес, а потом мои ребята, которые и сделали все это исследование, сказали: «Давай для российской аудитории тоже сделаем это доступным, переведем на русский язык и опубликуем на „Хабре”». Ну, мы это сделали, но…
Н. Б.: Вот ты только что назвал, но не страшно.
Б. А.: И админ и модераторы посчитали, что мы там много пиарились, хотя, учитывая, что я не собираюсь этот движок продавать или еще что-либо, я не понимаю, зачем мне было пиариться. Это был, по сути, перевод статьи с TechCrunch, пусть с большим техническим и математическим аппаратом. Я знаю, насколько адекватна аудитория «Хабра», и они могли бы нам посоветовать что-то. Мы даже закончили статью, в отличие от версии для TechCrunch, открытыми вопросами и просто приглашением: «Ребята, кто хочет тоже проанализировать или хочет получить доступ к исходным данным, напишите нам, мы готовы сотрудничать». Потому что я знаю по себе: как только массив данных делаешь доступным максимальному количеству тех, кто хочет анализировать, могут получаться реально интересные выводы. И мы это хотели сделать, но нас не поняли. Ничего страшного.
Н. Б.: Но ситуация все, критична? Нельзя там все как-то восстановить?
Б. А.: Можно. Мы и написали. Аккаунт, наверное, восстановят, но, поскольку я человек принципиальный, я просто зарекся: пока «Хабр» меня не попросит, я больше туда постить не буду ничего.
Н. Б.: Хорошо. Расскажи, пожалуйста, нашим зрителям, что такое сентимент-анализ.
Б. А.: Сентимент-анализ — это как раз анализ контента, какого-то текстового контента, с определением того, негативный он или позитивный.
Н. Б.: То есть его тональности?
Б. А.: Да, тональности, эмоциональной окраски. Хорошо, если там есть смайлики. Но чаще всего нужно анализировать последовательности слов, например «lack of Wi-Fi in this airport», типа «Wi-Fi нет в аэропорту». Именно последовательность «lack of Wi-Fi» говорит в пользу негативной стороны: мол, чего-то не хватает. Точность оценок на уровне 80% считается очень хорошим показателем, чего мы смогли добиться.

Н. Б.: А почему вы в своем исследовании присвоили вес практически в 75% телу ревью и 25% оставили заголовку?
Б. А.: Потому что чаще всего именно в содержании вся соль, «мясо», скажем так, и догадки, которые нужны разработчику.

Могут писать: «Верните старые приложения YouTube»; это самый популярный комментарий был среди встречающихся в разных отзывах. Но, поскольку мы люди немножко наученные, мы попробовали и с равными весами, и с перевесом, и без учета. Все равно наши выводы остаются верными при любом сочетании.
Н. Б.: Каков алгоритм работы классификатора App in Air и классификатора из библиотеки NLTK?
Б. А.: Самая распространенная библиотека — NLTK, и все зависит не от алгоритмов, а от того, на какой выборке натренирован алгоритм. Грубо говоря, алгоритм натренировали распознавать эмоциональную окраску отзывов по фильмам. У каждой бизнес-области есть свои фразочки, свои слова, поэтому нельзя тупо брать и переносить алгоритм, натренированный на одной бизнес-области, в другую. Чаще всего будут ошибки. Поэтому мы сначала прогнали на NLTK, а потом натренировали на своей выборке, чтобы она была более адекватна той бизнес-области, которую мы анализируем. Это как робот, которому говорят: «Если встречаются вот такие последовательности слов, то, скорее всего, это с такой-то вероятностью негативный».
Н. Б.: Байрам, а в чем, на твой взгляд, причина того, что около трети пользователей пишет ревью, не соответствующие по эмоциональному окрасу выставленной ими оценке?
Б. А.: Это на самом деле только гипотезы, никто не знает наверняка. Первая гипотеза: человек в целом благодарен за приложение, и оно ему в целом понравилось, и это он выражает в своей оценке. Но ему, может, не понравилась какая-то функция, ему не хватает какой-то функции или еще что-то, и в таком случае он это все дописывает как раз в содержании. Он же понимает, что это тоже некоторая оценка разработчика, и очень мало юзеров-паразитов. Чаще всего это адекватные люди, которые дают фидбек, и они не хотят ставить плохую оценку, но хотят донести, что им нужно. Поэтому, думаю, большинство не коррелирует то, что пишет в теле, с тем, какую оценку ставит самому приложению.
Н. Б.: Байрам, а как влияет характер приложения: игры, бизнес-приложения, — на критичность оценки? Но, прежде чем ты ответишь, мы выслушаем комментарий Александра Васильева, руководителя проекта Apps4All.
Александр Васильев: Придираются на самом деле одинаково ко всем, и на категории это не влияет. Надо отдать должное, все-таки глас народа работает в этом плане: когда у приложения миллионная аудитория, сумма его отзывов, комментариев его пользователей представляет собой как количественную, так и качественную критику. Послушайте недавнее интервью Марка Цукерберга на TechCrunch — он Полу Грэму, основателю Y Combinator, давал интервью буквально на прошлой неделе; он интересно говорит о том, что надо смотреть на комментарии пользователей, на рейтинги как количественно, так и качественно, надо проводить аналитику разумную, очень внимательно относиться к комментариям, потому что всегда надо помнить, что если даже люди написали что-то плохое, значит, они сделали некоторую работу ради фидбека для твоего продукта, и из этого надо уметь извлечь опыт, а если они сказали что-то хорошее, это вдвойне отлично.
Н. Б.: Прокомментируй. Все-таки количественное тоже влияет!
Б. А.: Вы знаете, я другого эксперта процитирую. Гуру управления Питер Друкер, или Дракер, говорил, что управлять нужно по тому, что не согласуется. Когда у вас количественные оценки, вы увидите симптом, но никогда не поймете, в чем проблема. Именно в качественном анализе, в комментах, «в мясе», как я это называю, и содержится самая соль. Мне кажется тоже, что не придираются: наш анализ показывал, что нет какой-то завышенной или заниженной оценки в категориях, кроме как, я сказал, больше девяти баксов. Но все правильно, все верно, Цукерберг в этом плане очень даже прав.
Н. Б.: А какой полюс, Байрам, завышенный или заниженный, демонстрирует наибольшее расхождение между эмоциональным фоном и окрасом?
Б. А.: Вот между эмоциональным нет такого явного полюса.

Интересно, что 95% пользователей в целом склонно оставлять завышенную, положительную оценку, четыре или пять.

И это иногда связано как раз с механизмом, в соответствии с которым вас просят оставить оценку, когда уже уверены, что вы поставите хорошую.
Н. Б.: Когда человек вкусил приложение, когда оно ему понравилось, то на — оставь, пожалуйста!
Б. А.: Да, именно так! Так делают все приложения: они или по дням, или по количеству запусков делают и т. д. Это может сильно сдвигать реальность. Кроме того, люди хотят выразить какую-то благодарность за приложение, может быть. Есть нюанс: мы же взяли десять очень популярных приложений, известных и хороших, высшего качества, и мы думали сначала, что это так, но потом перепроверили по всей выборке разные типы приложений, на самом деле не подтвердилось. Ну а сначала думали, что, может быть, все потому, что мы в изначальную выборку взяли только топовые приложения. Нет. Скорее всего, это зависит от того, когда у пользователя спрашивают, как он относится к приложению.
Н. Б.: А влияет ли, и если да, то как параметр платности и бесплатности на критичность оценки?

Б. А.: Мы проверили: есть сильный взлет по количеству позитивных ревью в приложениях, которые стоят больше девяти баксов.

Может быть, потому, что они действительно адекватные, очень хорошие. Может быть, потому, что у людей есть психологическое свойство не ругать то, за что они заплатили приличные деньги. Ну, например, я никогда не буду ругать свое образование, потому что я выложил n штук за это образование. Вот 1$, бесплатные — там примерно среднее равно.
Если внимательно почитать, например, форумы независимых разработчиков и проблемы, с которыми они сталкиваются, вы можете у многих увидеть, что есть большая проблема с психологической ценой 0,99$, которую Джобс нам установил. Вы только подумаете: ваше приложение стоит 1$; вы можете делать его полгода, а оно стоит 1$. Сколько сейчас софт нормальный стоит, который делается по полгода-год? Ну, хотя бы десять баксов, я думаю. И есть эта проблема. На что жалуются в Индии разработчики? На то, что люди недооценивают. Они купили за 0,99$, и они думают, что это сразу должно быть суперприложение. Или бесплатно, не дай бог, скачали, а потом что-то недополучили и начинали ругаться. Это же тоже неправильно. Более того, учитывая механизм AppStore, вы даже ничего не можете сказать этим юзерам, потому что вы не можете их найти. Вот такой парадокс.
Н. Б.: В предыдущей передаче ты нам рассказывал о неких секретных методах, о том, как все-таки можно вычислить человека, который написал тот или иной отзыв, комментарий, и, может быть, связаться с ним и поговорить. Ты в том числе рекомендуешь мониторить ревью, пользовательские настроения. Какие плоды может принести мониторинг?

Б. А.: В дополнение к ревью в AppStore нужно в приложение встроить свою систему обратной связи.

Надо дать возможность человеку свой негатив слить вам на e-mail, а не в оценку в AppStore. Ну, например, у вас случился краш, так пусть он напишет вам, а не в AppStore, что крашнулось приложение. Более того, это потом помогает. Вот у нас несколько раз так было: вы получаете e-mail человека, вы связываетесь с ним, вы поясняете, что он что-то недопонял или еще что-то, и он меняет ревью. Вот у меня был случай, когда он говорит: «Сначала я единичку поставил, потом со мной связался CEO, мы с ним поговорили, я понял, что я кое-что недопонял, теперь я меняю все ревью, но специально пишу все это, чтобы другие понимали». Вот, имея свою систему, можно перевернуть оценку. Второй практический ход: самое интересное лежит в комментариях. Кто напряжется и напишет комментарий в четыре предложения в AppStore, выйдя из самого приложения? Или тот, кто реально что-то полезное вам тащит, или отморозок. Ну, берем тех, которые реально дают, и вы можете найти там адекватные вещи по тому, куда улучшать свое приложение. И если кто-то задумается только о разработке, то сделайте такой анализ по конкурентам; мы делали.
Н. Б.: Вот-вот-вот.
Б. А.: С чего началось это исследование, кстати? С того, что мы хотели проанализировать наших конкурентов, то, что не нравится юзерам в их приложениях, и это отразить у себя в дискрипшене. Поэтому надо анализировать конкурентов: что пишут про них и где можно выиграть и обойти их.
Н. Б.: А существуют ли какие-то инструменты автоматического мониторинга?
Б. А.: Автоматического как раз таки нет, есть готовые сервисы, которые позволяют просто мониторить, читать все по очереди, среднее количество смотреть, среднее по стране, по дням и т. д., типа Distimo, appFigures и иже с ними. Но таких, которые анализировали бы контент, пока нет, хотя я думаю, что такие будут появляться, в том числе у таких грандов сервисов, потому что, имея сто с чем-то тысяч ревью, невозможно адекватно составить… Я думаю, на b2c-уровне тоже будет, потому что юзеры будут хотеть. Неохота все ревью читать, как иногда с отелем: выбираешь на Booking.com, смотришь среднее, но все равно хочется понять в среднем, что хорошо, что плохо; этого нет. Вот такой быстрый контент-анализ маркерно говорил бы, что хорошо, а что плохо. Мы такое сделали по аэропортам США, кстати, и там очень интересная картинка получается. Анализ конкурентов — для создания новых приложений и чтобы понять, как улучшить свое приложение.
Н. Б.: Ну и, наверное, в завершение, Байрам, скажи, пожалуйста, как грамотно и эффективно работать с пользователями вообще?
Б. А.: Проработав несколько лет в очень близкой к саппорту должности, я понял кое-что.

Первое: любой человек готов изменить мнение о продукте после общения и после понимания, после взаимоотношений.

Чаще всего человеку нужно внимание. Как в ресторане, когда он начинает ругаться, ему нужно просто, чтобы менеджер или директор ресторана вышел, поговорил и желательно еще тортик подарил. Поэтому внимание, а для этого — обратная связь внутри приложения. Второе: не циклиться на оценках, а читать, что пишут, на что ругаются и как это зависит от страны. Потому что, например, у нас, в UK много ругаются, а в США нет. Мы находили, что флайты, часть функционала, плохо работают для этих пользователей. Третье: понимать, что, как кто-то из известных сказал, «слушай пользователей и программируй». Вот две мантры, которые нужно исполнять: слушать пользователей и программировать. Больше ничего не нужно!
Н. Б.: Спасибо большое, Байрам! Обращусь к нашим зрителям: дорогие друзья, да, нужно учиться на чужих ошибках. Сегодня Байрам вам прекрасно рассказал о том, чего не следует допускать, как правильно сегодня работать в продвижении мобильных приложений и работать с пользовательскими мнениями. Байрам, большое тебе спасибо!
Б. А.: Спасибо вам!
Н. Б.: Надеюсь, мы еще не раз увидимся в студии, ты расскажешь нам о каких-то других немаловажных аспектах развития мобильных приложений. Спасибо тебе большое. Дорогие друзья, оставайтесь с нами на канале. До новых встреч, пока!

Развернуть текстовую версию
Комментарии
Похожие видео