Ссылка для цитирования: Нигматуллина К.Р., Бодрунова С.С. Методика качественного анализа дискуссий в Twitter // Медиаскоп. 2017. Вып. 1. Режим доступа: http://www.mediascope.ru/2293
© Нигматуллина Камилла Ренатовна
кандидат политических наук, доцент кафедры периодической печати Санкт-Петербургского государственного университета (г. Санкт-Петербург, Россия), k.nigmatulina@spbu.ru
© Бодрунова Светлана Сергеевна
доктор политических наук, профессор кафедры медиаменеджмента Санкт-Петербургского государственного университета (г. Санкт-Петербург, Россия), s.bodrunova@spbu.ru
Аннотация
Автор рассматривает подходы к исследованию дискуссий в социальных медиа на примере Twitter и описывает методику качественного анализа сетевых дискуссий на площадке сервиса микроблогов. Методика опирается на теоретические предпосылки теории социальных сетей и теории конфликтного дискурса, а также на результаты пилотных исследований коллектива научного проекта «"Кривое зеркало" конфликта: роль сетевых дискуссий в репрезентации и динамике этнополитических конфликтов в России и за рубежом»1.
Ключевые слова: социальные сети, качественный анализ, политическая мобилизация, этнополитический конфликт, онлайн-дискуссии.
Введение
Дискуссии в социальных сетях как объект исследования имеют серьезную историю в рамках междисциплинарных проектов. Количественному и качественному анализу подвергаются в большей степени такие платформы, как Facebook и Twitter, в силу своей распространенности в мире и глобальной значимости как агентов формирования политической повестки в Интернете. Наработана инструментальная база в области сбора и компьютерной обработки сообщений, однако тема качественной интерпретации политически окрашенных сообщений в социальных сетях еще требует пристального внимания.
В рамках исследования «"Кривое зеркало" конфликта: роль сетевых дискуссий в репрезентации и динамике этнополитических конфликтов в России и за рубежом» основной целью стало выявление того, как отражается ценностная стратификация современных обществ в сетевых дискуссиях и как это, в свою очередь, связано с особенностями политической мобилизации во время социального конфликта (на примере этнополитического конфликта). В связи с этим была поставлена задача проследить соотношения в цепочке «ценностная стратификация – сетевая дискуссия – политическая мобилизация». Поиск отношений внутри этой структуры ведется на пересечении исследовательских полей социологии, политологии, коммуникативистики и лингвистики.
Исследования Twitter как площадки для сетевых дискуссий
Распространение сообщений в социальных сетях представляет собой совокупность следующих параметров: канал распространения и его особенности, субъект (пользователь сети), адресат (пользователь или группа пользователей), характер коммуникации, цель сообщения, потенциал к развитию дискуссии в Сети (и возможность предсказать «длину» этого развития), конфликтогенность и ценностные основания (поляризация) дискуссии, последствия дискуссии в виде конкретной поведенческой реакции пользователей (мобилизация или нейтрализация). Все эти параметры в равной степени подлежат качественному анализу.
Особенности Twitter как площадки для сетевых дискуссий (микроблогов) исследуются с момента его создания в 2006 г. Уже в 2008 г. стал очевиден мобилизационный и дискуссионный потенциал сервиса микроблогов, когда пользователи распространяли сообщения о пожарах в Калифорнии или президентских выборах в США. С 2009 г. сервис начал использоваться СМИ как дополнительный источник информации и, в первую очередь, видео с места событий. Первые исследования Twitter были опубликованы уже через год после его создания и с самого начала были направлены на изучение связей между пользователями, их статусных ролей и вовлечение в дискуссию (Java, Song, Finin, Tseng, 2007).
Также исследователи (Hermida, 2010: 305) выявили двойственную природу Twitter, позволявшего делать перепост сообщений: это и обмен данными, и своеобразная форма диалога. Такая распределенная дискуссия (distributed conversation) позволяет пользователям быть в курсе событий, не будучи их активной стороной. Кроме того Twitter стал восприниматься не только как система оповещения, но и как новый тип интерактивности и социальных связей, когда репост сообщения означает как обмен данными, так и публичное выражение эмоции. Например, копирование сообщений о смерти известного человека является коллективным выражением горя и т.п. Впоследствии эта особенность закрепилась в использовании хэштэгов (hashtags), то есть меток сообщений, с помощью которых также стало возможно выражение публичной позиции (например, JeSuisCharlie и подобные).
Свое десятилетие социальная сеть встретила 320 млн пользователей и 500 млн сообщений ежедневно2, а также статусом мобилизационной площадки для революций во всем мире. В настоящее время у концепции политической мобилизации с помощью Twitter есть как сторонники, так и противники (Ильичева, 2013). Вместе с тем обе стороны признают, что социальные медиа, не являясь непосредственной причиной и стороной конфликта, сопровождают и отражают социально-политическую напряженность в конкретном обществе. Российские исследователи Twitter чаще всего относятся к группе сторонников идеи политической мобилизации в социальных сетях. Подтверждают подобное мнение и зарубежные исследователи российской интернет-аудитории, например авторы исследования «Твиттер и российский протест. Мемы, сети и мобилизация», проведенного в 2012 г. Центром изучения Интернета и общества (рук. – С.А. Грин). Исследование также дополнило проект Mapping Russian Twitter (Berkman Center for Internet &Society, Harvard University, 2012).
Для анализа дискуссионного потенциала твитов также важен такой показатель, как длина жизненного цикла сообщения. Исследователи (Чижик, 2014: 341) выделяют длинный и короткий циклы, которые соответственно равны трем неделям после появления информационного повода в СМИ и нескольким дням. При этом цикл напрямую зависит от качества самого повода; длинным циклам подвержены информационные поводы, которые транслируют СМИ, а коротким – сообщения из жизни самих пользователей.
До сих пор в оценке «виральности» твитов, то есть их способности к распространению в Сети, использовались в основном количественные показатели: зависимость от длины твита, наличия хэштега или картинки (Kupavski, Ostroumova, Umnov, Usachev et al., 2012). В настоящее время появляются исследования, использующие эмоциональную окраску сообщения как индикатор виральности. Например, немецкие исследователи нашли связь между негативностью комментария при ретвитинге и интенсивностью распространения изначального сообщения (Jenders, Kasneci, Naumann, 2013).
Методологические подходы к анализу социальных сетей и блогов
Исследователи Интернета в количественном анализе опираются на социологическую теорию социальных сетей, математическим базисом которой является теория графов (дискретная математика). Основные категории анализа социальных сетей используются и при анализе виртуальных сообществ – узлы и группы узлов, централизация, кластеризация, связность и другие. Для описания конкретной сети важны такие параметры, как плотность, исходящая и входящая центральность, центральность по близости и по посредничеству (Hogan, 2008). Основные статистики социальной сети: Nodes (количество узлов сети – индивидов), Edges (количество ребер сети), Average Degree (cреднее количество связей), Network Diameter (диаметр сети), Modularity (модулярность), Number of Communities (количество сообществ), Weakly Connected Components (количество слабо связанных компонент сети), Average Clustering Coefficient (средний коэффициент кластеризации сети), Average Path length (средняя длина пути в сети) (Лысенко, Давыдов, 2011).
Исследователь Twitter Аксель Брунс (2012) сформулировал три возможных подхода к анализу виртуальной социальной сети: 1) паттерны активности в течение определенного времени; 2) идентификация ключевых участников дискуссии; 3) ключевые темы или упоминаемые персоны. На основе этих данных возможно развитие анализа в следующих направлениях: анализ паттернов ретвитинга или анализ неключевых участников дискуссии, которые являются своеобразными информационными узлами для интенсивного распространения сообщений (то, что Брунс называет показателем промежуточной центральности – betweenness centrality – вслед за социологом Фриманом (1977), который предложил показатель «центральности узла» − сет, который равен числу кратчайших путей из всех вершин ко всем остальным, которые проходят через этот узел). Таким образом, часто для эффективности выстраивания дискуссии в Сети важными становятся не столько авторы ключевых сообщений, сколько посредники в их распространении, которые и обеспечивают тесную связь внутри Сети. Есть исследования, демонстрирующие статистическую связь между различными показателями и − в ряде случав − тесную положительную корреляцию между коммуникационной активностью пользователей и их центральностью в сетях «дружбы» (Рыков, 2015).
В то же время «показатель центральности узла» остается количественным показателем, в основе которого лежит математическая формула, а не качественная интерпретация. Исследование канадских ученых также показало, что в большинстве работ, в которых рассматривалась политическая ориентация пользователей Twitter на основе количественных показателей, были допущены преувеличения в среднем на 30% из-за специфики сбора данных и использования классификаторов в разных наборах данных (Cohen, Ruths, 2013).
Еще одним важным показателем в анализе сетевых дискуссий является хэштег (hashtag), маркирующий тему обсуждения и позволяющий автоматически загружать сообщения. Он же и ограничивает исследования, поскольку далеко не все авторы твитов и их ретвитеры публикуют массовые хэштеги или не публикуют их вовсе. Тем не менее анализ таких маркеров позволяет присвоить участникам сетевой дискуссии соответствующие роли: например, информационных источников, лидеров групп, комментаторов, собеседников или скрытых наблюдателей (Axel Bruns, The use of Twitter hashtags…). Использование хэштегов также имеет и символический смысл, поскольку заменяет использование лозунгов на политических митингах (Новикова, 2014). Исследование хэштегов – это отдельный корпус работ, определяющих данный инструмент в качестве значимой составляющей сообщения (см., напр., Hyang, Thornton, Efthimiadis, 2010).
Лаборатория интернет-исследований ВШЭ сформулировала и отработала собственный алгоритм работы с сетевыми дискуссиями, который предполагает сравнительный анализ «спокойных» и «напряженных» периодов Twitter-активности. Собранные твиты исследуются не только автоматическим методом семантического анализа текстов, но и с помощью модели скрытого распределения Дирихле. Полученные данные представляют собой файлы, содержащие топики, то есть связанные по смыслу наборы слов. Качественный анализ сообщений заключается в том, что после получения обобщенных тем (топиков) и привязанного по смыслу к ним набора слов при помощи эксперта происходит сортировка этих топиков по набору слов на «политические» и «не политические». Далее «политические» сообщения кодируются по более узким темам внутри этой группы. Все сообщения также разделяются на две группы, относящиеся к прогосударственной позиции или оппозиции. Для того чтобы определить характер влияния сетевой дискуссии на реальную политическую активность, выстраиваются графики динамики публикации твитов и количества протестов на улицах за один и тот же промежуток времени. Очевидно, что интенсивная сетевая активность наблюдается накануне уличных акций (анонсы) и после них (обсуждение результатов).
Методологические подходы к анализу конфликтных дискуссий
Вместе с растущим количеством исследований Twitter (даже если судить только по работам в США3) отмечается недостаток исследований, которые бы установили связь между ценностной стратификацией общества и сетевой дискуссией. По аналогии с понятием «социальная стратификация» под ценностной стратификацией мы понимаем систему критериев и признаков расслоения общества на основании ценностных ориентаций. Если в рамках социальных категорий виртуальное пространство сглаживает неравенства, то с позиции ценностных категорий сетевые дискуссии способны фиксировать расслоение. Прежде всего, оно выражается в отнесении участников дискуссии к определенным сторонам конфликта. Этнополитический конфликт маркируется с помощью отношения участников дискуссии к определенным этносам и ценностям этих этносов, что требует непосредственного анализа текста на основе выделения ценностно окрашенной лексики.
В моделировании методологии также необходимо воспользоваться теорией конфликтного дискурса, который понимается как амбивалентное речевое взаимодействие собеседников (Белоус, 2008: 15). В рамках теории различают конфликтный текст, то есть языковой материал, и непосредственно конфликтный дискурс как актуализацию этого текста. В приложении этого тезиса к сетевым дискуссиям можно сказать, что через ретвиты оригинального текста, содержащего в себе отнесение к конфликту, происходит актуализация конфликтного дискурса в Twitter. Важным компонентом конфликтного дискурса является консеквент (т.е. последствия речевого конфликта), который выражается в определенных сценариях разрешения конфликта (как созидательного, так и деструктивного). Важно отметить, что этнолингвокультурный фактор (и непосредственно языковой код) оказывает серьезное влияние на ход конфликта, и в то же время его сложно учитывать при анализе дискуссий в Сети, основанных на этнополитических конфликтах и затрагивающих представителей разных культур и языков.
Ценностная стратификация участников дискуссии выражается в итоге в двух переменных – характеристиках пользователей с функциями «лидер мнений» и «узловой посредник» и характере распространяемых ими сообщений. Далее полученные данные необходимо соотнести с данными социологических исследований, посвященных ценностной поляризации в обществе. На пересечении появляются ключевые категории, отражающие ценностное расслоение по поводу этнополитического или − шире − социального конфликта. Они же демонстрируют потенциал к ретвитингу сообщений, то есть такие переходные точки, после которых сообщение/идея начинает распространяться молниеносно. В то же время узловые участники дискуссии демонстрируют границы конфликтующих социальных групп (Guerra, Meira, Cardie, Kleinberg, 2013).
Авторская методика исследования сетевых дискуссий в Twitter
Основой авторской методики являются предыдущие наработки участников исследования. В частности, для преодоления ограничений, связанных с использованием API, была создана технология веб-краулинга с предзаданным словарем (Blekanov, Sergeev, Martynenko, 2012). Словарь составляется на основе хэштегов, собранных вручную по итогам мониторинга Twitter и отфильтрованных по частоте использования (по методу «снежного кома»). Методика выборки и выгрузки твитов подробно описана на примере одного из кейсов исследования (Bodrunova, Blekanov, Maksimov, 2016). Также в рамках пилотных исследований разработан и апробирован специализированный веб-краулер с обобщенным ядром, используемый для создания веб-графа дискуссий и загрузки коллекций текстовых документов с сетевых платформ.
Количественные методы обычно включают кодирование выборок текстов пользователей и статистическую обработку результатов (описательная статистика, регрессионный анализ), работу с частотными словарями онлайн-обсуждений, оценку метрик веб-графов и временных графов дискуссий и др. Кодировка сообщений включает в себя следующие параметры: 1) группа характеристик источника сообщения (институциональный тип источника, тип источника в публичной сфере, коммуникативный статус, статус источника по характеру включенности в инцидент, статус источника по степени близости к сторонам конфликта), 2) группа характеристик сообщения (характер − информационный статус сообщения, направленность сообщения и цитатность, содержание – тематика, упоминаемые субъекты), 3) характеристики дискурса (окраска, темпоральная ориентация, оценочность), 4) категории фрейминга (вина/ответственность, воспринимаемая география конфликта, воспринимаемая сила разрешения конфликта), 5) наличие внешнего контента (тип внешнего источника).
Качественные методы включают ситуационный анализ, интерпретативное чтение, структурно-функциональный анализ веб-графов, сопоставительный и сравнительный анализ различных элементов полученных данных.
Выборка твитов для качественного анализа строится на основе следующих параметров: позиции автора в дискуссии и характера самих сообщений. Сначала происходит отбор ключевых 10 аккаунтов, которые отражены в веб-графе – здесь оказываются инфлюэнсеры и промежуточные лидеры, количественными параметрами значимости которых являются размер узла и плотность связей.
Второй параметр – характеристика сообщений отобранных авторов (аккаунтов) – определяется популярностью конкретных сообщений (лайки, ретвиты). Из группы самых популярных выбираются 10−15 ключевых сообщений, в которых содержалась авторская оценка и непосредственно оценочная лексика. При определении такой лексики необходимо руководствоваться заранее составленным частотным словарем: а) оценочных слов, б) этнических групп. Полученный список лексики представляет собой набор триггеров, то есть таких «спусковых» механизмов дискуссии, которые провоцируют столкновение позиций. Для анализа развития дискуссионного поля важна хронологическая последовательность твитов и их развитие во времени, включая количественные показатели вроде длины сообщения.
Триггеры – это и есть маркеры основных категорий речевого конфликта. Далее проводится сопоставление этих категорий со списком хэштегов для поиска совпадений. Сами категории далее интерпретируются методом лингвистического анализа с позиций аксиологического подхода, то есть с учетом ценностного контекста (политического, религиозного, культурного) и вариативности значений в этих контекстах. Отдельная работа связана с интерпретацией ненормативной, сниженной и разговорной лексики, а также невербальных способов экспрессии (символов, смайлов, иллюстраций).
Наличие конфликта обусловлено как минимум двумя разнонаправленными ветками дискуссий, одинаково полярных в своей радикализации. Универсального маркера конфликта в данном случае не существует, поскольку каждый отдельный кейс опирается на собственные триггеры дискуссий. Таким образом, результатом анализа становятся специфические словари каждой из сторон дискуссии/речевого конфликта и схематические наименования этих сторон, которые включают в себя отнесение к групповым ценностям, теме и позиции (например, «радикальные либералы» – «права человека в России» – «мигранты не являются источником угрозы»).
Анализ дискуссии заканчивается в тот момент, когда присутствие найденных категорий-триггеров стремится к нулю, а конфликт закончился одним из возможных коммуникативных сценариев. В среднем наиболее интенсивным периодом в жизненном цикле сообщения является неделя после информационного повода, однако новый виток дискуссии всегда может быть спровоцирован актуализацией повода. В данном случае важно определить, есть ли в возрожденной дискуссии приращение смыслов по сравнению с предыдущей волной (использование новых оценочных слов, формирование новых смысловых ветвей речевого конфликта). Окончание конфликта может обозначаться либо временной, либо полной нейтрализацией (в связи с новым возникшим обстоятельством).
Результат такого анализа выглядит как реконструированная модель сетевой дискуссии с учетом ключевых акторов, тематики, хронологии, категорий и сценариев развития конфликта. Эта модель не только описывает состоявшийся речевой конфликт в Сети, но и позволяет спрогнозировать потенциальный конфликт на основе мониторинга выявленных аккаунтов и триггеров.
Исследование ценностной стратификации через картину, представленную в сообщениях в Twitter, заключается в сопоставлении отношений к ключевым ценностным категориям, зафиксированных в социологических и медиаисследованиях. То есть речевые конфликты в социальных сетях частично презентуют латентные этнополитические конфликты в обществе, выражение которых в Twitter указывает на «вершину айсберга».
Вместе с тем следует понимать, что репрезентация ценностной стратификации в Twitter – это небольшая часть картины взаимосвязи сетевых дискуссий и политической мобилизации, особенно в российском контексте. Исследовательская группа планирует расширить поле и включить другие платформы сетевых дискуссий в эмпирическую базу, в частности Facebook.
Заключение
Создание авторской методики качественного анализа социальных сетей базируется на объединении, с одной стороны, теории социальных сетей и теории конфликтного дискурса, а с другой – на частных методах социологии, лингвистики, коммуникативистики, политологии, психологии.
Основой такого анализа становится лингвистический анализ и реконструкция паттернов коммуникации и модели сетевой дискуссии. Результатом исследования является описание характера связи между социально-ценностной стратификацией общества, характеристиками сетевых дискуссий и последующим политическим поведением граждан; описание ролевого комплекса коммуникативных платформ в этнополитическом конфликте, выявление факторов радикализации и гармонизации этноориентированной сетевой дискуссии − в отношении к пикам политической мобилизации.
Сравнительный анализ паттернов коммуникации в рамках сетевых дискуссий на примере кейсов разных стран позволяет выделить общие и характерные признаки для распознавания этнополитического конфликта вне зависимости от лингвокультурного фактора.
Примечания
Библиография
Белоус Н.А. Конфликтный дискурс в коммуникативном пространстве: семантические и прагматические аспекты: автореф. дис. … д-ра филол. наук. Краснодар, 2008.
Ильичева Ю.А. Мобилизационные технологии: сущность, предпосылки возникновения, основные инструменты и средства // Медиаскоп. 2013. Вып. 2. Режим доступа: http://www.mediascope.ru/node/1335
Лысенко М.В., Давыдов А.А. Египетская революция в Твиттере − безмасштабная сеть? // Экономика. Социология. Менеджмент. 2011. Сент., 28. Режим доступа: http://ecsocman.hse.ru/data/2011/09/28/1267204317/Twitter_Social_Network.pdf
Новикова С.А. Российские хэштеги микроблога «Твиттер» как политико-идентификационный маркер // Социум и власть. 2014. № 5(49). С. 20–26.
Рыков Ю. Г. Сетевое неравенство и структура онлайн-сообществ // Журнал социологии и социальной антропологии. 2015. Т. XVIII. № 4. С. 144−156.
Чижик А.В. Социолингвистическое исследование некоторых тенденций публикации постов в русскоязычном Twitter // Новые информационные технологии в автоматизированных системах. 2014. № 17. С. 337−346. Режим доступа: http://cyberleninka.ru/article/n/sotsiolingvisticheskoe-issledovanie-nekotoryh-tendentsiy-publikatsii-postov-v-russkoyazychnom-twitter
Blekanov I.S., Sergeev S.L., Martynenko I.A. (2012) Constructing topic-oriented web-crawlers with generalized core. Scientific and research bulletin of St. Petersburg Polytechnic University 5(157): 9−15.
Bodrunova S., Blekanov I., Maksimov A. (2016) Measuring Influencers in Twitter ad-hoc Discussions: Active Users vs. Internal Networks in the Discourse on Biryuliovo Bashings in 2013. In: Proceeding of the AINL FRUCT 2016 conference. Режим доступа: http://ainlconf.ru/2016/materials
Bruns A., Burgess J. (2012) Researching news discussion on Twitter: New methodologies. Journalism Studies 13(5−6): 801–814. Режим доступа: http://cs.wellesley.edu/~trails/retweetpapers/papers/NewsDiscussion.pdf
Cohen R., Ruths D. (2013) Classifying Political Orientation on Twitter: It's Not Easy! In: Proceedings of the Seventh International AAAI Conference on Weblogs and Social Media. Режим доступа: http://www.aaai.org/ocs/index.php/ICWSM/ICWSM13/paper/viewFile/6128/6347
Freeman, Linton (1977). A set of measures of centrality based on betweenness. Sociometry 40: 35–41.
Hermida A. (2010) Twittering the news: The emergence of ambient journalism. Journalism Practice 4 (3): 297−308.
Hogan B. (2008) Analyzing social networks via the Internet. In: The Sage handbook of online research methods. Thousand Oaks, CA: Sage, pp. 141–160.
Huang, J., Thornton, K.M., Efthimiadis, E.N. Conversational Tagging in Twitter. In: Hypertext 2010: 21st ACM Conference on Hypertext and Hypermedia, June 13–16, 2010. Toronto, Ontario, Canada, pp. 173–178. Режим доступа: http://jeffhuang.com/Final_TwitterTagging_HT10.pdf
Guerra P.H. C., Meira Jr.W., Cardie C., Kleinberg R. A Measure of Polarization on Social Media Networks Based on Community Boundaries. In: The Seventh International AAAI Conference on Weblogs and Social Media, 11 July, 2013. Cambridge, Massachusetts. Режим доступа: http://www.cs.cornell.edu/home/cardie/papers/ICWSM13-Polarization.pdf
Java A., Song X., Finin T., Tseng B. Why We Twitter: Understanding Microblogging Usage and Communities. In: Procedings of the Joint 9th WEBKDD and 1st SNA-KDD Workshop 2007. Режим доступа: http://ebiquity.umbc.edu/_file_directory_/papers/369.pdf
Jenders M., Kasneci G., Naumann F. (2013) Analyzing and predicting viral tweets. In: Proceedings of the 22nd International Conference on World Wide Web. Режим доступа: http://www2013.org/companion/p657.pdf
Kupavskii A., Ostroumova L., Umnov A., Usachev S. et al. Prediction of Retweet Cascade Size over Time. In: Proceedings of the 21st ACM international conference on Information and knowledge management,October 29–November 2, 2012. Maui, HI, USA. Режим доступа: http://kupavskii.com/wp-content/uploads/2016/07/2012-Kupavskii-et-al-Prediction-of-retweet-cascades.pdf