Прежде всего система должна поймать само упоминание. То есть уметь следить за состоянием сотен, тысяч, десятков тысяч сайтов и страниц. Желательно в реальном времени. Ведь мало кому интересно узнать, что его уже пару дней «мочат» где-нибудь в Facebook особенно во времена, когда одним твитом можно обвалить акции. Такое лучше выявлять в зародыше.

К примеру, в LOOQME говорят о мониторинге более 38 000 источников. «Каждые 15 минут в базу добавляются около 3825 новостей», делится данными Виталий Сидоренко, CEO компании. Причем, в одной базе собираются и офлайн- и онлайн-медиа.

Елена Шабунина говорит, что в системе Semantrum на сегодня больше 15 000 открытых веб-источников из различных стран, профили лидеров мнений и публичных страниц пяти социальных сетей.

Да, мониторить в современном изложении = забрать к себе. Система копирует на свои сервера содержимое огромного количества разных интернет-страниц: СМИ, форумов, интернет-магазинов, отзовиков, соцсетей. Вероятно, по отдельным сообщениям. Причем, как говорит Всеволод Гаврилюк из SemanticForce, за одно сообщение считается и одна статья, и один комментарий. В доступном индексе, по словам основателя компании, 5 млрд сообщений. Здесь для сбора даже есть отдельный продукт под названием Kindexer. Эта разработка обрабатывает неструктурированные виды медиа, где нет API. API есть, например, у YouTube, поэтому его относительно легко собрать.

В LOOQME данные собирают в MongoDB, в которой все хранится и ничего не меняется. По словам Виталия Сидоренко, интернет-ресурсы парсятся (то бишь копируются и структурируются) напрямую, данные из офлайн-медиа забираются из FTP-серверов, а соцсети по API. Поисковый движок Solr. Он, мол, отлично справляется со сложными запросами.

В YouScan информация собирается через официальные API социальных платформ, а также с помощью собственных технологий сбора данных. Также компания лицензирует часть контента у провайдеров данных, специализирующихся на определенных типах медиа например, онлайн-СМИ.

А как же быть с более традиционными источниками: ТВ, радио, печатной прессой?

В Semantrum объясняют, что эта информация закупается у партнеров. Это уже готовые расшифровки аудио, видео и сканированных копий. Издания приходят, разобранные по статьям. Видео и аудио по смысловым сюжетам.

«То есть пользователь не читает полотно текста часового выпуска новостей видит только тот кусок, внутри которого упоминалась нужная клиенту тема», рассказывает Елена Шабунина.

Оставить комментарий

Your email address will not be published. Required fields are marked *