Главное, чтобы алгоритмы были ясными и относящимися хотя бы каким-то боком к содержанию данных текстов.
Для такого анализа, пацаны, нам нужно определиться с пятью параметрами.
Во-первых, нужна четкая и короткая фиксация поисковой категории (принцип формализации), то есть — вразумительная формулировка вопроса, ответ на который мы ищем.
Мы должны четко представлять себе (а при компьютерной обработке материалов это должна представлять себе и поисковая система), что хотим узнать: дату вступления грузинских отрядов на территорию Абхазии, готовность ростовчан покупать в течение недели исключительно карамель «Ростов-Папа» или степень решительности нового генпрокурора засадить следующего проказливого богатея-губернатора, вдосталь попившего народной кровушки, в тюрягу.
Во-вторых, надо, чтобы материал содержал в себе достаточно информации для анализа (принцип статистической значимости).
При анкетировании тут все всегда в ажуре.
А вот у дипломатов с содержанием информации ситуация — тихий ужас.
Берешь пухлую распечатку двухчасового брифинга — и медленно, но верно сходишь с ума из-за отсутствия там не только нужной тебе информации, но и вообще каких-либо мало-мальски ценных сведений.
В-третьих, надо, чтобы анализ данных, требующих итоговое заключение специалиста, эти специалисты и проводили (принцип компетентности).
Например, нам для рекламы туристических путевок нужно составить по результатам анкетирования психопатологический портрет дурика-клиента, коему легче всего впарить путешествие по пыльным дорогам Афганистана или Ирака.
Так вот, должна делать все это не молоденькая туроператорша, а профессор-психиатр, знающий, куда надо вставлять клизму шизофреникам.
В-четвертых, надо определиться с точностью исследования (принцип погрешности).
Если нам надо вычислить дату Конца Света с точностью до миллиардной доли секунды, то придется задействовать в расчетах все вменяемое население земного шара. А исследования эти продолжаться как раз до самого этого Конца.
И кому тогда, пацаны, будут нужны их результаты?
А вот если мы введем в наш анализ погрешность в плюс-минус миллион лет, то любой гимназист-двоешник за пару минут рассчитает, что Конец Света наступит через 1146 лет 3 месяца и 2 дня. В пятницу. Прямо после показа 666-го по счету римейка неувядающего "Влада Дракулы".
В-пятых, после того, как материал проверен на вшивость, цели сформулированы, погрешности установлены, начальству налито кофе с коньяком, необходимо выбрать соответствующие единицы анализа.
Именно их мы будем считать, именно с их изменениями в разных текстах мы будем составлять диаграммы и графики, именно с ними будут связаны наши бессонные ночи и выкрики "Эврика!" с пахнущей мочой хронического оборотня койки психиатрической лечебницы.
В простейших же случаях, например в наших с вами, дорогие мои, рекламных делах, вообще — можно полностью отдать все компьютерным мозгам, а самим пить виски и танцевать твист в обществе жриц любви.
Тут, правда, необходимо установить единицу счета — количественную меру взаимосвязи текстовых и внетекстовых явлений.
Кроме уже упомянутых в случае с газом чисто подтекстуальных, основанных на нелинейной семантике единиц, есть еще целая куча гораздо более простых и совершенно линейных, рассчитанных на однозначное толкование единиц счета.
Наиболее употребительны единицы счета, связанные с количеством людей и денег, со временем и пространством (число покупателей, газетных строк или площадей в квадратных сантиметрах, читателей журнала, время и продолжительность вещания рекламного ролика и прочая херня).
Тут, пацаны, не так все просто.
Важен выбор необходимых источников, подвергаемых контент-анализу.
Конечно, самое простое — выкрасть нужную информацию из чужого сейфа.
Но столь пошлая вещь не для такой правильной братвы, коей мы с вами, орлы и орлицы, имеем честь являться.
Во-первых, зачастую нужной нам информации нет даже в хранилищах Гохрана.
А во-вторых, из открытых источников сведения получаешь гораздо быстрее, чем из закрытых (таков парадокс современного постиндустриального информационного общества).
При работе с открытыми источниками (периодическая печать, телек и все такое) возникает проблема выборки — на каком количестве сообщений остановится и с какой по какую дату их изучать.