Хроники лаборатории |
Предъявите частоту. | (← 13 ноя 2008г, 15:51 →) |
У каждого дела - запах особый... Тьфу, то есть я хотел сказать, у каждого человека свой письменный стиль, свой словарный запас, соответственно своя частота употребления тех или иных слов и букв. Но если словарный запас в блогах разных людей мне лень анализировать, то частотную картину по буквам представить довольно легко. Я взял три своих записи и три записи другого блоггера, и построил немножко графиков: Слева направо на каждой диаграмме: кучка знаков препинания, английский алфавит, русский алфавит. Можно заметить, что вообще в осмысленном русском тексте частотная картина примерно одинаковая, но есть некоторые штрихи, которые могут придать индивидуальность. На графиках выше, если присмотреться, можно заметить эти особенности. При определенной доле фантазии можно объявить, что дневники со схожими частотными характеристиками имеют схожих по мышлению хозяев. Исходя из этих соображений, я попробовал найти записи, коррелирующие на 98 и более процентов с моими. Но сначала из-за ошибки в коде я нашел гнездо англоязычных спамеров. А потом нашел пару знакомых, которых и так читаю. А потом... В общем, пока ничего путного еще не придумал. Зато после того, как объяснил Сами Знаете Кому, как я отловил новых спамеров, на Одном Блогосервисе по ошибке оказались удаленными десяток сообществ - видимо, ввиду малого количества текста характеристики записей жутко выбивались из стандартной характеристики осмысленного текста и были приняты за спам. Надо еще подпилить напильником скрипт по автоматическому поиску дружеского разума в Интернете, авось что-нибудь путное все же выйдет из затеи...
| RSS HTML рубрики: приемчики | |
|
Случайные записи впридачу: Источник угрозы. (это я так шучу) Периферийная память. (жизненное) Это касается каждого. Одноклассники и ссылки в ICQ и MSN. (опасный Интернет)
|
Ohana_safo (13 ноя 2008г, 13:49) []
любопытно узнать, что же ты еще сканируешь и исследушь, пока мы тут жужжим... :))) |
Optical Race (13 ноя 2008г, 14:14) []
Очень интересная идея!
Анализ текстов по частоте букв используется, в первую очередь, в криптографии. Именно таким образом программа-дешифратор может, подбирая ключи, установить, какой из них правильный.
Но это только что касается отличий осмысленного текста от бессмысленного набора букв. Есть еще такое понятие, как "авторознавческая экспертиза", задача которой - установить, например, были ли два текста написаны одним и тем же автором, или является ли указанное лицо автором некоего текста.
Похожие методы используются. Там, конечно, не только частота букв анализируется, но и лексикон, стилистические особенности. Некоторые исследования в этой области и вовсе не могут проводиться компьютерами, так как вопросы и ответы на них не формулируются четко, а эксперт действует скорее интуитивно, чем по алгоритму.
Так что, если хочешь подойти к делу действительно профессионально - поинтересуйся методами авторознавческой экспертизы! |
dandr (13 ноя 2008г, 14:15) Комментарий к Предъявите частоту. []
V_exeR, определённая логика есть... Будешь оформлять "поиск братьев по разуму" как приложение ЛиРу? PS Направляющих только не хватает. |
Optical Race (13 ноя 2008г, 14:17) []
Прошу прощения, ошибся в терминах. Правильно это называется "АВТОРОВЕДЧЕСКАЯ ЭКСПЕРТИЗА". Просто с термином я изначально познакомился на украинском языке и перевел на русский чисто по интуиции, не сверяясь со словарем терминов |
LinuxGirl (13 ноя 2008г, 16:02) []
|
детишко (13 ноя 2008г, 17:09) []
o_O одни эмоции)) |
ALEXRUS (13 ноя 2008г, 17:41) []
Вот это да) |
V.exeR (13 ноя 2008г, 17:51) []
Ohana_safo: а что придет в голову, то и исследую И, как видишь, делюсь своими изысканиями, мне не жалко. Optical_Race: такой глобальной задачи у меня не стояло. Я искал какой-то оптимальный вариант, который и работать будет шустро, и как можно точнее результат давать. Пока не очень получается... Не совсем то, что хочется. dandr: нет, как приложение оно слишком навороченное, сыроватое и ресурсоемкое. Но в перспективе - может быть. А про какие ты направляющие?.. детишко: положительные или наоборот?.. ALEXRUS: ничего, что я тебя тут как пример привёл? |
dandr (14 ноя 2008г, 07:35) Ответ в V_exeR; Предъявите частоту. []
Исходное сообщение V_exeR: А про какие ты направляющие?.. V_exeR, для графиков. Разделить знаки препинания и алфавиты. Если в массы пустишь, конечно. |
детишко (14 ноя 2008г, 07:39) []
положительные)))) прям можно приложение сделать "тест на ... совместимость" ну, вместо ... подобрать подходящее определение)) |
Flashr (14 ноя 2008г, 08:11) []
В жж один товарищь долго развлекался тем что анализировал последие 25 постов блогеров по RSS выдаче. Также сравнивал их посты с библейскими записями, с писателями , друг с другов, и т.д. Но никакой математической подоплеки под этим нет, все это простая рулетка по типу тупых гороскопов, как ты знаешь. |
Lurk (14 ноя 2008г, 09:49) []
Ого. Интересная тема. Все таки нужно нам с тобой пива попить |
V.exeR (14 ноя 2008г, 10:04) []
|
Lurk (14 ноя 2008г, 10:07) []
Ответ на комментарий V_exeR: Прям, вот так вот сегодня, и в Гоголь? Компания будет, и выпить, и поговорить. |
Optical Race (14 ноя 2008г, 11:09) []
Flashr, вовсе не рулетка. Есть вполне надежные математические методы получения информации об авторе, подвергая сочиненный им текст всевозможным анализам. V_exeR, даже когда глобальной задачи не стоит - все равно полезно обратиться к теории! Тогда, вместо слепого блуждания, ты получишь конкретные указки, что можно сделать чтобы из текста извлечь информацию об авторе. Некоторые методы будут посложнее, другие попроще - вот ты и реализуй в первую очередь те, что попроще! Заодно из теории получишь оценку, на что способен каждый из методов, какова его сила. |
Flashr (14 ноя 2008г, 11:24) []
Optical_Race, во-первых, я и сам развлекался таким анализом, при этом анализируя не последние 25постов, а вообще все посты автора. Во-вторых, примерно 10% блогера - это копипасты других постов, чужих идей. И 20% всех постов блогохостингов - это посты виртуалов и рекламщиков. |
V.exeR (15 ноя 2008г, 09:53) []
Flashr: В этом плане мне с собой сравнивать остальных все-таки проще - у меня в блоге чужого нет в принципе |
Larisa_from_SPB (17 ноя 2008г, 12:13) интересно []
так можно строить графики совместимости, можно использовать в коммерческих целях -на сайтах знакомств и вообще полезная штука. |
dandr (17 ноя 2008г, 12:24) Ответ в V_exeR; Предъявите частоту. []
|
Flashr (17 ноя 2008г, 12:52) []
Larisa_from_SPB, графики совместимости на сайтах знакомств успешно работают и по такой формуле - random(a)+random(b)/random(a+b). dandr, А кто сказал, что блогхостинг не есть сайт знакомств? Вот на лиру же есть знакомтсва. Осталось только приложение написать и поместить в общий каталог =) |
RiIzZi (20 ноя 2008г, 00:00) []
Любопытно. Возьму к себе. Спасибо |
|
Оставлять комментарии могут только имеющие свой ЖЖ-, ЛИру-аккаунт или еще какой openID (как так?). |
|