Хроники лаборатории
Предъявите частоту.

У каждого дела - запах особый... Тьфу, то есть я хотел сказать, у каждого человека свой письменный стиль, свой словарный запас, соответственно своя частота употребления тех или иных слов и букв. Но если словарный запас в блогах разных людей мне лень анализировать, то частотную картину по буквам представить довольно легко. Я взял три своих записи и три записи другого блоггера, и построил немножко графиков:



V.exeRALEXRUS

Слева направо на каждой диаграмме: кучка знаков препинания, английский алфавит, русский алфавит. Можно заметить, что вообще в осмысленном русском тексте частотная картина примерно одинаковая, но есть некоторые штрихи, которые могут придать индивидуальность. На графиках выше, если присмотреться, можно заметить эти особенности.

При определенной доле фантазии можно объявить, что дневники со схожими частотными характеристиками имеют схожих по мышлению хозяев. Исходя из этих соображений, я попробовал найти записи, коррелирующие на 98 и более процентов с моими. Но сначала из-за ошибки в коде я нашел гнездо англоязычных спамеров. А потом нашел пару знакомых, которых и так читаю. А потом... В общем, пока ничего путного еще не придумал. Зато после того, как объяснил Сами Знаете Кому, как я отловил новых спамеров, на Одном Блогосервисе по ошибке оказались удаленными десяток сообществ - видимо, ввиду малого количества текста характеристики записей жутко выбивались из стандартной характеристики осмысленного текста и были приняты за спам.

Надо еще подпилить напильником скрипт по автоматическому поиску дружеского разума в Интернете, авось что-нибудь путное все же выйдет из затеи...


RSS HTML рубрики: приемчикиjuick twitter facebook вконтакте

Случайные записи впридачу:
Источник угрозы. (это я так шучу)
Периферийная память. (жизненное)
Это касается каждого. Одноклассники и ссылки в ICQ и MSN. (опасный Интернет)

Ohana_safo (13 ноя 2008г, 13:49) [ссылка на комментарий]

любопытно узнать, что же ты еще сканируешь и исследушь, пока мы тут жужжим... :)))
Optical Race (13 ноя 2008г, 14:14) [ссылка на комментарий]

Очень интересная идея!

Анализ текстов по частоте букв используется, в первую очередь, в криптографии. Именно таким образом программа-дешифратор может, подбирая ключи, установить, какой из них правильный.

Но это только что касается отличий осмысленного текста от бессмысленного набора букв. Есть еще такое понятие, как "авторознавческая экспертиза", задача которой - установить, например, были ли два текста написаны одним и тем же автором, или является ли указанное лицо автором некоего текста.

Похожие методы используются. Там, конечно, не только частота букв анализируется, но и лексикон, стилистические особенности. Некоторые исследования в этой области и вовсе не могут проводиться компьютерами, так как вопросы и ответы на них не формулируются четко, а эксперт действует скорее интуитивно, чем по алгоритму.

Так что, если хочешь подойти к делу действительно профессионально - поинтересуйся методами авторознавческой экспертизы!
dandr (13 ноя 2008г, 14:15) Комментарий к Предъявите частоту. [ссылка на комментарий]

V_exeR, определённая логика есть...
Будешь оформлять "поиск братьев по разуму" как приложение ЛиРу?
PS Направляющих только не хватает.
Optical Race (13 ноя 2008г, 14:17) [ссылка на комментарий]

Прошу прощения, ошибся в терминах. Правильно это называется "АВТОРОВЕДЧЕСКАЯ ЭКСПЕРТИЗА". Просто с термином я изначально познакомился на украинском языке и перевел на русский чисто по интуиции, не сверяясь со словарем терминов :)
LinuxGirl (13 ноя 2008г, 16:02) [ссылка на комментарий]

детишко (13 ноя 2008г, 17:09) [ссылка на комментарий]

o_O одни эмоции))
ALEXRUS (13 ноя 2008г, 17:41) [ссылка на комментарий]

Вот это да)
V.exeR (13 ноя 2008г, 17:51) [ссылка на комментарий]

Ohana_safo: а что придет в голову, то и исследую =] И, как видишь, делюсь своими изысканиями, мне не жалко.

Optical_Race: такой глобальной задачи у меня не стояло. Я искал какой-то оптимальный вариант, который и работать будет шустро, и как можно точнее результат давать. Пока не очень получается... Не совсем то, что хочется.

dandr: нет, как приложение оно слишком навороченное, сыроватое и ресурсоемкое. Но в перспективе - может быть. А про какие ты направляющие?..

детишко: положительные или наоборот?..

ALEXRUS: ничего, что я тебя тут как пример привёл? :D
dandr (14 ноя 2008г, 07:35) Ответ в V_exeR; Предъявите частоту. [ссылка на комментарий]

Исходное сообщение V_exeR:
А про какие ты направляющие?..

V_exeR, для графиков. Разделить знаки препинания и алфавиты. Если в массы пустишь, конечно.
детишко (14 ноя 2008г, 07:39) [ссылка на комментарий]

положительные)))) прям можно приложение сделать "тест на ... совместимость"
ну, вместо ... подобрать подходящее определение))
Flashr (14 ноя 2008г, 08:11) [ссылка на комментарий]

В жж один товарищь долго развлекался тем что анализировал последие 25 постов блогеров по RSS выдаче. Также сравнивал их посты с библейскими записями, с писателями , друг с другов, и т.д. Но никакой математической подоплеки под этим нет, все это простая рулетка по типу тупых гороскопов, как ты знаешь.
Lurk (14 ноя 2008г, 09:49) [ссылка на комментарий]

Ого.
Интересная тема. :)
Все таки нужно нам с тобой пива попить :)
V.exeR (14 ноя 2008г, 10:04) [ссылка на комментарий]

Flashr: да знаю я... Но все равно смешно =]

dandr: лень. Мне лично и так все на глаз видно. Даже то, что буква «О» чаще всего используется.

Lurk: в чем же дело? Пошли! :D
Lurk (14 ноя 2008г, 10:07) [ссылка на комментарий]

Ответ на комментарий V_exeR: Прям, вот так вот сегодня, и в Гоголь? Компания будет, и выпить, и поговорить.
Optical Race (14 ноя 2008г, 11:09) [ссылка на комментарий]

Flashr, вовсе не рулетка. Есть вполне надежные математические методы получения информации об авторе, подвергая сочиненный им текст всевозможным анализам.

V_exeR, даже когда глобальной задачи не стоит - все равно полезно обратиться к теории! Тогда, вместо слепого блуждания, ты получишь конкретные указки, что можно сделать чтобы из текста извлечь информацию об авторе. Некоторые методы будут посложнее, другие попроще - вот ты и реализуй в первую очередь те, что попроще!

Заодно из теории получишь оценку, на что способен каждый из методов, какова его сила.
Flashr (14 ноя 2008г, 11:24) [ссылка на комментарий]

Optical_Race, во-первых, я и сам развлекался таким анализом, при этом анализируя не последние 25постов, а вообще все посты автора.
Во-вторых, примерно 10% блогера - это копипасты других постов, чужих идей. И 20% всех постов блогохостингов - это посты виртуалов и рекламщиков.
V.exeR (15 ноя 2008г, 09:53) [ссылка на комментарий]

Flashr: В этом плане мне с собой сравнивать остальных все-таки проще - у меня в блоге чужого нет в принципе :D
Larisa_from_SPB (17 ноя 2008г, 12:13) интересно [ссылка на комментарий]

так можно строить графики совместимости, можно использовать в коммерческих целях -на сайтах знакомств и вообще полезная штука.
dandr (17 ноя 2008г, 12:24) Ответ в V_exeR; Предъявите частоту. [ссылка на комментарий]

Исходное сообщение Larisa_from_SPB:
так можно строить графики совместимости, можно использовать в коммерческих целях -на сайтах знакомств и вообще полезная штука.

Larisa_from_SPB, и кто станет на сайтах знакомств афишировать свой блог?
Flashr (17 ноя 2008г, 12:52) [ссылка на комментарий]

Larisa_from_SPB, графики совместимости на сайтах знакомств успешно работают и по такой формуле - random(a)+random(b)/random(a+b).

dandr, А кто сказал, что блогхостинг не есть сайт знакомств? Вот на лиру же есть знакомтсва. Осталось только приложение написать и поместить в общий каталог =)
RiIzZi (20 ноя 2008г, 00:00) [ссылка на комментарий]

Любопытно. Возьму к себе. Спасибо
Откуда вы?   

Войти через loginza
Оставлять комментарии могут только
имеющие свой ЖЖ-, ЛИру-аккаунт или
еще какой openID (как так?).
Подписаться


Рубрики:

жизненное
аудио-я
видеомонтаж
фотоохота
ремонт
стихи
рассказы
синематограф
библиотека
фонотека
точка зрения
FAQ
приемчики
придумалось
ожидания-прогнозы
допридумано
рингтоны
это я так шучу
обои
микрозарисовки
опасный Интернет
я в печати
поездки-тусовки
смехоспам
мой код
футболки
игродром
подводная жизнь
сайтоводство
программы
персоны
LI.ru
аватарки
курсоры


Разное:

Полка с фильмами
Книжная полка
Полка с играми
Избранное


Календарь записей

2024 (1)
март (1)
2021 (1)
2020 (7)
2019 (3)
2018 (1)
2017 (10)
2016 (12)
2015 (3)
2014 (12)
2013 (10)
2012 (17)
2011 (84)
2010 (172)
2009 (228)
2008 (263)
2007 (154)
2006 (4)
2005 (1)
2004 (1)
2002 (1)
2001 (9)
2000 (9)
1999 (1)
© сайт разработан и поддерживается мной.