aliskda
Посмотрел своё облако тэгов и особо не заметил каких то неправильных слов на нём,
за исключением, что VFX упоминал, скорее всего, в контексте "VFX Forth" и "затесалось", какое то странное слово written как может отголосок изучения немецкого языка в школе/институте, когда английское слово TYPE произносил по русски, как Тыпе :)
тоффоля марголус - это авторы книги: Тоффоли Т, Марголус Н "Машины клеточных автоматов"
pet возможно и контекст "pet проект" и как расширение установочных файлов-пакетов в Linux XenialPup (puppy слово, тоже к этому дистрибутиву Linux)
Про слово васильич даже нет предположений откуда оно попало в "тэги" у меня. :)
aliskda #580
> Посчитал статистику по дубликатам. Насколько похоже на правду?
из тех, кого ещё не упоминали, он точно правильно угадал как минимум xma/itmanager и Ал/Бокал. что за странный пользователь lossless, который со всеми совпал? бабёр/равен/nerengd/RenGD/renegade, Fantarg/D-Prince, ronniko/Ziltop — тоже 100% правильно, их уже упоминали. вообще круто, работает же! если ещё пофильтровать, может, кого-нибудь нового найдём? очень интересно было бы найти виртуалов у grayf24, но они у него все живут не дольше пары постов в его теме обычно, поэтому трудно установить.
короче, если опустить странного пользователя lossless, то точно ошибка только одна: beejah/9K720. по поводу Счастливчик/wat я не знаю, но я бы не удивился, если б он действительно под виртуалом сидел тогда.
Mimon/kanadets/SLamon/d34-paul/KaZuaL/Alchi постоянно тусуются в политике, поэтому у них одинаковые теги, их постоянно за это банят, поэтому я вообще не удивлюсь, если некоторые из них окажутся виртуалами друг друга.
return [](){};
Panzerschrek[CN]
вот у вас, например, по понятным причинам у обоих llvm в центре облака тегов, однако, одного можно 100% идентифицировать по Ü, а второго — по шлангу. то есть теоретически из всей базы 60+ тысяч пользователей достаточно всего двух тегов, чтобы вас обоих отличить от всех остальных пользователей и друг от друга. но сравнивать нужно обязательно не только по тегам, которые есть, но и по тегам, которых нет.
aliskda
Круто вышло, название одного моего проекта вписано в название другого моего проэкта.
В целом да, узнаю себя. Слова как "говносборщик" и "шолодирект" - типично моя придумка, не думаю, что они есть у кого-то ещё. Также узнаю свою тенденцию в намеренном использовании русскоязычных терминов, вместо англоязычных калек (сравни моё облако и облако товарища return [](){};).
KPG
Forth? А не ты ли виртуал gudleif часом? Или наоборот - не он ли твой виртуал?
Panzerschrek[CN]
> Forth? А не ты ли виртуал gudleif часом? Или наоборот - не он ли твой виртуал?
А, разве это не легко понять?
Если, только другая его сторона в реалии параллельных миров. :)
P.S. При этом, ещё, вероятно посмотреть даты регистрации его и меня.
(предположу, что виртуалов могут регистрировать как скопом так и по сложившимся текущим обстоятельствам как бан пользователя, например)
При этом, виртуала бывает создают чтобы вести диалоги "самого с собой" и в полит срачах.
А, также его облако тэгов будет "совсем" не похоже на текущее моё.
Могу даже подсказать и форум где совпадение по употреблению слов Forth (Форт) будет превалировать у пользователей и не будет, таким образом, правильным критерием детекта виртуалов.
Кстати, может быть вероятно интересно, как менялось со временем облако тэгов в ретроспективе у пользователей с большим временем пребывания на местном форуме.
aliskda
> По грубым подсчётам 800 человек.
При зарегистрированных ~90000.
Таким образом всего 1% пользователей
реально создают контент, а остальные 99% предпочитают потреблять и ничего не давать взамен.
nerengd
> Таким образом 1% пользователей реально
> создают контент, а остальные 99% предпочитают потреблять и ничего не давать
> взамен.
Трудно что то потребить, может даже практически невозможно не заходя на форум и не читая сообщения с него, если только они не пересылаются, например, на электронную почту или какой то робот их читает и фильтрует для их потребления. :)
Мало ли "Спам ботов" регистрируется ежедневно на разных форумах и потом не проявляют какой то активности.
P.S. А, трафик, он такой траффик и мало что без модераторской информации прояснит.
aliskda
> По грубым подсчётам 800 человек.
Спасибо.
nerengd
> а остальные 99% предпочитают потреблять и ничего не давать взамен.
Как же ты наверное удивишься, если узнаешь, что потреблять контент с сайта можно вообще не регистрируясь, а регистрация как раз нужна именно для того, чтобы что-то сюда отправлять.
Suslik
Спасибище за полезный фидбэк!
Собрал все подтверждённые дубликаты:
P.S. lossless – кость в горле моей статистики. Возможно, это "сферический" среднестатистический пользователь, о котором спрашивал nes.
aliskda, твой метод всегда будет давать ложные срабатывания, а совпадений мало находит.
По твоей табличке видно, что у всех в топе есть слова "ссср, государство, путин" — эти слова все используют.
Надо ориентироваться не на наиболее популярные слова, а на наиболее редкие.
Попробуй другим способом:
1. Сначала собери статистику по частоте использования слов не для каждого юзера отдельно, а сразу со всех постов форума.
Например, слова "ссср, путин" используются в 30% постов десятки тысяч раз, а слова "серобуромалиновый, хлордиазепоксид" использовалось всего по несколько раз.
2. Для каждого юзера собираешь его личный список слов и сортируешь этот список по данным, полученным на предыдущем шаге. Наиболее редкие должны быть выше.
Понятно, что слово "хлордиазепоксид" могут использовать несколько человек, но это слово в сочетании с "серобуромалиновый" скорее всего будет у одного конкретного человека.
Таким образом собираешь для каждого юзера, к примеру, 5 наиболее редких слов, это и будет его уникальный отпечаток.
3. Ищешь пары юзеров, у которых этот топ-5 совпадает.
Fantarg
> Редкие слова должны быть не в тематике форума.
В какой они тематике — совершенно не важно.
Вот бондерсан говорит про обычные темы — жизнь, работа, ипотека, зарплата и тд, но называет их такими словами, что можно точно понять — автор бондерсан и только он.
Потому что только он употребляет сочетание редких слов "батрачка, землянка, купилки" и тд. И он употребляет эти редкие слова чаще других.
aliskda
А можно и меня посчитать?
Delfigamer
> Ага, все 20, и подписи отдельно под спойлером. Мне понравилось угадывать. :)
Это будет непросто:
Список юзеров:
Облака слов (вперемешку):
> помойма
:D
aliskda
> + 04
ronniko
> + 05
Bondersan
> + 07
1 frags / 2 deaths
> + 08
Какой-то адов матершинник. Интересно, кто это?
> + 10
ALX
> + 13
Ал/Бокал
> + 14
Ren
> + 18
Suslik
Тема в архиве.