Ванятка
> Растройство
Ой, кто бы говорил.
Dmitry_Milk
Ну, хорошо, "слоненком например" будете Вы. Слабо признаться, сколько у Вас было заходов на Форум?
Дык, мы ждем, когда aliskda даст информацию, он обещал в #603. Интрига же :)
return [](){};
> ну и меня давайте, чоужтам
KPG
> Не знаю, интересен ли мой профиль т.к. посещаю не очень интенсивно только
> раздел форума - флейм и при этом пишу в какое то ограниченное число тем .. (хз
> короче как это "выглядит")
Panzerschrek[CN]
> Ну и для меня, само собой
gudleifr
> Я пропустил, уже собрали фильтр для отсеивания покойников, виртуалов и ботов?
> Сколько на Форуме живых людей?
По грубым подсчётам 800 человек.
aliskda
Посмотрел своё облако тэгов и особо не заметил каких то неправильных слов на нём,
за исключением, что VFX упоминал, скорее всего, в контексте "VFX Forth" и "затесалось", какое то странное слово written как может отголосок изучения немецкого языка в школе/институте, когда английское слово TYPE произносил по русски, как Тыпе :)
тоффоля марголус - это авторы книги: Тоффоли Т, Марголус Н "Машины клеточных автоматов"
pet возможно и контекст "pet проект" и как расширение установочных файлов-пакетов в Linux XenialPup (puppy слово, тоже к этому дистрибутиву Linux)
Про слово васильич даже нет предположений откуда оно попало в "тэги" у меня. :)
aliskda #580
> Посчитал статистику по дубликатам. Насколько похоже на правду?
из тех, кого ещё не упоминали, он точно правильно угадал как минимум xma/itmanager и Ал/Бокал. что за странный пользователь lossless, который со всеми совпал? бабёр/равен/nerengd/RenGD/renegade, Fantarg/D-Prince, ronniko/Ziltop — тоже 100% правильно, их уже упоминали. вообще круто, работает же! если ещё пофильтровать, может, кого-нибудь нового найдём? очень интересно было бы найти виртуалов у grayf24, но они у него все живут не дольше пары постов в его теме обычно, поэтому трудно установить.
короче, если опустить странного пользователя lossless, то точно ошибка только одна: beejah/9K720. по поводу Счастливчик/wat я не знаю, но я бы не удивился, если б он действительно под виртуалом сидел тогда.
Mimon/kanadets/SLamon/d34-paul/KaZuaL/Alchi постоянно тусуются в политике, поэтому у них одинаковые теги, их постоянно за это банят, поэтому я вообще не удивлюсь, если некоторые из них окажутся виртуалами друг друга.
return [](){};
Panzerschrek[CN]
вот у вас, например, по понятным причинам у обоих llvm в центре облака тегов, однако, одного можно 100% идентифицировать по Ü, а второго — по шлангу. то есть теоретически из всей базы 60+ тысяч пользователей достаточно всего двух тегов, чтобы вас обоих отличить от всех остальных пользователей и друг от друга. но сравнивать нужно обязательно не только по тегам, которые есть, но и по тегам, которых нет.
aliskda
Круто вышло, название одного моего проекта вписано в название другого моего проэкта.
В целом да, узнаю себя. Слова как "говносборщик" и "шолодирект" - типично моя придумка, не думаю, что они есть у кого-то ещё. Также узнаю свою тенденцию в намеренном использовании русскоязычных терминов, вместо англоязычных калек (сравни моё облако и облако товарища return [](){};).
KPG
Forth? А не ты ли виртуал gudleif часом? Или наоборот - не он ли твой виртуал?
Panzerschrek[CN]
> Forth? А не ты ли виртуал gudleif часом? Или наоборот - не он ли твой виртуал?
А, разве это не легко понять?
Если, только другая его сторона в реалии параллельных миров. :)
P.S. При этом, ещё, вероятно посмотреть даты регистрации его и меня.
(предположу, что виртуалов могут регистрировать как скопом так и по сложившимся текущим обстоятельствам как бан пользователя, например)
При этом, виртуала бывает создают чтобы вести диалоги "самого с собой" и в полит срачах.
А, также его облако тэгов будет "совсем" не похоже на текущее моё.
Могу даже подсказать и форум где совпадение по употреблению слов Forth (Форт) будет превалировать у пользователей и не будет, таким образом, правильным критерием детекта виртуалов.
Кстати, может быть вероятно интересно, как менялось со временем облако тэгов в ретроспективе у пользователей с большим временем пребывания на местном форуме.
aliskda
> По грубым подсчётам 800 человек.
При зарегистрированных ~90000.
Таким образом всего 1% пользователей
реально создают контент, а остальные 99% предпочитают потреблять и ничего не давать взамен.
nerengd
> Таким образом 1% пользователей реально
> создают контент, а остальные 99% предпочитают потреблять и ничего не давать
> взамен.
Трудно что то потребить, может даже практически невозможно не заходя на форум и не читая сообщения с него, если только они не пересылаются, например, на электронную почту или какой то робот их читает и фильтрует для их потребления. :)
Мало ли "Спам ботов" регистрируется ежедневно на разных форумах и потом не проявляют какой то активности.
P.S. А, трафик, он такой траффик и мало что без модераторской информации прояснит.
aliskda
> По грубым подсчётам 800 человек.
Спасибо.
nerengd
> а остальные 99% предпочитают потреблять и ничего не давать взамен.
Как же ты наверное удивишься, если узнаешь, что потреблять контент с сайта можно вообще не регистрируясь, а регистрация как раз нужна именно для того, чтобы что-то сюда отправлять.
Suslik
Спасибище за полезный фидбэк!
Собрал все подтверждённые дубликаты:
P.S. lossless – кость в горле моей статистики. Возможно, это "сферический" среднестатистический пользователь, о котором спрашивал nes.
aliskda, твой метод всегда будет давать ложные срабатывания, а совпадений мало находит.
По твоей табличке видно, что у всех в топе есть слова "ссср, государство, путин" — эти слова все используют.
Надо ориентироваться не на наиболее популярные слова, а на наиболее редкие.
Попробуй другим способом:
1. Сначала собери статистику по частоте использования слов не для каждого юзера отдельно, а сразу со всех постов форума.
Например, слова "ссср, путин" используются в 30% постов десятки тысяч раз, а слова "серобуромалиновый, хлордиазепоксид" использовалось всего по несколько раз.
2. Для каждого юзера собираешь его личный список слов и сортируешь этот список по данным, полученным на предыдущем шаге. Наиболее редкие должны быть выше.
Понятно, что слово "хлордиазепоксид" могут использовать несколько человек, но это слово в сочетании с "серобуромалиновый" скорее всего будет у одного конкретного человека.
Таким образом собираешь для каждого юзера, к примеру, 5 наиболее редких слов, это и будет его уникальный отпечаток.
3. Ищешь пары юзеров, у которых этот топ-5 совпадает.