А я как-то пропустил, а зачем вам эта проверка вообще понадобилась?
flint2
Jeners
Вопрос был не в том, как работают всякие библиотеки, а в чём состоит изначальная задача - что нужно считать белибердой, что нельзя считать белибердой и что можно проигнорировать.
Jeners
> В данном случае я подразумевал некоторый случайный набор символов, который для
> человеческого глаза воспринимается как бессмыслица.
Сколько смысла ты видишь в символах 「寄り抜き原画 アホかぐやです」?
А сколько смысла находится в сообщении, состоящем из одного символа 「🤔」? А вот в таком сообщении: 「( ͡° ͜ʖ ͡°)」? В каком корпусе можно найти эти символы?
Delfigamer
Я же уже писал выше и приводил два примера белиберды.
надо приводить слово к простому виду 'ящиками-ящик' и смотреть есть ли такая простая форма в лексиконе(мюмзики-мюмзик). А если в простую форму слово не переводится, то и для человеческого глаза воспринимается как бессмыслица.
И программы сделал иллюстрирующие это.
Про библиотеки я вроде не говорил в этой плоскости, как работают всякие библиотеки.
flint2
> Я же уже писал выше и приводил два примера белиберды.
Ты уверен? А вдруг эти фразы вырваны из контекста, где всем неологизмам дали чёткие определения?
Ты уверен? А вдруг эти фразы вырваны из контекста, где всем неологизмам дали чёткие определения?
Какие контексты. Прочти внимательно всё сначала!
Сколько смысла ты видишь в символах 「寄り抜き原画 アホかぐやです」?
Сам-то понимаешь, что не о том говоришь, или тебе поспорить?
Хватит белиберду нести и вникни о чём речь.
можно попробовать прикрутить закон Ципфа https://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%BA%D0%BE%D0%BD_%D0%… F%D1%84%D0%B0 или еще какую-нибудь теорию вероятностей - смотреть частоту появления тех или иных букв или слогов
BingoBongo
можно попробовать прикрутить закон Ципфа
Это похоже на правду.
Одна голова хорошо, а у Змея Горыныча их три! - закон Ципфа навёл на мысль.
n-граммный метод проверки.
Вот здесь можно почитать всё в подробностях и примерах: http://aloys.narod.ru/sof/1/demagog.htm
начиная с пункта 6. "Глокая куздра", "четыре четырки" и Питон
Сам скрипт на Python: http://aloys.narod.ru/sof/1/orfo.py
В самом дистрибутиве есть уже готовый список n-грамм Demagog\dic\!!RU.orfo
Результат впечатляет!
Jeners, мне кажется, это то что доктор прописал!
Jeners
> Как проверить строку на содержание в ней "белиберды"
достаточно легко — нанимаешь модераторов и они проверяют. других надёжных способов по большому счёту нет.
Suslik
> достаточно легко — нанимаешь модераторов и они проверяют. других надёжных
> способов по большому счёту нет.
Модераторы и так есть, вопрос в том что бы снизить на них нагрузку и акцентировать их внимание только на подозрительный текст
flint2
Спасибо, почитаю.
Jeners
> Модераторы и так есть, вопрос в том что бы снизить на них нагрузку и
> акцентировать их внимание только на подозрительный текст
тогда это соврешенно другая задача — тебе надо не мусор от текста отличать, а подозрительный текст от гарантированно нормального. то есть в твоём случае цена ложно положительного результата гораздо ниже, чем ложно отрицательного. поэтому если ты отсеешь хотя бы половину точно нормального текста, то это уже в два раза меньше работы модераторам.
Suslik
Да, это действительно так. Моя ошибка в том, что я недостаточно правильно развернул вопрос.
Я не вижу другого способа, как использовать словари.
Их можно и самостоятельно надыбать - пропустить некоторое количество художественной литературы, авторов с богатой лексикой.
Тема в архиве.