ПрограммированиеФорумОбщее

Как проверить строку на содержание в ней "белиберды" (2 стр)

Страницы: 1 2
#15
0:17, 27 мая 2020

А я как-то пропустил, а зачем вам эта проверка вообще понадобилась?

flint2
Jeners
Вопрос был не в том, как работают всякие библиотеки, а в чём состоит изначальная задача - что нужно считать белибердой, что нельзя считать белибердой и что можно проигнорировать.

Jeners
> В данном случае я подразумевал некоторый случайный набор символов, который для
> человеческого глаза воспринимается как бессмыслица.
Сколько смысла ты видишь в символах 「寄り抜き原画 アホかぐやです」?
А сколько смысла находится в сообщении, состоящем из одного символа 「🤔」? А вот в таком сообщении: 「( ͡° ͜ʖ ͡°)」? В каком корпусе можно найти эти символы?

#16
0:30, 27 мая 2020

Delfigamer
Я же уже писал выше и приводил два примера белиберды.

надо приводить слово к простому виду 'ящиками-ящик' и смотреть есть ли такая простая форма в лексиконе(мюмзики-мюмзик). А если в простую форму слово не переводится, то и для человеческого глаза воспринимается как бессмыслица.

И программы сделал иллюстрирующие это.
Про библиотеки я вроде не говорил в этой плоскости, как работают всякие библиотеки.

#17
0:33, 27 мая 2020

flint2
> Я же уже писал выше и приводил два примера белиберды.
Ты уверен? А вдруг эти фразы вырваны из контекста, где всем неологизмам дали чёткие определения?

#18
0:37, 27 мая 2020

Ты уверен? А вдруг эти фразы вырваны из контекста, где всем неологизмам дали чёткие определения?

Какие контексты. Прочти внимательно всё сначала!

Сколько смысла ты видишь в символах 「寄り抜き原画 アホかぐやです」?

Сам-то понимаешь, что не о том говоришь, или тебе поспорить?
Хватит белиберду нести и вникни о чём речь.

#19
0:38, 27 мая 2020

можно попробовать прикрутить закон Ципфа https://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%BA%D0%BE%D0%BD_%D0%… F%D1%84%D0%B0 или еще какую-нибудь теорию вероятностей - смотреть частоту появления тех или иных букв или слогов

#20
1:11, 27 мая 2020

BingoBongo

можно попробовать прикрутить закон Ципфа

Это похоже на правду.
Одна голова хорошо, а у Змея Горыныча их три! - закон Ципфа навёл на мысль.
n-граммный метод проверки.
Вот здесь можно почитать всё в подробностях и примерах: http://aloys.narod.ru/sof/1/demagog.htm
начиная с пункта 6. "Глокая куздра", "четыре четырки" и Питон
Сам скрипт на Python: http://aloys.narod.ru/sof/1/orfo.py
В самом дистрибутиве есть уже готовый список n-грамм Demagog\dic\!!RU.orfo
Результат впечатляет!
Jeners, мне кажется, это то что доктор прописал!

#21
4:26, 27 мая 2020

Jeners
> Как проверить строку на содержание в ней "белиберды"
достаточно легко — нанимаешь модераторов и они проверяют. других надёжных способов по большому счёту нет.

#22
9:50, 27 мая 2020

Suslik
> достаточно легко — нанимаешь модераторов и они проверяют. других надёжных
> способов по большому счёту нет.
Модераторы и так есть, вопрос в том что бы снизить на них нагрузку и акцентировать их внимание только на подозрительный текст
flint2
Спасибо, почитаю.

#23
10:39, 27 мая 2020

Jeners
> Модераторы и так есть, вопрос в том что бы снизить на них нагрузку и
> акцентировать их внимание только на подозрительный текст
тогда это соврешенно другая задача — тебе надо не мусор от текста отличать, а подозрительный текст от гарантированно нормального. то есть в твоём случае цена ложно положительного результата гораздо ниже, чем ложно отрицательного. поэтому если ты отсеешь хотя бы половину точно нормального текста, то это уже в два раза меньше работы модераторам.

#24
11:23, 27 мая 2020

Suslik
Да, это действительно так. Моя ошибка в том, что я недостаточно правильно развернул вопрос.

#25
19:58, 27 мая 2020

Я не вижу другого способа, как использовать словари.

Их можно и самостоятельно надыбать - пропустить некоторое количество художественной литературы, авторов с богатой лексикой.

Страницы: 1 2
ПрограммированиеФорумОбщее

Тема в архиве.