Zametki na polyah (akor168) wrote,
Zametki na polyah
akor168

Мысли приходят в голову всякие полуматематические.

А именно, для практических целей, экономических и оптимизационных зело знать следующую функцию 2n переменных в деталях:

F(C,W)=C1*W1+...+Cn*Wn.

Почему, да все просто. Пусть у нас есть некоторое количество факторов, от которых зависит наша целевая функция. Каждый фактор дает контрибуцию, зависящую от величины этого фактора и от его влияния, веса то бишь. Таким образом C это будет вектор наблюдаемых величин факторов, а W вектор весов.

C1*W1 - суммарная контрибуция первого фактора присутствующего в размере C1 единиц с весом W1, и так далее. Все суммируем, и получаем значение нашей целевой фунцкии.

Как правило, наблюдаемые величины факторов нам неплохо известны и определяются из опыта и наблюдений. Я не буду различать в дальнейшем величину фактора и сам фактор.

Ну вот для примера. Поставим себе задачу вычисления "авторитетности" ЖЖ юзера. Какие факторы мы можем оценить. Мы можем сосчитать количество френд-офф юзера. Фактор C1. Можем оценить количество ссылок/упоминаний на журнал юзера за отчетный период, это фактор C2. Что еще, больше ничего толкового на ум не приходит, но и то хлеб.

Значит, считаем авторитетность по формуле:

A=w1*C1+w2*C2.

Постойтте. Как это мы будем считать, если нам неизвестны значения весов w1 и w2. Действительно - неизвестно. Что же делать.

Мы в типичной ситуации: веса факторов есть вещь, которую придется придумывать, назначать, оценивать. В общем тут у нас есть выбор, весьма широкий. Двух-параметрический, в данном случае. Легко видеть, что для фиксированных C1 и C2 мы всегда можем подобрать такие веса, что целевая функция будет изменяться в любых заданных пределах.

Но произвольный набор весов это неинтересно, наша целевая функция должна каким-то образом отражать наши интуитивные представления о значимости факторов и их вкладе в авторитетность.

Ясно, что один из весов мы можем принять за единицу, скажем w1. Таким образом, авторитетность, это у нас будет число френд-офф плюс поправка, выражающая охват по ссылкам. Предположим, что каждая ссылка будет прочитана 10 не френд-офф. Таким образом, мы можем считать, что коэффициент w2=10, и наша формула принимает вид:

A=C1+10*C2

Если у человека 100 френд-оф и на него было дано 9 ссылок, то его A=100+10*9=190, если же у него 150 френдов и 3 ссылки, то A=150+10*3=180.

Вот такая простая арифметика. Простите, а с какого собственно будуна вы взяли, что контрибуция в ссылке 10 а не 15 или 5. Действительно, если считать по формуле

A=C1+5*C2, то авторитетность у вышеупомянутых юзеров будет 100+5*9=145 и 150+5*3=165 соответственно вместо 190 и 180.

И если при одном подсчете выигрывал первый, то при другом второй. То есть все дело в том, как цифирки подогнать, и ответ будет меняться в широких пределах. Причем всегда можно сказать, что все по науке, по формуле.

Вернемся к нашему примеру. Ясно, что как цифра в 10 дополнительных просмотров по ссылке, как 5 и любая другая взяты от балды. Причина проста: если ссылку даст юзер с 1000 френд-офф, то число дополнительных просмотров может быть и 50, и 100 и больше.

Как это учесть. Просто, путем увеличения числа факторов со схожим весом. А именно мы разбиваем все ссылки по числу френд-офф у ссылающегося и даем им вес зависящий от этого числа. В этой схеме нам приходится увеличивать число факторов.

Заметим, что если идти по этому пути, то имеет смысл также разбить и френдов на группы с разным весами. Таким образом мы будем получать все лучшее и лучшее приближение к интуитивному понятию авторитетности.

Однако, меня в этом по-прежнему смущает то, что на каждом этапе мы все равно должны определятся с весами, назначая их волевым порядком. Опять таки даже малым шевелением можно изменить порядок вещей.

Какое же возможное решение. Я предлагаю следующее. Веса должны рассматриваться не фиксированные, а всевозможные, случайные. Однако, совсем случайными они быть все таки не могут. Поэтому мы также должны задавать распределение вероятностей для каждого коеефициента. Опять-таки эти распределения есть волевые решения, но вся штука в том, что на слеудющем этапе мы рассматриваем не значение целевой функции, а его усреднение. Вот это усреднение вкупе с толковыми эмпирическими распределениям и толковым же набором факторов и задает правильную авторитетность.

Математически, мы вместо точечных Дираковских мер, концентриорванных в точках присваивания весов, мы используем более гладкую меры, возможно рамзытые вокруг этого приблизительного, "правильного" веса.

То, что я изложил, должно быть хорошо известным велосипедом, однако мне верится, что даже самая простенькая вероятностная модель должна бить любую точечную, и быть на порядки более устойчива к накруткам. Дело ведь в том, что накрутки могут резко увеличить часть спектра, однако в усреднении все будет сглаживаться вплоть до незаметности.

Да, дисклеймер: последний раз учебник по вероятностям/статистике я открывал где-то лет 10 назад.
Subscribe

  • 3-0 vs 42-0

    To put the magnitude of the U.S. defeat in context, losing 3-0 in soccer is the equivalent of losing 42-0 in football. Реально улыбнуло, поскольку…

  • Анекдоты: полная потеря смысла при пересказе

    Знаете, когда обсуждается сложность перевода с одного языка на другой, обычно рассказывается пример с круглым столом где каждый знает языки двух…

  • полезность регулярных проф-заметок

    Терри Тао пишет аж в 2013 году(в комментах) про полезность ведения ЖЖ собственного блога, в котором можно записывать прочитанные результаты,…

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 4 comments