December 8th, 2013

Круг замкнулся: 1999-2013

В теханализе это называется - обновили лои (lows).
Levada Dec 2013
Эх, Вова, а ведь ты особо не изменился, и еще вполне активно гребешь на галерах тренажерах.

Просто есть время "тут мне карта поперла", а есть иное время, когда карта не прет, и если долгие годы ждать то проплывет труп врага грести, то застанешь и то, и это время.

И в принципе, когда подойдет время, где-то в середине 2017 г., кого-нить системно-лояльного, типа Шоугу или Прохорова (скорее первого), подтянуть до 40-50% - дело трех месяцев для федеральный каналов. На несистемном просто борющиеся кланы не сойдутся.

Для современных лингвистов

"придумал" новое направление исследований :), которое, скорее всего, давно уже известно и разработано. Я просто об этом не знаю.

UPD1 Конечно, разработано! Первый же коммент со ссылками.

Можно ли предсказывать изменение языков при их столкновении, найти "правила" вытеснения одного слова (словосочетания, фразы) другим аналогом из языка, вошедшего в контакт? Ведь можно это, с некой предсказательной силой, формализовать и смоделировать. Т.е., к примеру, при данной знающих данное иностранное слово, столько то их них могут это слов употреблять вместо родного и, в конечном счете, могут заимствовать его, "забыв", или практически перестав употреблять слово из родного языка. Причин заимствований может быть много. Назову две. Список, понятно, этим далеко не исчерпывается:

(1) иностранное слово короче, и при этом его довольно произносить, т.к. никаких сложных дифтонгов в нем нет. К примеру, вместо "прославиться дурной славой" все уже давно говорят пропиариться (PR). Или "свежевыжатый сок" заменяют на фреш. Заимствование практически запрограммировано огромной экономией времени и энергии.

Конечно, должна накопиться какая-то критическая масса коммуницирующих, которым эти слова знакомы, и при этом частота употребления данного слова должна быть тоже не ниже определенного уровня. Наверное эти параметры можно расчитать.

При этом основной массе живущих в России сейчас известны англицизмы (в 19 в. это были, в основном, французские заимствования), но на самом деле в русскоговорящих диаспорах, контактирующих с другими языками, происходят такие же проникновения, если они энергетически выгодны. К примеру, вместо "защищать кандидатскую диссертацию" в Германии предпочитают говорить сделать промоцион (Promotion), а вместо "единовременный общий платеж" говорят паушаль (Pauschale), просто потому что короче.

Это тоже многим известно. А вот интересно, какие заимствования происходят в русских диаспорах в Китае или Японии?

Понятно, что при очень долгом контакте с другими языками, как это происходит в диаспорах (если там люди не полностью изолированы от страны), возникает билингвизм, речь часто переполнена заимствованиями.

(2) слово стало модным и вошло с состав широкораспространенного мема или известного бренда. Примеры сейчас как-то не приходят, но вы их знаете.

И еще есть куча других причин.

Если можно было бы на примере многих языков вычислить вероятность замены того или иного слова, зная разные параметры (частоту контактов двух языков, особенности звуковопроизведения, число билингв в обществе и прочие), то теоретически можно было бы выдвинуть модель заимствований подобно моделям мутагенеза в биологии. Ее можно было бы даже фальсифицировать, проверяя предсказательную силу на новых, неизученных случаях. К примеру, что можно ожидать в монгольской диаспоре, попавшей в Россию в количестве N человек 30 лет назада или в филлипинской диаспоре в Канаде, численностью Y и живущей там с 1950-х гг.? Предсказываем на моделе, приезжаем "в поле", изучаем, проверяем. Дальше можем примерно сказать, а что будет с языками при разных демографических и миграционных сценариях. 

В чем преимущества байесовой статистики и MCMC алгоритмов для популяционной экологии?

На неделе коллега-постдок делал доклад. Рассказывал о пластичности у ласточек. Поясню: есть около 40 лет данных по ласточкам, гнездящимся на северном берегу озера Эри. За это время есть данные по истории индивидуальных сроков гнездования, размеру кладки, количеству вылетевших из гнезда птенцов. Плюс есть данные по весенним температурам, грубая оценка биомассы еды (насекомых).

Что интересно, именно в данном районе никакого глобального восходящего тренда температур не было вопреки глобальному потеплению. Это нормально. Есть и другие ряды температурных данные, в том числе в России, где в некоторых районах такое тоже было зафиксировано.

Ладно. Возвращаясь к ласточкам. Из-за того, что по прилету ласточки встречались с разными сюрпризами - температура и зависящие от нее насекомые сильно различалась год и от года - то можно вычислить, насколько в среднем ласточки пластичны по отношению к разным независящим от них условиям. Например, насколько они могут ускорять-задерживать откладку первого яйца в зависимости от температуры и наличия еды. Расчет данной пластичности и интересовал коллегу.

Представив исходные данные, коллега перешел к методам расчета, которые основаны на сложнейшей и очень затратном по вычислению методе - Monte Carlo Markov Chain (MCMC) algorithms, для чего применялся какой-то из известных пакетов R (coda кажется). Количество итераций было более 5 000 000 (!). Для каждого расчета, коллега ждал, когда кластер из 6 вполне современных Маков просчитает это всё 3+ дня (!). Естественно, не каждый раз это приводило к желанному результату, и в итоге недели времени были потрачены впустую с точки зрения расчетов (естественно коллега занимался другими вещами во время калькуляций). На вопрос, почему MCMC, зачем столько итераций, почему не старые добрые general linear models (GLM), коллега ответил что-то типа "мой руководитель" (т.е. наш общий руководитель) в этом моделировании особо не понимает, отослал меня к другому профу на факультете, а тот, помятуя, что MCMC сейчас модно в экологической литературе, сказал, что делать нужно так. А почему именно так, а не иначе, и в чем преимущества и недостатки данных алгоритмов, он не знает. Уверен, что будет написана еще одна статья, где еще один человек будет делать то, в чем ни фига не разбирается, но что cool & trendy. Классический пример того, что если в России очень многие экологи о таких методах даже не слышали, то на западе новые математические методы возникают раньше, чем освоены старые, все всё жадно схватывают, но очень мало кто из профессоров (не говоря о постдоках и аспирантах) глубого это понимает, а значит может по простому рассказать, что это такое, как это правильно применять, зная преимущества и недостатки. Я понимаю, что, используя дешевеющие компьютерные мощности, можно "гонять модельки" всё быстрее и быстрее, но вот стоит ли их гонять, не понимая, в чем их суть?

Я человек далекий от моделирования и мне хочется спросить: кто-нибудь может в виде тезисов объяснить:

(1) В чем смысл MCMC алгоритмов в популяционной экологии, в частности, в вышеприведенным примере (ну или другой пример экологической задачи)? Еще меня интригуют пресловутые MCMC convergence. Что это такое?

(2) Преимущества/недостатки MCMC? В каких случая эти методы особенно продуктивны, а в каких случаях их лучше не применять, просто потому что задачи можно решить другими, менее затратными методами?

Особенно мнение vlad_kosarev интересно :)  Желательно, чтобы это не только ссылка на очередные статьи и учебники. Я к литературе обращусь и знаю примерно, с чего начать, но хотелось бы сначала общее понимание получить.

UPD1 У меня всё же есть очень приблизительное представление о Monte Carlo algorithms. Мне понятно, что они основаны на многократных повторениях взятия выборок для того, чтобы вычислить искомые параметры методом аппроксимации. К примеру, если бы мы хотели не геометрически вычислить параметр Пи, а аппроксимировать его за счет MC, то мы бы поступили так: нарисовали бы круг, вписанный в квадрат. Зная, что отношение площади круга к площади того, что лежит вне круга в данном квадрате это пи/4, задача сводиться к нахождению отношений этих двух площадей. Далее, нам нужны выборки данных. Мы берем бусинки и разбрасываем их по данной фигуре, стараясь это делать равномерно по всей фигуре и считая, сколько бусинок лежит в круге, а сколько вне его, и вычисляем пи, имею в виду вышеуказанное соотношение. Далее, повторяем эту процедуру с разным количеством бусинок: 3, 30, 300, 3000, 30000. С 30 000 бусинок, распределенных равномерно, наша аппроксимация пи будет довольно близка к истине (википедия пишет, что 0.07% от реального значения в 20% случаях). Я так понимаю, что в данном примере, каждый бросок бусинок по фигуре формирует prior probability, которую мы сопоставляем с posterior, которая генерируется следующей выборкой. Если размер выборки у нас небольшой, то prior to posterior у нас будут плясать широко, а вот после очередного N бусинок, уже различия между аппроксимациями, вычисленными после каждого броска, будут небольшие. Это и называется convergence? Правильно я понимаю?

Теперь к нашему примеру. Правильно ли я рассуждаю? Скорее всего несу чушь, но может быть и не совсем.

Мы, к примеру, предполагаем линейную связь между майской температурой и сроком откладки первого яйца (а линейная ли она?), но не знаем коэффициента регрессии, который и есть наша искомая plasticity. Следуя логики "расчет через аппроксимация", мы начинаем с любого коэффициента, от балды. К примеру, предполагаем, что он в среднем равен 0.5 и распределен нормально. Это и есть наша prior. Далее мы делаем выборку из наших данных, беря каждую десятую птицу и сравниваем полученное распределение с нашем отбалдовым. Мы, вернее компьютер, это повторяем многократно. Далее увеличиваем выборку, беря каждую пятую птицу (20% от наших данных, опять же чтобы равномерный был sampling). Ну и так далее, доходя до использования всех наших данных полностью. Далее мы понимаем, что на промежутке от каждой пятой до каждой птицы значение коэффициента уже сильно не изменяется между выборками. Ну мы и довольно данной аппроксимацией, говоря, что начиная с выборки из 20% от наших данных, у нас вычисляется коэффициент с приемлимой точностью. Если это так, то что нам мешает сразу пойти в лоб, взять все имеющиеся данные и просто сделать линейную регрессию между температурой и сроками откладки первого яйца? Зачем столько мучений с MCMC? Наверное я чего-то недопонимаю. Наверное это имеет смысл, если уже собраны некоторые данные, сформирован prior probability. Далее мы начинаем собирать данные еще, но не хотим заниматься этим всю жизнь или же тратить кучу денег на множество повторений изъятия выборок, ну и мы начинаем собирать и сравнивать, собирать и сравнивать. После некоторого количества повторений мы понимаем, что всё, аппроксимация не улучшается и прекращаем это дело с удовлетворительным результатом аппроксимации. А от Монте Карло здесь то, что есть алгоритм изъятия выборок, которые должны быть равномерны, и отсюда все эти random walk и прочие варианты.