d_kishkinev (d_kishkinev) wrote,
d_kishkinev
d_kishkinev

Category:

7-й тьюториал по программированию и статистики в R: визуализации данных, plotting, ggplot2

На этой неделе выложил 7-ю часть из моей серий тьюториалов по программированию и статистике с помощью R
(больше со ссылками на более ранние части можно посмотреть здесь).

Для удобства разбил на две подчасти, каждая по 40-50 минут. Тьюториалы на английском (CC - captions - работают неплохо, так что субтитры вам в помощь, если что)

7a: basic plotting (с помощью базовых builtin инструментов, в основном plot())


7b: more advanced plotting с помощью ggplot2
пакет для гибкого data visualization, часть tidyverse - "экосистемы" из пакетов R по обработке и визуализации данных, такой toolbox для data scientist)


Понятно, что это только основы и вы можете копать и учиться дальше, но это a good starting point.
Материалы на этот и все предыдущие тьюториалы (т.е. слайды, R code, дополн материалы etc) в расшаренной папке Google Drive (link), но людей не из моей организации и которых я не знаю лично мне нужно будет вручную авторизовывать (вас запросят послать запрос на авторизацию и я его могу легко удовлетворить, но только в форме запроса ДО отправки хотя бы представьтесь, объясните кто вы и откуда (хотя бы организация, страна), каким образом узнали о тьюториалах и для чего используете (интересно для себя)).

Teaser
В следующей серии планирую сделать введение в linear mixed effect models (LMMs или LMERs). Рассмотрим на примере построение, отбор и валидацию моделей. Это когда у вас зависимость может и линейная (не обязательно, но допустим), но есть разные сложности типа в большой выборке есть подвыборки. Н-р собирали зависимость биомассы травы в зависимости от экспозиции склона холма к солнцу (чем больше света тем выше биомасса), но использовали разные географические локации, так что каждое место сбора материала может иметь уникальные свойства (состав почвы, высоту на уровнем моря и проч.). Всё в кучу сваливать можно, но неправильно, а нужно разные локации рассматривать как подвыборку (локация - random effect) и стоить модели (например ту же линейную регрессию), учитывая принадлежность точек к той же или разным локациям (учитывая random effect), чтобы делать общие выводы (если этого не делать, то часто бывает переоценка значимости параметров модели т.е. intercept и slope)



И возможно GAM (generalized additive models) - когда у вас некая явная кривая (в статистическом жаргоне GAM - smoothers в той или иной степенью свободы) должна описывать данные. Например как температура и численность животных связаны между собой (температурный оптимум)

Tags: biostatistics, keele university, programming, r programming, statistics, teaching, uk, uk higher education
Subscribe

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments