10 самых красивых экспериментов в истории физики
Десятки и сотни тысяч физических экспериментов было поставлено за тысячелетнюю историю науки. Непросто отобрать несколько «самых-самых», чтобы рассказать о них. Каков должен быть критерий отбора?
Четыре года назад в газете «The New York Times» была опубликована статья Роберта Криза и Стони Бука. В ней рассказывалось о результатах опроса, проведенного среди физиков. Каждый опрошенный должен был назвать десять самых красивых за всю историю физических экспериментов. На наш взгляд, критерий красоты ничем не уступает другим критериям. Поэтому мы расскажем об экспериментах, вошедших в первую десятку по результатам опроса Криза и Бука.
1. Эксперимент Эратосфена Киренского
Один из самых древних известных физических экспериментов, в результате которого был измерен радиус Земли, был проведен в III веке до нашей эры библиотекарем знаменитой Александрийской библиотеки Эрастофеном Киренским.
Схема эксперимента проста.
Почти невероятным представляется то, что измеренный столь простым методом радиус Земли оказался всего на 5% меньше значения, полученного самыми точными современными методами.
2. Эксперимент Галилео Галилея
В XVII веке господствовала точка зрения Аристотеля, который учил, что скорость падения тела зависит от его массы. Чем тяжелее тело, тем быстрее оно падает. Наблюдения, которые каждый из нас может проделать в повседневной жизни, казалось бы, подтверждают это.
Попробуйте одновременно выпустить из рук легкую зубочистку и тяжелый камень. Камень быстрее коснется земли. Подобные наблюдения привели Аристотеля к выводу о фундаментальном свойстве силы, с которой Земля притягивает другие тела. В действительности на скорость падения влияет не только сила притяжения, но и сила сопротивления воздуха. Соотношение этих сил для легких предметов и для тяжелых различно, что и приводит к наблюдаемому эффекту. Итальянец Галилео Галилей усомнился в правильности выводов Аристотеля и нашел способ их проверить. Для этого он сбрасывал с Пизанской башни в один и тот же момент пушечное ядро и значительно более легкую мушкетную пулю. Оба тела имели примерно одинаковую обтекаемую форму, поэтому и для ядра, и для пули силы сопротивления воздуха были пренебрежимо малы по сравнению с силами притяжения.
Галилей выяснил, что оба предмета достигают земли в один и тот же момент, то есть скорость их падения одинакова. Результаты, полученные Галилеем. — следствие закона всемирного тяготения и закона, в соответствии с которым ускорение, испытываемое телом, прямо пропорционально силе, действующей на него, и обратно пропорционально массе.
3. Другой эксперимент Галилео Галилея
Галилей замерял расстояние, которое шары, катящиеся по наклонной доске, преодолевали за равные промежутки времени, измеренный автором опыта по водяным часам. Ученый выяснил, что если время увеличить в два раза, то шары прокатятся в четыре раза дальше. Эта квадратичная зависимость означала, что шары под действием силы тяжести движутся ускоренно, что противоречило принимаемому на веру в течение 2000 лет утверждению Аристотеля о том, что тела, на которые действует сила, движутся с постоянной скоростью, тогда как если сила не приложена к телу, то оно покоится.
Результаты этого эксперимента Галилея, как и результаты его эксперимента с Пизанской башней, в дальнейшем послужили основой для формулирования законов классической механики.
4. Эксперимент Генри Кавендиша
После того как Исаак Ньютон сформулировал закон всемирного тяготения: сила притяжения между двумя телами с массами Мит, удаленных друг от друга на расстояние r, равна F=G(mM/r2), оставалось определить значение гравитационной постоянной G. Для этого нужно было измерить силу притяжения между двумя телами с известными массами. Сделать это не так просто, потому что сила притяжения очень мала.
Мы ощущаем силу притяжения Земли. Но почувствовать притяжение даже очень большой оказавшейся поблизости горы невозможно, поскольку оно очень слабо. Нужен был очень тонкий и чувствительный метод. Его придумал и применил в 1798 году соотечественник Ньютона Генри Кавендиш. Он использовал крутильные весы — коромысло с двумя шариками, подвешенное на очень тонком шнурке. Кавендиш измерял смещение коромысла (поворот) при приближении к шарикам весов других шаров большей массы.
Для увеличения чувствительности смещение определялось по световым зайчикам, отраженным от зеркал, закрепленных на шарах коромысла. В результате этого эксперимента Кавендишу удалось довольно точно определить значение гравитационной константы и впервые вычислить массу Земли.
5. Эксперимент Жана Бернара Фуко
Французский физик Жан Бернар Леон Фуко в 1851 году экспериментально доказал вращение Земли вокруг своей оси с помощью 67-метрового маятника, подвешенного к вершине купола парижского Пантеона.
6. Эксперимент Исаака Ньютона
В 1672 году Исаак Ньютон проделал простой эксперимент, который описан во всех школьных учебниках. Затворив ставни, он проделал в них небольшое отверстие, сквозь которое проходил солнечный луч. На пути луча была поставлена призма, а за призмой — экран.
На экране Ньютон наблюдал «радугу»: белый солнечный луч, пройдя через призму, превратился в несколько цветных лучей — от фиолетового до красного. Это явление называется дисперсией света. Сэр Исаак был не первым, наблюдавшим это явление. Уже в начале нашей эры было известно, что большие монокристаллы природного происхождения обладают свойством разлагать свет на цвета. Первые исследования дисперсии света в опытах со стеклянной треугольной призмой еще до Ньютона выполнили англичанин Хариот и чешский естествоиспытатель Марци.
Однако до Ньютона подобные наблюдения не подвергались серьезному анализу, а делавшиеся на их основе выводы не перепроверялись дополнительными экспериментами. И Хариот, и Марци оставались последователями Аристотеля, который утверждал, что различие в цвете определяется различием в количестве темноты, «примешиваемой» к белому свету. Фиолетовый цвет, по Аристотелю, возникает при наибольшем добавлении темноты к свету, а красный — при наименьшем. Ньютон же проделал допол¬нительные опыты со скрещенными призмами, когда свет, пропущенный через одну призму, проходит затем через другую. На основании совокупности проделанных опытов он сделал вывод о том, что «никакого цвета не возникает из белизны и черноты, смешанных вместе, кроме промежуточных темных; количество света не меняет вида цвета». Он показал, что белый свет нужно рассматривать как составной. Основными же являются цвета от фиолетового до красного. Этот эксперимент Ньютона служит замечательным примером того, как разные люди, наблюдая одно и то же явление, интерпретируют его по-разному и только те, кто подвергает сомнению свою интерпретацию и ставит дополнительные опыты, приходят к правильным выводам.
7. Эксперимент Томаса Юнга
До начала XIX века преобладали представления о корпускулярной природе света. Свет считали состоящим из отдельных частиц — корпускул. Хотя явления дифракции и интерференции света наблюдал еще Ньютон («кольца Ньютона»), общепринятая точка зрения оставалась корпускулярной. Рассматривая волны на поверхности воды от двух брошенных камней, можно заметить, как, накладываясь друг на друга, волны могут интерферировать, то есть взаимогасить либо взаимоусиливать друг друга. Основываясь на этом, английский физик и врач Томас Юнг проделал в 1801 году опыты с лучом света, который проходил через два отверстия в непрозрачном экране, образуя, таким образом, два независимых источника света, аналогичных двум брошенным в воду камням. В результате он наблюдал интерференционную картину, состоящую из чередующихся темных и белых полос, которая не могла бы образоваться, если бы свет состоял из корпускул. Темные полосы соответствовали зонам, где световые волны от двух щелей гасят друг друга.
8. Эксперимент Клауса Йонссона
Немецкий физик Клаус Йонссон провел в 1961 году эксперимент, подобный эксперименту Томаса Юнга по интерференции света. Разница состояла в том, что вместо лучей света Йонссон использовал пучки электронов. Он получил интерференционную картину, аналогичную той, что Юнг наблюдал для световых волн. Это подтвердило правильность положений квантовой механики о смешанной корпускулярно-волновой природе элементарных частиц.
9. Эксперимент Роберта Милликена
В 1895 году К.Рентген во время экспериментов с разрядной трубкой обнаружил, что ее анод под действием летящих из катода лучей способен излучать свои, Х-лучи, или лучи Рентгена. В том же году французский физик Ж.Перрен экспериментально доказал, что катодные лучи — это поток отрицательно заряженных частиц. Но, несмотря на колоссальный экспериментальный материал, электрон оставался гипотетической частицей, поскольку не было ни одного опыта, в котором участвовали бы отдельные электроны. Американский физик Роберт Милликен разработал метод, ставший классическим примером изящного физического эксперимента.
Милликену удалось изолировать в пространстве несколько заряженных капелек воды между пластинами конденсатора. Освещая рентгеновскими лучами, можно было слегка ионизировать воздух между пластинами и изменять заряд капель. При включенном поле между пластинами капелька медленно двигалась вверх под действием электрического притяжения. При выключенном поле она опускалась под действием гравитации. Включая и выключая поле, можно было изучать каждую из взвешенных между пластинами капелек в течение 45 секунд, после чего они испарялись. К 1909 году удалось определить, что заряд любой капельки всегда был целым кратным фундаментальной величине е (заряд электрона). Это было убедительным доказательством того, что электроны представляли собой частицы с одинаковыми зарядом и массой. Заменив капельки воды капельками масла, Милликен получил возможность увеличить продолжительность наблюдений до 4,5 часа и в 1913 году, исключив один за другим возможные источники погрешностей, опубликовал первое измеренное значение заряда электрона: е = (4,774 ± 0,009)х10-10 электростатических единиц.
10. Эксперимент Эрнста Резерфорда
К началу XX века стало понятно, что атомы состоят из отрицательно заряженных электронов и какого-то положительного заряда, благодаря которому атом остается в целом нейтральным. Однако предположений о том, как выглядит эта «положительно-отрицательная» система, было слишком много, в то время как экспериментальных данных, которые позволили бы сделать выбор в пользу той или иной модели, явно недоставало.
Большинство физиков приняли модель Дж.Дж.Томсона: атом как равномерно заряженный положительный шар диаметром примерно 10-8см с плавающими внутри отрицательными электронами. В 1909 году Эрнст Резерфорд (ему помогали Ганс Гейгер и Эрнст Марсден) поставил эксперимент, чтобы понять действительную структуру атома. В этом эксперименте тяжелые положительно заряженные а-частицы, движущиеся со скоростью 20 км/с, проходили через тонкую золотую фольгу и рассеивались на атомах золота, отклоняясь от первоначального направления движения. Чтобы определить степень отклонения, Гейгер и Марсден должны были с помощью микроскопа наблюдать вспышки на пластине сцинтиллятора, возникавшие там, где в пластину попадала а-частица. За два года было сосчитано около миллиона вспышек и доказано, что примерно одна частица на 8000 в результате рассеяния изменяет направление движения более чем на 90° (то есть поворачивает назад). Такого никак не могло происходить в «рыхлом» атоме Томсона. Результаты однозначно свидетельствовали в пользу так называемой планетарной модели атома — массивное крохотное ядро размерами примерно 10-13 см и электроны, вращающиеся вокруг этого ядра на расстоянии около 10-8 см.
10 самых потрясающих научных экспериментов
Среди физиков США и Западной Европы был проведен опрос. Исследователи Роберт Криз и Стони Бук просили их назвать самые красивые за всю историю физические эксперименты. Об экспериментах, вошедших в первую десятку по результатам опроса Криза и Бука, рассказал научный сотрудник Лаборатории нейтринной астрофизики высоких энергий, кандидат физико-математических наук Игорь Сокальский. 1. Эксперимент Эратосфена Киренского Один из самых древних известных физических экспериментов, в результате которого был измерен радиус Земли, был проведен в III веке до нашей эры библиотекарем знаменитой Александрийской библиотеки Эрастофеном Киренским. Схема эксперимента проста. В полдень, в день летнего солнцестояния, в городе Сиене (ныне Асуан) Солнце находилось в зените и предметы не отбрасывали тени. В тот же день и в то же время в городе Александрии, находившемся в 800 километрах от Сиена, Солнце отклонялось от зенита примерно на 7°. Это составляет около 1/50 полного круга (360°), откуда получается, что окружность Земли равна 40 000 километров, а радиус 6300 километров. Почти невероятным представляется то, что измеренный столь простым методом радиус Земли оказался всего на 5% меньше значения, полученного самыми точными современными методами, сообщает сайт «Химия и жизнь». 2. Эксперимент Галилео Галилея В XVII веке господствовала точка зрения Аристотеля, который учил, что скорость падения тела зависит от его массы. Чем тяжелее тело, тем быстрее оно падает. Наблюдения, которые каждый из нас может проделать в повседневной жизни, казалось бы, подтверждают это. Попробуйте одновременно выпустить из рук легкую зубочистку и тяжелый камень. Камень быстрее коснется земли. Подобные наблюдения привели Аристотеля к выводу о фундаментальном свойстве силы, с которой Земля притягивает другие тела. В действительности на скорость падения влияет не только сила притяжения, но и сила сопротивления воздуха. Соотношение этих сил для легких предметов и для тяжелых различно, что и приводит к наблюдаемому эффекту.
Итальянец Галилео Галилей усомнился в правильности выводов Аристотеля и нашел способ их проверить. Для этого он сбрасывал с Пизанской башни в один и тот же момент пушечное ядро и значительно более легкую мушкетную пулю. Оба тела имели примерно одинаковую обтекаемую форму, поэтому и для ядра, и для пули силы сопротивления воздуха были пренебрежимо малы по сравнению с силами притяжения. Галилей выяснил, что оба предмета достигают земли в один и тот же момент, то есть скорость их падения одинакова.
Результаты, полученные Галилеем, — следствие закона всемирного тяготения и закона, в соответствии с которым ускорение, испытываемое телом, прямо пропорционально силе, действующей на него, и обратно пропорционально массе. 3. Другой эксперимент Галилео Галилея Галилей замерял расстояние, которое шары, катящиеся по наклонной доске, преодолевали за равные промежутки времени, измеренный автором опыта по водяным часам. Ученый выяснил, что если время увеличить в два раза, то шары прокатятся в четыре раза дальше. Эта квадратичная зависимость означала, что шары под действием силы тяжести движутся ускоренно, что противоречило принимаемому на веру в течение 2000 лет утверждению Аристотеля о том, что тела, на которые действует сила, движутся с постоянной скоростью, тогда как если сила не приложена к телу, то оно покоится. Результаты этого эксперимента Галилея, как и результаты его эксперимента с Пизанской башней, в дальнейшем послужили основой для формулирования законов классической механики. 4. Эксперимент Генри Кавендиша После того как Исаак Ньютон сформулировал закон всемирного тяготения: сила притяжения между двумя телами с массами Мит, удаленных друг от друга на расстояние r, равна F=γ(mM/r2), оставалось определить значение гравитационной постоянной γ- Для этого нужно было измерить силу притяжения между двумя телами с известными массами. Сделать это не так просто, потому что сила притяжения очень мала. Мы ощущаем силу притяжения Земли. Но почувствовать притяжение даже очень большой оказавшейся поблизости горы невозможно, поскольку оно очень слабо.
Нужен был очень тонкий и чувствительный метод. Его придумал и применил в 1798 году соотечественник Ньютона Генри Кавендиш. Он использовал крутильные весы — коромысло с двумя шариками, подвешенное на очень тонком шнурке. Кавендиш измерял смещение коромысла (поворот) при приближении к шарикам весов других шаров большей массы. Для увеличения чувствительности смещение определялось по световым зайчикам, отраженным от зеркал, закрепленных на шарах коромысла. В результате этого эксперимента Кавендишу удалось довольно точно определить значение гравитационной константы и впервые вычислить массу Земли.
5. Эксперимент Жана Бернара Фуко
Французский физик Жан Бернар Леон Фуко в 1851 году экспериментально доказал вращение Земли вокруг своей оси с помощью 67-метрового маятника, подвешенного к вершине купола парижского Пантеона. Плоскость качания маятника сохраняет неизменное положение по отношению к звездам. Наблюдатель же, находящийся на Земле и вращающийся вместе с ней, видит, что плоскость вращения медленно поворачивается в сторону, противоположную направлению вращения Земли. 6. Эксперимент Исаака Ньютона В 1672 году Исаак Ньютон проделал простой эксперимент, который описан во всех школьных учебниках. Затворив ставни, он проделал в них небольшое отверстие, сквозь которое проходил солнечный луч. На пути луча была поставлена призма, а за призмой — экран. На экране Ньютон наблюдал «радугу»: белый солнечный луч, пройдя через призму, превратился в несколько цветных лучей — от фиолетового до красного. Это явление называется дисперсией света.
Сэр Исаак был не первым, наблюдавшим это явление. Уже в начале нашей эры было известно, что большие монокристаллы природного происхождения обладают свойством разлагать свет на цвета. Первые исследования дисперсии света в опытах со стеклянной треугольной призмой еще до Ньютона выполнили англичанин Хариот и чешский естествоиспытатель Марци.
Однако до Ньютона подобные наблюдения не подвергались серьезному анализу, а делавшиеся на их основе выводы не перепроверялись дополнительными экспериментами. И Хариот, и Марци оставались последователями Аристотеля, который утверждал, что различие в цвете определяется различием в количестве темноты, «примешиваемой» к белому свету. Фиолетовый цвет, по Аристотелю, возникает при наибольшем добавлении темноты к свету, а красный — при наименьшем. Ньютон же проделал дополнительные опыты со скрещенными призмами, когда свет, пропущенный через одну призму, проходит затем через другую. На основании совокупности проделанных опытов он сделал вывод о том, что «никакого цвета не возникает из белизны и черноты, смешанных вместе, кроме промежуточных темных; количество света не меняет вида цвета». Он показал, что белый свет нужно рассматривать как составной. Основными же являются цвета от фиолетового до красного. Этот эксперимент Ньютона служит замечательным примером того, как разные люди, наблюдая одно и то же явление, интерпретируют его по-разному и только те, кто подвергает сомнению свою интерпретацию и ставит дополнительные опыты, приходят к правильным выводам. 7. Эксперимент Томаса Юнга До начала XIX века преобладали представления о корпускулярной природе света. Свет считали состоящим из отдельных частиц — корпускул. Хотя явления дифракции и интерференции света наблюдал еще Ньютон («кольца Ньютона»), общепринятая точка зрения оставалась корпускулярной. Рассматривая волны на поверхности воды от двух брошенных камней, можно заметить, как, накладываясь друг на друга, волны могут интерферировать, то есть взаимогасить либо взаимоусиливать друг друга. Основываясь на этом, английский физик и врач Томас Юнг проделал в 1801 году опыты с лучом света, который проходил через два отверстия в непрозрачном экране, образуя, таким образом, два независимых источника света, аналогичных двум брошенным в воду камням. В результате он наблюдал интерференционную картину, состоящую из чередующихся темных и белых полос, которая не могла бы образоваться, если бы свет состоял из корпускул. Темные полосы соответствовали зонам, где световые волны от двух щелей гасят друг друга. Светлые полосы возникали там, где световые волны взаимоусиливались. Таким образом была доказана волновая природа света.
8. Эксперимент Клауса Йонссона
Немецкий физик Клаус Йонссон провел в 1961 году эксперимент, подобный эксперименту Томаса Юнга по интерференции света. Разница состояла в том, что вместо лучей света Йонссон использовал пучки электронов. Он получил интерференционную картину, аналогичную той, что Юнг наблюдал для световых волн. Это подтвердило правильность положений квантовой механики о смешанной корпускулярно-волновой природе элементарных частиц. 9. Эксперимент Роберта Милликена Представление о том, что электрический заряд любого тела дискретен (то есть состоит из большего или меньшего набора элементарных зарядов, которые уже не подвержены дроблению), возникло еще в начале XIX века и поддерживалось такими известными физиками, как М.Фарадей и Г.Гельмгольц. В теорию был введен термин «электрон», обозначавший некую частицу — носитель элементарного электрического заряда. Этот термин, однако, был в то время чисто формальным, поскольку ни сама частица, ни связанный с ней элементарный электрический заряд не были обнаружены экспериментально. В 1895 году К.Рентген во время экспериментов с разрядной трубкой обнаружил, что ее анод под действием летящих из катода лучей способен излучать свои, Х-лучи, или лучи Рентгена. В том же году французский физик Ж.Перрен экспериментально доказал, что катодные лучи — это поток отрицательно заряженных частиц. Но, несмотря на колоссальный экспериментальный материал, электрон оставался гипотетической частицей, поскольку не было ни одного опыта, в котором участвовали бы отдельные электроны. Американский физик Роберт Милликен разработал метод, ставший классическим примером изящного физического эксперимента. Милликену удалось изолировать в пространстве несколько заряженных капелек воды между пластинами конденсатора. Освещая рентгеновскими лучами, можно было слегка ионизировать воздух между пластинами и изменять заряд капель. При включенном поле между пластинами капелька медленно двигалась вверх под действием электрического притяжения. При выключенном поле она опускалась под действием гравитации. Включая и выключая поле, можно было изучать каждую из взвешенных между пластинами капелек в течение 45 секунд, после чего они испарялись. К 1909 году удалось определить, что заряд любой капельки всегда был целым кратным фундаментальной величине е (заряд электрона). Это было убедительным доказательством того, что электроны представляли собой частицы с одинаковыми зарядом и массой. Заменив капельки воды капельками масла, Милликен получил возможность увеличить продолжительность наблюдений до 4,5 часа и в 1913 году, исключив один за другим возможные источники погрешностей, опубликовал первое измеренное значение заряда электрона: е = (4,774 ± 0,009)х10-10 электростатических единиц. 10. Эксперимент Эрнста Резерфорда К началу XX века стало понятно, что атомы состоят из отрицательно заряженных электронов и какого-то положительного заряда, благодаря которому атом остается в целом нейтральным. Однако предположений о том, как выглядит эта «положительно-отрицательная» система, было слишком много, в то время как экспериментальных данных, которые позволили бы сделать выбор в пользу той или иной модели, явно недоставало. Большинство физиков приняли модель Дж.Дж.Томсона: атом как равномерно заряженный положительный шар диаметром примерно 108 см с плавающими внутри отрицательными электронами. В 1909 году Эрнст Резерфорд (ему помогали Ганс Гейгер и Эрнст Марсден) поставил эксперимент, чтобы понять действительную структуру атома. В этом эксперименте тяжелые положительно заряженные а-частицы, движущиеся со скоростью 20 км/с, проходили через тонкую золотую фольгу и рассеивались на атомах золота, отклоняясь от первоначального направления движения. Чтобы определить степень отклонения, Гейгер и Марсден должны были с помощью микроскопа наблюдать вспышки на пластине сцинтиллятора, возникавшие там, где в пластину попадала а-частица. За два года было сосчитано около миллиона вспышек и доказано, что примерно одна частица на 8000 в результате рассеяния изменяет направление движения более чем на 90° (то есть поворачивает назад). Такого никак не могло происходить в «рыхлом» атоме Томсона. Результаты однозначно свидетельствовали в пользу так называемой планетарной модели атома — массивное крохотное ядро размерами примерно 10-13 см и электроны, вращающиеся вокруг этого ядра на расстоянии около 10-8 см. Современные физические эксперименты значительно сложнее экспериментов прошлого. В одних приборы размещают на площадях в десятки тысяч квадратных километров, в других заполняют объем порядка кубического километра. А третьи вообще скоро будут проводить на других планетах. Кстати, а вы знаете, что рассказал Нобелевский лауреат Ричард Фрейман о личной жизни муравьев? Читайте в нашем блоге «Толкователи сновидений». И пишите о том, что вам приснилось, — мы растолкуем!
Семь эмпирических правил для экспериментов с веб-сайтами
Перевод статьи: Experimenters Rules of Thumb
Владельцы веб-порталов, от самых маленьких, до таких крупных, как Amazon, Facebook, Google, LinkedIn, Microsoft и Yahoo, пытаются улучшить свой сайты, оптимизируя различные метрики, начиная с количества повторных использований до проведенного у них времени и выручки. Нас привлекали к проведению тысячи экспериментов на Amazon, Booking.com, LinkedIn и Microsoft, и хотим поделиться семью эмпирическими правилами, которые мы вывели из этих экспериментов и их результатов. Мы верим, что эти правила широко применимы как при оптимизации веба, так и в ходе анализа за пределами контрольных экспериментов. Хотя бывают исключения.
Чтобы сделать эти правила более весомыми, мы приведём реальные примеры из нашей работы, причем большинство из них будут опубликованы впервые. Некоторые правила озвучивались и ранее (например, «Скорость имеет значение»), но мы дополнили их допущениями, которые можно использовать при проектировании экспериментов, и делимся дополнительными примерами, которые улучшили наше понимание того, где скорость особенно важна, а в каких областях веб-страниц она не критична.
Эта статья преследует две цели.
Первая: научить экспериментаторов правилам хорошего тона, которые помогут оптимизировать сайты.
Вторая: предоставить сообществу KDD новые темы для исследований применимости этих правил, их улучшения и наличия исключений.
Введение
Владельцы веб порталов от самых маленьких, до крупнейших гигантов пытаются улучшить свои сайты. Передовые компании используют для оценки изменений контрольные тесты (например, А/Б-тесты). Это делают Amazon [1], Ebay, Etsy [2], Facebook [3], Google [4], Groupon, Intuit [5], LinkedIn [6], Microsoft [7], Netflix [8], ShopDirect [9], Yahoo и Zynga [10].
Мы получили опыт оптимизации сайтов, работая со многими компаниями, в том числе Amazon, Booking.com, LinkedIn и Microsoft. К примеру, Bing и LinkedIn проводят сотни параллельных экспериментов в каждый момент времени [6; 11]. Благодаря разнообразию и многочисленности экспериментов, в которых мы принимали участие, сложились эмпирические правила, о которых мы здесь расскажем. Они подтверждены реальными проектами, но из любого правила бывают исключения (о них мы тоже расскажем). Например, «правило 72-ух» — хороший пример полезного эмпирического правила в финансовой сфере. Оно утверждает, что необходимо умножить годовой процент роста на 72, чтобы примерно определить, через сколько лет вы удвоите свои инвестиции. В обычных ситуациях правило очень полезное (когда процентная ставка колеблется между 4 и 12 %), но в других сферах оно не работает.
Так как эти правила были сформулированы по результатам контрольных экспериментов, то они хорошо применимы для оптимизации сайтов и простого анализа, даже если на сайтах не проводят контрольные эксперименты (хотя в этом случае не получится точно оценить влияние сделанных изменений).
Что вы найдёте в этой статье:
- Полезные правила для экспериментов над веб-сайтами. Они ещё развиваются, и нужно дополнительно оценить широту их применения и выяснить наличие новых исключений из этих правил. Важность использования контрольных экспериментов обсуждалось в статье «Online Controlled Experiments at Large Scale»[11]
- Усовершенствование предыдущих правил. Наблюдения вроде «скорость имеет значение» уже озвучивались другими авторами [12;13] и нами [14]. Но мы сделали некоторые допущения при проектировании эксперимента, и расскажем об исследованиях, которые демонстрируют, что в одних областях страницы скорость особенно критична, а в других — нет. Еще мы усовершенствовали старое правило «тысячи пользователей», отвечающее на вопрос, сколько нужно человек для проведения контрольного эксперимента.
- Реальные примеры контрольных экспериментов, публикуются впервые. В Amazon, Bing и LinkedIn контрольные эксперименты используются как часть процесса разработки [7;11]. Многие компании, которые до сих пор не используют контрольные эксперименты, могут извлечь большую пользу из дополнительных примеров работы с изменениями при введении новых парадигм разработки [7;15]. Компании, которые уже используют контрольные эксперименты, извлекут пользу из описанных инсайтов.
Контрольные эксперименты, данные и процесс извлечения знания из данных
Мы обсудим здесь контрольные online-эксперименты, в которых пользователи делятся на группы случайным образом (например, для показа различных вариантов сайта). При этом деление выполняется на постоянной основе, то есть каждый пользователь будет иметь одинаковый опыт на протяжении всего эксперимента (ему всегда будут показывать одну и ту же версию сайта). Взаимодействие пользователя с сайтом (клики, просмотры страницы и т. п.) фиксируется, и на его основе вычисляются ключевые метрики (CTR, количество сессий на пользователя, выручка с пользователя). Проводятся статистические тесты для анализа посчитанных метрик. И если разница между метриками контрольной группы (которая видела старую версию сайта) и экспериментальной (которая видела новую версию) группы статистически значима, то мы, с высокой вероятностью, можем говорить и том, что сделанные изменения повлияют на метрики наблюдаемым в эксперименте образом. Подробнее рассказывается в «Controlled experiments on the web: survey and practical guide» [16].
Мы участвовали в проведении множества экспериментов, чьи результаты были некорректными, и потратили много времени и усилий, чтобы понять причины и найти способы исправления. Многие подводные камни описаны в статьях [17] и [18]. Мы хотим осветить некоторые вопросы о данных, которые используются в проведение контрольных онлайн экспериментах, и о процессе получения знаний из этих данных:
- Источник данных — это реальные сайты, о которых мы говорили выше. Здесь не будет никаких искусственно сгенерированной информации. Все примеры основаны на реальном пользовательском взаимодействии, а метрики вычислены после удаления ботов [16].
- Группы пользователей в примерах взяты случайно из равномерного распределения целевой аудитории (т.е. пользователей, которые, например, должны кликнуть по ссылке, чтобы увидеть изучаемые изменения) [16]. Способ идентификации пользователя зависит от сайта: если пользователь не залогинен, используются Cookies, а если он вошел в систему, то используется его логин.
- Размеры групп пользователей, после очистки от ботов, колеблются от сотен тысяч до миллионов (точные значения указаны в примерах). В большинстве экспериментов, это необходимо для того, чтобы незначительные отличия в метриках имели высокую статистическую значимость.
- Отмеченные результаты были статистически значимыми при p-value<0.05, а обычно и того меньше. Удивительные результаты (в правиле 1) были воспроизведены как минимум еще раз, так, что совокупное p-value, основанное на тесте совокупной вероятности Фишера, имело значение гораздо меньше необходимого.
- Каждый эксперимент — это наш персональный опыт, проверенный хотя бы одним из авторов на наличие стандартных подводных камней. Каждый эксперимент проводился хотя бы неделю. Доли аудитории, которым демонстрировались варианты сайта, были стабильны на протяжении всего периода эксперимента (чтобы избежать эффекта парадокса Симпсона) и соотношения между аудиторией, которые мы наблюдали в процессе эксперимента, совпадали с соотношениями, которые мы задавали при запуске эксперимента [17].
Эмпирические правила для проведения экспериментов
Первые три правила относятся к влиянию изменений на ключевые метрики:
- маленькие изменения могут иметь большое влияние;
- изменения редко имеют большое позитивное влияние;
- ваши попытки повторить звездные успехи, заявленные другими, скорее всего, будут не настолько успешными.
Последующие 4 правила не зависят друг от друга, но каждое из них очень полезно.
Правило №1: маленькие изменения могут иметь БОЛЬШОЕ влияние на ключевые метрики
Любой, кто сталкивался с жизнью сайтов, знает, что любое маленькое изменение может иметь большое негативное влияние на ключевые метрики. Маленькая ошибка в JavaScript’е может сделать оплату невозможной, а маленькие баги, разрушающие стек, могут вызывать падение сервера. Но мы сосредоточимся на позитивных изменениях ключевых метрик. Хорошие новости состоят в том, что есть много примеров, когда маленькое изменение привело к улучшению ключевой метрики. Bryan Eisenberg написал, что удаление поля ввода купона в форме покупки увеличило конверсию на 1000 % на сайте Doctor Footcare [20]. Jared Spool писал, что удаление требования зарегистрироваться при покупке принесло большому ритейлеру $300 000 000 в год [21].
Тем не менее, мы не видели столь значимых изменений в процессе лично проводимых экспериментов. Но мы видели значительные улучшения от малых изменений с удивительно высокой окупаемостью инвестиций (высокое отношение прибыли к стоимости вложенных усилий).
Также хотим отметить, что мы обсуждаем стабилизировавшийся эффект, не «вспышку на Солнце» или фичу с особым новостным/вирусным эффектом. Пример чего-то такого, чего мы не ищем, был описан в книге «Yes!:50 Scientifically proven ways to be Persuasive» [22]. Collen Szot, автор телевизионной передачи, которая побила 20-летний рекорд продаж на телеканале «магазин на диване», заменила три слова в стандартной информационной бегущей строке, что привело к огромному скачку количества покупок. Коллен вместо привычной и знакомой всем фразы «Операторы ждут, пожалуйста, позвоните сейчас» вывела «если операторы будут заняты, пожалуйста, перезвоните снова». Авторы объясняют это следующим социологическим доказательством: зрители думают, что если линия занята, то такие же люди как они, смотрящие информационный канал тоже звонят.
Если уловками вроде той, что упомянута выше, пользуются регулярно, то их эффект нивелируется, потому что пользователи привыкают. В контрольных экспериментах в подобных случаях эффект быстро сходит на нет. Поэтому рекомендуем проводить эксперимент как минимум две недели и следить за динамикой. Хотя на практике подобные вещи встречаются редко [11; 18]. Ситуации, в которых мы наблюдали положительный эффект влияния подобных изменений, были связаны с рекомендательными системами, когда изменение само по себе даёт кратковременный эффект или когда для обработки используются конечные ресурсы.
Например, когда в LinkedIn изменили алгоритм фичи «люди, которых вы можете знать», это породило только одноразовый всплеск метрик количества кликов. Более того, даже если бы алгоритм работал значительно лучше, то каждый пользователь знает конечное количество людей, и после того, как он связался с основными своими знакомыми, эффект любого нового алгоритма упадет.
Пример: Открытие ссылок в новой вкладке. Серия из трех экспериментов
В августе 2008 MSN UK проводила эксперимент на более чем 900 000 пользователей, в котором ссылка на HotMail открывалась в новой вкладке (или новом окне у старых браузеров). Мы раньше сообщали [7], что это минимальное изменение (одна строка кода) привела к увеличению вовлеченности MSN-пользователей. Вовлеченность, измеренная в количестве кликов на пользователя на домашней странице, выросла на 8,9 % среди тех пользователей, кто кликал на HotMail.
В июне 2010 мы воспроизвели эксперимент на аудитории в 2,7 млн пользователей MSN в США, и результаты были аналогичными. На самом деле это тоже пример фичи с эффектом новизны. В первый день её выкатки на всех пользователей 20 % отзывов имели негативный характер. На второй неделе доля недовольных упала до 4 %, а на протяжении третьей и четвертой недели — до 2 %. Улучшение в ключевой метрике было стабильным на протяжении всего этого времени.
В апреле 2011 MSN в США проводила очень большой эксперимент на более чем 12 млн пользователей, которым страницу с результатами поиска открывали в новой вкладке. Вовлеченность, измеренная в кликах на пользователя, выросла на колоссальные 5 %. Это была одна из лучших фич, относящихся к вовлеченности пользователя, которую когда либо реализовывала MSN, и это было тривиальное изменение в коде.
Все основные поисковые системы экспериментируют с открыванием ссылок в новых вкладках/окнах, но полученные результаты для «страницы результатов поиска» не столь впечатляющие.
Пример: Цвет шрифта
В 2013 году Bing проводил ряд экспериментов с цветами шрифтов. Победивший вариант показан на рисунке 1 справа. Вот как были изменены три цвета:
Стоимость таких изменений? Копеечная: просто заменить несколько цветов в CSS-файле. А результат эксперимента показал, что пользователи достигают своих целей (строгое определение успеха — коммерческая тайна) быстрее, а монетизация от этой доработки повысилась более чем на $10 млн в год. Мы скептически отнеслись к таким удивительным результатам, поэтому воспроизвели этот эксперимент на гораздо большей выборке в 32 миллиона пользователей, и результаты подтвердились.
Пример: Правильное предложение в правильное время
В далеком 2004 году стартовая страница Amazon содержала два слота, содержимое которых тестировалось автоматически, чтобы контент, который сильнее улучшает целевую метрику, отображался чаще. Предложение оформить кредитную карту Amazon попадало в топовый слот, что было удивительно, т.к. это предложение имело очень маленькое количество кликов на показ. Но дело в том, что данное приложение было очень прибыльное, поэтому, несмотря на маленький CTR, ожидаемая ценность была очень велика. Вот только удачно ли было выбрано место для такого объявления? Нет! В результате предложение вместе с простым примером выгоды переместили в корзину покупок, которую пользователь видит после добавления товара. Тем самым подчеркивалась выгодность этого предложения на примере каждого товара. Если пользователь добавил в корзину товар, это явное намерение совершить покупку и самое время для такого предложения.
Контрольный эксперимент показал, что такое простое изменение принесло десятки миллионов долларов в год.
Пример: Антивирус
Реклама — прибыльный бизнес, и «бесплатный» софт, установленный пользователями, часто содержит вредоносную часть, которая засоряет страницы рекламой. Например, на рисунке 2 показано, как выглядит страница результатов Bing для пользователя с вредоносной программой, которая добавила на страницу множество рекламы (выделено красным).
Пользователи обычно даже не замечают, что так много рекламы показывает вовсе не тот сайт, который они посещают, a вредоносный код, который они случайно установили. Эксперимент был сложен в реализации, но относительно прост идеологически: изменение базовых процедур, которые модифицируют DOM, и ограничение приложений, которые способны модифицировать страницу. Эксперимент проводили над 3,8 млн пользователей, на чьих компьютерах был сторонний код, который редактировал DOM. У тестовой группы эти изменения были заблокированы. Результаты показали улучшение всех ключевых метрик, включая такую путеводную из них, как количество сессий на пользователя, т.е. люди приходили на сайт чаще. Вдобавок к этому, пользователи успешнее и быстрее выполняли свои задачи, и годовая выручка увеличилась на несколько миллионов долларов. Скорость загрузки страницы, которую мы обсудим в правиле №4, уменьшилась на сотни миллисекунд для страниц, затронутых экспериментом.
Два других маленьких изменения в Bing, которые строго конфиденциальны, заняли дни разработки, и каждое привело к увеличению прибыли от рекламы почти на 100 миллионов долларов в год. В квартальном отчёте Microsoft в октябре 2013 отмечено: «Рекламная выручка от поиска выросла на 47 % благодаря увеличению прибыли от каждого поиска и каждой страницы». Те два изменения внесли значительный вклад в упомянутый рост прибыли.
После этих примеров вы можете подумать, что организации должны сосредоточиться на множестве маленьких изменений. Но ниже вы увидите, что это совсем не так. Да, случаются прорывы на основе маленьких изменений, но они очень редки и неожиданны: в Bing, наверное, один из 500 экспериментов достигает такого высокого ROI и воспроизводимого положительного результата. Мы не утверждаем, что эти результаты будут воспроизводимы на других доменах, лишь хотим донести мысль: проведение простых экспериментов стоит усилий и в итоге может привести к прорыву.
Опасность, возникающая из-за сосредоточенности на маленьких изменениях — это инкрементализм: уважающая себя организация должна иметь набор изменений с потенциально высоким ROI, но в то же время в планах должно быть и несколько крупных изменений, чтобы сорвать большой куш [23].
Правило №2: Изменения редко имеют большое положительное влияние на ключевые метрики
Как говорил Аль Пачино в фильме «Каждое воскресенье», победа дается сантиметр за сантиметром. На сайтах вроде Bing ежегодно крутятся сотни и тысячи экспериментов. Большинство проваливаются, а те, что завершились успехом, влияют на ключевую метрику на 0,1 %-1,0 %, добавляя свою каплю в общее влияние. Маленькие изменения с большим эффектом, описанные в предыдущем правиле, случаются, но они редки.
Важно отметить две вещи:
- Ключевые метрики — это не что-то специфическое, относящееся к отдельной фиче, что можно легко улучшить, а это метрика, значимая для всей организации: например, количество сессий на пользователя [18] или время достижения пользовательской цели [24].
Разрабатывая фичу, очень легко значительно улучшить количество кликов на эту фичу (или другую метрику фичи), просто подсветив её или сделав крупнее. А вот увеличить CTR всей страницы или всего пользовательского опыта — вот где сложная задача. Большинство фич лишь гоняют клики по странице, перераспределяя их между разными областями.
- Метрики должны быть разделены на маленькие сегменты, так их гораздо проще оптимизировать. Например, команда может легко улучшить метрики для запросов о погоде в Bing или покупки TV-программ на Amazon? добавив хороший инструмент сравнения. Тем не менее, 10-процентное улучшение ключевой метрики растворится в метриках всего продукта из-за размеров сегмента. Например, 10-процентное улучшение на 1—процентном сегменте повлияет на весь проект примерно на 0,1 % (примерно, потому что если метрики сегмента отличаются от средних, то и влияние тоже может отличаться).
Важность этого правила велика потому, что во время экспериментов случаются ложноположительные ошибки. У них два вида причин:
- Первые вызваны статистикой. Если мы проводим тысячу экспериментов в год, то вероятность ложноположительной ошибки 0,05 приводит к тому, что для фиксированной метрики мы сотни раз получим ложноположительный результат. А если мы используем несколько не коррелирующих между собой метрик, то этот результат только усиливается. Даже такие большие сайты как Bing не имеют достаточно трафика, чтобы повысить чувствительность и делать выводы с меньшим p-value для таких метрик, как количество сессий на пользователя.
- Вторые вызваны плохой архитектурой, аномалиями в данных, багам или ошибками инструмента.
Результаты на границе статистической значимости считаются предварительными и должны быть воспроизведены для подтверждения результата [11]. Это можно формализовать с помощью Байесовского вывода [25;26]. Если вероятность истинноположительного результата мала, то большинство экспериментов потерпят неудачу в улучшении ключевой метрики, а вероятность положительного влияния на ключевую метрику при p-value близком к 0,05 по-прежнему будет мала. Пусть
$$display$$\beta\text{ — уровень ошибки второго рода (обычно 0,2 при 80 % мощности),}$$display$$
Тогда:Подставляя
, если мы имеем предварительную вероятность успеха равную ⅓ (как мы говорили в [7], это среднее значение среди экспериментов в Microsoft), тогда апостериорная вероятно истинноположительного статистически значимого эксперимента равна 89 %. А если эксперимент — один из тех, про которые мы говорили в первом правиле, когда только 1 из 500 содержит прорывное решение, то вероятность падает до 3,1 %.Забавным следствием из этого правила является тот факт, что держаться кого-то гораздо проще, чем развиваться в одиночку. Решения, принятые в компании, которая ориентируется на статистическую значимость, с большей вероятностью и у вас будут иметь положительный эффект. Например, если у нас уровень успешности экспериментов равен 10-20 %, то если мы возьмем тесты тех фичей, которые были успешными и выкатились на бой в других поисковых системах, то наш уровень успешности будет выше. Верно и обратное: другие поисковые системы тоже должны тестировать и вводить в бой вещи, которые реализовал Bing.
С опытом мы научились не доверять результатам, которые выглядят слишком хорошо, чтобы быть правдой. Люди по-разному реагируют на разные ситуации. Они подозревают неладное и изучают негативные результаты от экспериментов с их великой новой фичей, задают вопросы и погружаются глубже в поиск причин такого результата. Но если результат просто положительный, то подозрительность отступает и люди начинают праздновать, а не изучать глубже и не искать аномалии.
Когда результаты исключительно выдающиеся, мы привыкли следовать закону Twyman’а [27]: Все то выглядит интересным или отличающимся — обычно ложно.
Закон Twyman’а можно объяснить с помощью Байесовского вывода. По нашему опыту мы знали, что прорыв — редкое явление. Например, несколько экспериментов значимо улучшили нашу путеводную метрику, количество сессий на пользователя. Представим, что распределение, которое мы встречаем в экспериментах, нормальное с центром в точке 0 и со стандартным отклонением 0,25 %. Если эксперимент показал +2 % к значению ключевой метрики, тогда мы призываем закон Twyman’а и говорим, что это очень интересный результат, который находится на расстоянии 8 стандартных отклонений от среднего и имеет вероятность 10-15, исключая прочие факторы. Даже при наличии статистической значимости, предварительное ожидание настолько сильное, что мы отложим празднование успеха и углубимся в поиски причины ложноположительной ошибки второго типа. Закон Twyman’а часто применяется к доказательству того, что Р=NP
. Сегодня ни один редактор сайта не обрадуется, если ему придет такое доказательство. Скорее всего, он сразу ответит шаблонным ответом: «в вашем доказательстве, что P = NP, допущена ошибка на странице Х».
Пример: Суррогатная метрика Office Online
Cook и его команда [17] рассказали об интересном эксперименте, который они провели c Microsoft Office Online. Команда тестировал новый дизайн страницы в котором сильно выделялась кнопка, призывающая заплатить за продукт. Ключевая метрика, которую хотела измерить команда: количество покупок на пользователя. Но отслеживание реальных покупок требовало модифицирования системы биллинга, а в то время это было сложно сделать. Тогда команда решила использовать метрику «клики, приводящие к покупке» и применять формулу
(количество кликов) * конверсию = количество покупок
, где берётся конверсия из кликов в покупку.К их удивлению, в эксперименте количество кликов снизилось на 64 %. Такие шокирующие результаты заставили глубже проанализировать данные, и оказалось, что предположение о стабильной конверсии из клика в покупку является ложным. Экспериментальная страница, которая показывала стоимость продукта, привлекала меньше кликов, но те пользователи, которые по ней кликали, были лучше квалифицированы и имели гораздо большую конверсию из клика в покупку.
Пример: Больше кликов с медленной страницы
На страницу результатов поиска Bing добавили JavaScript-код. Этот скрипт обычно замедлял работу страницы, поэтому все ожидали увидеть небольшое негативное влияние на основные метрики вовлеченности, такие как количество кликов на пользователя. Но результаты показали обратное, кликов стало больше! [18] Несмотря на положительную динамику, мы последовали закону Twyman’а и разгадали загадку. Клик-трекеры основаны на веб-маяках, и некоторые браузеры не совершали вызов, если пользователь покидал страницу. [28] Таким образом, JavaScript повлиял на достоверность подсчета кликов.
Пример: Bing Edge
На протяжении нескольких месяцев в 2013-м Bing менял свою Content Delivery Network с Akamai на свою собственную Bing Edge. Переключение трафика на Bing Edge было совмещено со многими другими улучшениями. Несколько команд рапортовало, что они улучшили ключевые метрики: CTR главной страницы Bing повысился, фичи стали использоваться чаще, а отток начал снижаться. И так вышло, что все эти улучшения были связаны с чистотой подсчета кликов: Bing Edge улучшило не только скорость страницы, но и доставляемость кликов. Чтобы оценить эффект, мы запустили эксперимент в котором маячковый подход к отслеживанию кликов заменили на подход с перезагрузкой страницы. Этот прием используется в рекламе и ведет к незначительной потере кликов, замедляя действие каждого клика. Результаты показали, что доля потерянных кликов упала более чем на 60 %! И большинство заявленных в тот период достижений оказались результатом улучшения доставки клика.
Пример: MSN Поиск в Bing
Автодополнение — выпадающий список, в котором предлагаются варианты завершения запроса, пока человек его набирает. MSN планировала улучшить эту фичу с помощью нового и улучшенного алгоритма (команды разработки фич всегда готовы объяснить, почему их новый алгоритм априори лучше старого, но часто расстраиваются, когда видят результаты экспериментов). Эксперимент имел большой успех, количество поисковых запросов, которые приходили в Bing с MSN, значительно выросло. Следуя нашим правилам, мы начали разбираться и выяснили, что когда пользователь кликал в подсказку, новый код делал два поисковых запроса (один из которых сразу закрывался браузером, как только появлялась поисковая выдача).
Так что объяснение многих положительных результатов может быть не столь захватывающим. А наша задача — найти реальное влияние на пользователя, и правило Twyman’а очень помогло в этом и в понимании многих результатов экспериментов.
Правило №3. Ваша выгода будет варьироваться
Существует много задокументированных примеров успешных контрольных экспериментов. Например, «Which Test Won?» содержит сотни примеров A/B-тестов, и список пополняется каждую неделю.
Хотя это отличный генератор идей, у этих примеров есть несколько проблем:
- Качество варьируется. В этих исследованиях кто-то из какой-то компании рассказывает о результате A/B-теста. Была ли там экспертная оценка? Правильно ли он проводился? Были там выбросы? Было p-value достаточно маленьким (мы видели опубликованные A/B-тесты с p-value больше 0,05, что обычно считается статистически незначимым)? Были там подводные камни, о которых мы рассказывали раньше, и которые авторы теста не проверили должным образом?
- То, что работает в одном домене, может не работать в другом. Например, Neil Patel [29] рекомендует использовать слово «free» в рекламе, предлагающей 30-дневную пробную версию, вместо «30-ти дневная гарантия возврата денег». Это может работать с одним продуктом и одной аудиторией, но мы подозреваем, что результат будет сильно зависеть и от продукта, и от аудитории. Joshua Porter [30] заявляет, что «Красный лучше зеленого» для кнопок с призывом к присоединиться «Get Started Now». Но так как мы не видели много сайтов с красной кнопкой призыва к действию, то, видимо, данный результат не столь хорошо воспроизводится.
- Эффект новизны и первого раза. Мы добиваемся стабильности в наших экспериментах, а многие эксперименты во многих примерах не проводились достаточно долго, чтобы проверить наличие таких эффектов.
- Неправильная интерпретация результатов. Какая-то скрытая причина или специфический фактор может быть не распознан или понят неправильно. Приведем два примера. Один из них — первый задокументированный контрольный эксперимент.
Пример 1. Цинга — это заболевание, обусловленное дефицитом витамина C. Она убила более 100 000 человек в 16-18 веках, большинство из них — моряки, которые уходили в дальние плавания и оставались в море дольше, чем могли бы сохраниться фрукты и овощи. В 1747 году доктор James Lind заметил, что цингой меньше страдают на кораблях в Средиземноморье. Он начал давать некоторым морякам лимоны и апельсины, другим оставив обычное питание. Эксперимент оказался очень успешным, но доктор не понял причины. В Королевском Морском Госпитале в Великобритании он лечил пациентов с цингой концентрированным лимонным соком, который он называл «rob». Врач концентрировал его с помощью нагревания, что уничтожало витамин C. Lind потерял веру и стал часто прибегать к кровопусканию. В 1793 году были проведены настоящие испытания. и лимонный сок стал частью дневного рациона моряков. Цинга быстро исчезла, а британских моряков до сих пор называют лимонниками.
Пример 2. Marissa Mayer рассказала об эксперименте, в ходе которого Google увеличил количество результатов на странице поиска с 10 до 30. Трафик и прибыль от пользователей, которые искали в Google, упали на 20 %. И как же она это объяснила? Мол, страница требовала на полсекунды больше, чтобы сгенерироваться. Конечно, производительность — важный фактор, но мы подозреваем, что это повлияло только на малую долю потерь. Вот наше видение причин:
- В Bing проводились изолированные замедляющие эксперименты [11], в ходе которых менялась только производительность. Задержка реакции сервера в 250 миллисекунд повлияла на выручку примерно на 1,5 % и на CTR на 0,25 %. Это большое влияние, и можно предположить, что 500 миллисекунд повлияют на выручку и CTR на 3 % и 0,5 % соответственно, но никак не на 20 % (предположим, что здесь применима линейная аппроксимация). Старые тесты в Bing [32] показывали схожее влияние на клики и меньшее влияние на выручку при задержке в 2 секунды.
- Jake Brutlag из Google писал в своем блоге об эксперименте [12], показывающем, что замедление выдачи результатов поиска со 100 миллисекунд до 400 имеет значительное влияние на удельное количество поисков и колеблется между 0,2 % и 0,6 %, что очень хорошо сочетается с нашими экспериментами, но очень далеко от результатов Marissa Mayer.
- В BIng провели эксперимент с показом 20 результатов поиска вместо 10. Потеря прибыли полностью нивелировала добавление дополнительной рекламы (которая сделала страницу еще чуть-чуть медленнее). Мы верим, что соотношение рекламы и алгоритмов поиска гораздо важнее, чем производительность.
Мы скептично относимся ко многим замечательным результатам A/B-тестов, опубликованных в разных источниках. Когда проверяете результаты экспериментов, спрашивайте самих себя, какой уровень доверия у вас к ним? И запомните, даже если идея работала на одном сайте, то совершенно не обязательно, что она будет работать на другом. Самое лучше, что мы можем сделать, это рассказать о воспроизведении экспериментов и об их успехе или провале. Это принесет больше всего пользы науке.
Правило №4: Скорость значит многое
Веб-разработчики, которые проверяют свои фичи с помощью контрольных экспериментов, быстро поняли, что производительность или скорость сайта — критичные параметры [13;14;33]. Даже небольшая задержка при работе сайта может влиять на ключевые метрики тестовой группы.
Лучший способ оценить влияния производительности — произвести изолированный эксперимент с замедлением, т.е. просто с добавить задержку. На рисунке 3 показан стандартный график зависимости между производительностью и проверяемой метрикой (CTR, удельные успешность и выручка). Обычно чем быстрее сайт, тем лучше (выше на этом графике). Замедляя работу у тестовой группы по отношению к контрольной группе, вы можете измерить влияние производительности на интересующую вас метрику. Важно отметить:
- Влияние замедления на тестовую группу замеряется здесь и сейчас (пунктирная линия на графике) и зависит от сайта и аудитории. Если изменится сайт или аудитория, то снижение производительности может по-другому влиять на ключевую метрику.
- Эксперимент показывает влияние замедления на ключевую метрику. Это может быть очень полезно, когда вы пытаетесь измерить эффект от новой фичи, первая реализация которой не эффективна. Допустим, что она улучшает метрику M на X %, и в то же время замедляет сайт на T %. С помощью эксперимента с замедлением мы можем оценить влияние замедление на метрику М, подкорректировать влияние фичи и получить прогнозируемый эффект X’ % (логично предположить, что эти эффекты обладают свойством аддитивности). И таким образом сможем ответить на вопрос: «Как оно повлияет на ключевую метрику, если будет реализовано эффективно?».
- Мы можем предположить, как повлияет на ключевую метрику тот факт, что сайт начнет работать быстрее и поможет вычислить ROI усилий на оптимизацию. Воспользовавшись линейной аппроксимацией (первый член ряда Тейлора), мы можем предположить, что влияние на метрику одинаково в обоих направлениях. Мы предполагаем, что вертикальная дельта одинакова в обоих направлениях и просто отличается по знаку. Поэтому экспериментируя с замедлением на различные значения мы можем примерно представить, как будет влиять ускорение на эти же значения. Мы проводили такие тесты в Bing и наша теория полностью подтвердилась.
Насколько важна производительность? Критически важна. В Amazon замедление работы на 100 миллисекунд приводит к падению продаж на 1 %, как говорил Greg Linded [34 p.10]. А докладчики из Bing и Google [32] свидетельствуют о значительном влиянии производительности на ключевые метрики.
Пример: Эксперимент по замедлению сервера
Мы проводили в Bing двухнедельный эксперимент по замедлению работы сервиса на 100 миллисекунд у 10 % пользователей, на 250 миллисекунд у других 10 % пользователей. Оказалось, что каждые 100 миллисекунд ускорения работы сервиса увеличивали выручку на 0,6 %. Отсюда даже появилась фраза, которая хорошо отражает суть нашей организации: Инженер, который улучшит производительность сервера на 10 миллисекунд (1/30 от скорости моргания нашего глаза) заработает для компании более чем годовой свой заработок. Каждая миллисекунда имеет значение.
В описанном эксперименте мы замедляли время ответа сервера, потом замедляли время работы всех элементов на странице. Но у страницы есть более важные части, а есть менее важные. Например, пользователи не могут знать, что элементы за границей видимости экрана еще не подгрузились. Но есть ли отображаемые сразу элементы, которые можно замедлить без ущерба для пользователя? Как вы увидите ниже, такие элементы есть.
Пример: производительность правой панели не так критична
В Bing некоторые элементы, называемые снапшотами, находятся на правой панели и загружаются поздно (после события window.onload). Недавно мы провели эксперимент: элементы правой панели замедлили на 250 миллисекунд. Если это и повлияло на ключевые метрики, то столь незначительно, что мы ничего не заметили. А в эксперименте участвовало почти 20 миллионов пользователей.
Время загрузки страницы (PLT) часто вычисляется с помощью события window.onload, как признака завершения полезной активности браузера. Но сегодня такая метрика имеет серьезный изъян при работе с современными браузерами. Как показал Steve Souders [32], верхняя часть страницы Amazon рендерится за 2 секунды, тогда как windows.onload срабатывает через 5,2 секунды. В Schurman [32] заявляли, что умеют рендерить страницу динамически, поэтому им важно показать шапку очень быстро. Бывает верно и обратное: в Gmail windows.onload срабатывает через 3,3 секунды, тогда как на экране в этот момент появилась только полоса загрузки, а весь контент будет показан через 4,8 секунды.
Существуют метрики, связанные со временем, например: время до первого результата (скажем, время до первого твита в Twitter, первый результат поиска на странице с результатами). Но термин «Perceived performance» всегда используется для описания такой скорости работы страницы, чтобы пользователь воспринимал её достаточно полноценной. Концепцию «Perceived performance» проще описать интуитивно, чем строго сформулировать, поэтому ни у одно из браузеров нет в планах реализации события perception.ready()
. Для решения этой задачи используется много предположений и допущений, например:
- Время показа верхней части страницы (AFT) [37]. Измеряется как момент, когда будут отображены все верхние пикселы страницы. Реализация основана на эвристиках, которые особенно сложны, когда имеем дело с видео, гифками, прокручивающимися галереями и прочим динамическим контентом, который изменяет верхнюю часть страницы. Можно выставлять пороги на «процент нарисованных пикселей», чтобы избежать влияния мелких и незначительных элементов, которые могут увеличить измеряемую метрику.
- Индекс скорости [38] — некоторое обобщение AFT, которое усредняет время, в течение которого видимые элементы страницы появляются на экране. Скорость не страдает от мелких элементов, которые появляются поздно, но на неё всё ещё влияет динамический контент, который меняет верхнюю часть страницы.
- Время фаз страниц и время готовности пользователя [39]. Время фаз страниц — время, требуемое на каждую отдельную фазу рендеринга страницы. Тоже является мерой того, как быстро меняются пиксели на странице. Время готовности пользователя — время, необходимое для отображения главных для пользователя элементов.
Новый W3C-интерфейс работы со временем, предложенный в новом стандарте HTML, предоставляет доступ к более детальному разделению событий на странице и, скорее всего, позволит лучше понять проблемы с производительностью. Все эксперименты, о которых мы говорили выше, проводились для десктопной версии сайтов, но из них можно многое извлечь и для мобильных интерфейсов.
В Bing мы используем множество метрик производительности для диагностики состояния сервиса, но наша ключевая метрика «Время до выполнения своей задачи» (TTS) [24] находится за рамками обсуждения проблем измерения метрик. Цель поискового движка — чтобы пользователь решил свою задачу как можно быстрее. Для кликабельных элементов считается успехом, если пользователь как минимум 30 секунд не возвращался обратно после клика на элемент. Метрика времени необходимого для успеха пользователя — она коррелирует с «Perceived performance». Если страница отображается медленно, то пользователи медленнее кликают и медленнее достигнут желаемого; если страница начинает работать быстрее, то быстрее отработают все скрипты, пользователь раньше сможет интерпретировать страницу и быстрее добьётся желаемого. Кроме того, этой относительно простой метрике не нужны эвристики, которые обычно появляются, когда разговор заходит об измерениях времени. Эта метрика очень устойчива к изменениям, но при этом достаточно чувствительна. Её недостаток в том, что она подходит для тех случаев, когда необходим клик, когда бывают запросы, при которых пользователю для достижения цели кликать никуда не надо — в подобных ситуациях эта метрика не применима.
Правило №5: уменьшить отток со страницы — тяжело, а вот перекидывать клики из одной области в другую — просто
Ключевая метрика, которая измеряется в Bing во время контрольных экспериментов — уровень оттока, то есть какой процент пользователей покинул страницу, ни кликнув ни по одной ссылке. Увеличение пользовательского вовлечения в продукт, уменьшение оттока — это очень положительные результаты, но это те метрики, которые очень тяжело изменить. Большинство экспериментов показывают, что можно значительно перемещать клики из одной области в другую, но отток меняется редко или на ничтожно маленькие значения. Ниже мы опишем несколько экспериментов, в ходе которых были сделаны большие изменения, но отток статистически значимо не изменился.
Пример: Связанные поиски в правой колонке
В Bing в правой колонке показываются связанные поисковые запросы. например, если вы искали «data mining», Bing покажет справа «Examples of data mining», «Advantages of Data Mining», «definition of data mining», «Data mining companies»,«data mining software» и т.д. Это может помочь пользователям изменить свой запрос и успешнее находить нужную информацию. В эксперименте связанные поисковые запросы убрали из правой колонки для 10 миллионов пользователей. В результате пользовательские клики переехали в другую область, но статистически значимого изменения оттока не произошло (p-value 0,64).
Пример: Связанные поиски под верхней рекламой
Bing показывается связанные поиски в строках, которые могут плавать в поисковой выдаче, если поисковик считает, что они более релевантны, чем верхние результат работы алгоритма. В эксперименте мы зафиксировали связанные поиски прямо под верхней рекламой. В результате этого эксперимента клики на связанные поисковые запросы упали на 17 %, но статистически значимого изменения уровня оттока не произошло (p-value 0,71).
Пример: Обрезание страницы поисковой выдачи
Bing задает размер страницы с поисковой выдачей динамически, а не всегда показывает классические 10 голубых ссылок. Это изменение стало возможным благодаря стабильности уровня оттока, который показали два эксперимента:
- Когда возникает блок со вложенными ссылками, например, для запроса «ebay», то CTR на этот верхний блок равен 75 %. Показывать 10 результатов для такого запроса бессмысленно. Поэтому провели эксперимент: для 8 миллионов пользователей, по чьим запросам была выдача с вложенным блоком, показали под ним всего 4 результата работы поискового алгоритма. Статистически значимого изменения уровня оттока не произошло (p-value 0,92), но страницы стали грузиться значительно быстрее и эта фича была реализована в production.
- Когда пользователь уходит из поисковой выдачи, а потом возвращается с помощью кнопки «назад» в браузере или повторяет запрос, Bing в этом случае выдаёт больше строк с результатами поиска (14 результатов). Эксперимент, который затронул 3 миллиона «целевых» пользователей, показал статистически значимое изменение метрик: на 1,8 % упала выручка с пользователей, на 30 миллисекунд замедлилась загрузка страницы, на 18 % упала пагинация (листание результатов поиска), но статистически значимого изменения уровня оттока не произошло (p-value 0,93). Это изменение не было вынесено на бой.
Пример: цвет фона рекламной ссылки
Все основные поисковые движки экспериментируют с фоном для рекламы. В недавнем эксперименте с 10 миллионами пользователей тестовый цвет привел к тому, что выручка упала на 12 % (годовые потери порядка $150 млн, если бы это изменение было выкачено на бой). Клики пользователей переехали с рекламы в другие места сайта, но статистически значимого изменения уровня оттока не произошло (p-value 0,83)
Мы видели эксперименты, когда уровень оттока улучшался, значительно повышалась релевантность поисковой выдачи. Но это необычные эксперименты, а изменение оказалось значительно меньше, чем можно было бы ожидать.
Это правило очень важно потому, что мы наблюдали много экспериментов (в Microsoft, Amazon и по рассказам других.), в которых на страницу добавляли модуль или виджет с хорошим CTR. Далее люди заявляли, что это очень полезный для пользователей модуль, потому что они на него кликают. Но может быть так, что модуль просто перетягивает на себя клики из других областей страницы. И если такая каннибализация имеет место, то этот модуль хороший только если клики на него лучше. При этом понятие «лучше» для каждого сайта и ситуации определяется отдельно. В заключение можно сказать следующее: локальное улучшение — это простая задача, а глобальное улучшение — гораздо сложнее.
Правило №6: избегать сложных экспериментов, действовать итеративно
Добротный и подробный план эксперимента жизненно необходим для получения хорошего результата. Сэр Р.А.Фишер однажды сказал [40]: «Консультация с аналитиком после того, как эксперимент закончился, это словно проведение посмертного обследования. Единственное, что он сможет сказать — что эксперимент мертв». Опыт подсказывает нам, что простые эксперименты являются лучшими в online-мире, и несмотря на то, что у них есть свои подводные камни [17;41], их проще понять и проверить корректность, следовательно, они более надёжны. В сложных экспериментах нет необходимости, к тому же в них могут таиться баги. Вот несколько примеров из опыта LinkedIn.
Пример: Объединенный поиск в LinkedIn
В LinkedIn запуск продукта включает в себя множество фич и компонентов. В 2013 году было проведено масштабное обновление поиска, в благодаря которому появилось автозавершение, предложение вариантов, и, самое главное — универсальный поиск по всему LinkedIn, который позволял одновременно искать среди различных категорий сервиса. В прошлом человек должен был выбрать, что именно он ищет: людей, должности или работодателей. С универсальным поиском стал достаточно умным, чтобы самому догадаться, что именно ты ищешь, и выдать релевантный результат. Но это было не всё. Изменили практически каждый элемент поисковой страницы: от левого ползунка навигации до сниппетов и кнопок. Первый эксперимент провели со всеми изменениями, собранными в одну кучу, и множеством метрик, и получили билиберду в целевых метриках. Затем долго удаляли фичи одну за другой, и обнаружили, что падение кликов и выручки произошло из-за пачки фич, не включенных в итоговую версию, а не из-за самого универсального поиска. После исправления этих фич универсальный поиск положительно повлиял на поведение пользователей и был раскачен на всю аудиторию сервиса.
Пример: Контакты в LinkedIn
Недавно LinkedIn показал широкой публике новую страницу контактов. Предполагалась, что с ней людям будет проще поддерживать связь друг с другом. Все верили, что это очень хорошая фича для пользователей. Но когда пришли результаты эксперимента, то все пришли в ужас. Эксперимент был очень сложен, поэтому было достаточно тяжело разбираться, где и что пошло не так. Прежде всего, не предполагалось участия людей из белого списка. Поэтому перед тем, как отнести пользователя к контрольной или тестовой группе, проверяли, подходит ли пользователь для участия в эксперименте. Далее, в зависимости от от выбранной группы запускалось еще два эксперимента, которые решали, какую страницу контактов показать пользователю. План эксперимента был достаточно сложен и потребовалось время, чтобы понять, что был баг в процедуре отбора пользователя. Если пользователь однажды видел новую страницу контактов, то он попадал в белый список и навсегда вычеркивался из эксперисмента. Ничего удивительного, что мы увидели растущий отток и падение вовлеченности пользователя на тестовой группе.
В offline-экспериментах сложный проект может иметь значение, потому что тестируемый объект конечен или дорог, но в online, когда мы имеем бесконечный поток пользователей, мы можем проводить сотни параллельных экспериментов, тестируя различные изменения [4;11]. Литературы по многопеременным (Mullty-Variable) тестам достаточно много, и коммерческие продукты рекламируют свою возможность проводить MV-тесты. Но мы предпочитаем однопеременные (такие как А/B/C/D) или двухпеременные тесты.
Один из аргументов в пользу однопеременных тестов — их совместимость с идеологией Agile, в которой приветствуется создание MVP [15]: вместо написания кода для сложного MVT, запускаете тест, как только готова основная фича. Вы узнаете важные вещи после того, как покажете фичу пользователю. Увидите динамику в неожиданных метриках, получите голосовую обратную связь, встретитесь с багами и т.д. Большие MV-тесты на новом коде чаще всего оказываются некорректными из-за допущенной ошибки хотя бы в одной переменной.
Мы поощряем наши команды за быструю выкатку кода и проведение экспериментов и предлагаем им форму контроля эффективности: начиная с 1 % контрольной группы с дальнейшим повышением, если не наблюдалось никаких вопиющих ухудшений в метриках. Придерживаясь Agile-методологий и не контролируя эффективность через контрольные тесты вы рискуете повторить одну из выкаток Knight Capital, которая в августе 2012 привела к потере 440 миллионов долларов и понизила стоимость Knights на 75 %.
Правило №7: Имейте достаточное количество пользователей
Методологии проведения экспериментов часто основаны на мат. ожиданиях, про которые предполагается, что они распределены нормально. Центральная предельная теорема гласит, что среднее случайной величины распределено нормально, если выборка достаточно велика. Книги по прикладной статистике часто предполагают, что будет достаточно маленького числа. Например, в статье [42] говорится, что в большинстве практических случаев, если n > 30, распределение средних можно считать нормальным несмотря на форму исходного распределения. Так как мы добиваемся статистической значимости ориентируясь на хвосты распределений, нам понадобятся гораздо большие выборки. Мы давали совет в предыдущих статьях — использовать тысячи пользователей, Neil Patel советует десятки тысяч месячных пользователей, но фактическое количество зависит от интересующей вас метрики.
Есть формула вычисления минимального размера выборки, она зависит от стандартного отклонения метрики и от чувствительности (ожидаемого эффекта на этой метрике) [16], но предполагается, что распределение средних является нормальным.{3/2}}$$
Мы рекомендуем использовать это правило, когда смещение больше 1. Ниже приведена таблица со значениями смещений, размерами выборки и чувствительностью, которые получены в экспериментах с некоторыми метриками в Bing:
Метрика |
Смещение |
Размер выборки |
Чувствительность |
Revenue/User |
17,9 |
114 тыс. |
4,4 % |
Revenue/User (capped) |
5,2 |
9,7 тыс. |
10,5 % |
Sessions/User |
3,6 |
4,7 тыс. |
5,4 % |
Time To Success |
2,1 |
1,55 тыс. |
12,3 % |
В нашей практике был случай, когда на одном сайте смещенность метрики «количество покупок на человека» была больше 10, а смещённость метрики «выручка с пользователя» — больше 30. Наше правило дает 95 % вероятность того, что оба конца распределения, которые обычно равны 0,025, будут на самом деле не больше 0,3 и не меньше 0,2. Это правило было взято из работы Boos и Hughes-Oliver [43]. Смещённые распределения с тяжелым хвостом очень часты в работе с веб данными, поэтому наша формула очень полезна. Из таблицы видно, что выручка на пользователя имеет коэффициент смещения 18,2, поэтому необходимо 114 тыс. пользователей для проведения достоверного эксперимента. Ниже на графике 4 видно, что если семплируем только 100 или 1000 пользователей, то точки плохо ложаться на диагональ QQ. Это говорит о смещенности распределения и поэтому 95-процентный доверительный двусторонний интервал, предполагающий нормальность, не совпадёт с реальным более чем на 5 %. Когда же мы взяли 100 000 пользователей, распределение стало очень близким к нормальному в интервале от -2 до 2.
Если метрика сильно смещена, то иногда можно как-то трансформировать её значения для уменьшения смещения, чтобы среднее сходилось к нормальному быстрее. После того, как мы ограничили метрику «доход на пользователя» десятью долларами в неделю, то увидели, что смещенность упала с 18 до 5, чувствительность значительно выросла. При равных размерах выборки ограничение удельной выручки помогает обнаружить изменения, которые на 30 % меньше, чем при использовании оригинальной метрики.
Наше правило позволяет оценить количество пользователей, необходимое для того, чтобы считать распределение средних нормальным. Если предполагается, что контрольная и тестовые группы имеют одно распределение, то никаких ценных советов мы дать не можем убедитесь только, что они имеют одинаковый размер, тогда распределение их разницы будет идеально симметричным и смещенность будет близка к 0. В этом случае наше правило не будет иметь смысла, так как оно действует при коэффициенте смещенности большем по модулю 1.
Есть более сложные вычисления, которые могут помочь снизить нижнюю границу количества пользователей [16]. А для смещенных распределений с малым количеством семплов можно использовать bootstrap [44].
Заключение
В этой статье мы рассказали про 7 правил проведения контрольных экспериментов с примерами, которые мы вынесли из своего опыта, проведя тысячи экспериментов. Первые два правила говорят нам, что даже маленькие изменения на сайте могут дать большое изменение метрики, но положительное изменение случается редко, и чаще всего движение идет за счет небольших подвижек, полученных в разных экспериментах. Если результаты эксперимента кажутся слишком хорошими, то воспользуйся правилом Twyman’а и не доверяй этому эксперименту, разберись в нем глубже, в большинстве случаев найдёте ошибку. Третье правило касается любых публикуемых экспериментов, мы научились относиться к ним осторожно, и при попытке внедрять аналогичные решения всегда проверяем результат контрольным тестом, будучи готовыми к тому, что у нас результат может отличаться. Четвертое правило — наше любимое — касается скорости. Мы провели множество экспериментов, чтобы понять взаимоотношение между скоростью, производительностью и ключевыми метриками, показали, что скорость ответа сервера — критичный показатель для нашего сервиса. Также мы показали, что скорость ключевых частей страниц важнее, чем остальных элементов (например, боковой панели). Несмотря на наше отношение, мы сомневаемся в некоторых примерах, которые привели в рамках третьего правила. Пятое правило — это эмпирическое наблюдение, которое, как мы думаем, будет уточнено в дальнейшем. Но поражает то, насколько широко это правило применимо: можно легко и сколько угодно гонять клики пользователей по разным частям страницы, но уровень покидания изменить очень трудно. Поэтому, когда делаете локальные оптимизации убедитесь, что вы не снизили ключевую метрику у другого блока. Шестое правило предлагает не планировать сложные эксперименты, а выкатывать маленькие итерации. Эта идея хорошо сочетается с современной парадигмой Agile. Седьмое правило — предоставляем нижнюю границу количества пользователей, необходимого для контрольного эксперимента со смещенным распределением. Большинство примеров, приведённых в этой статье, демонстрируются впервые. Они зиждятся на эмпирических правилах и усиливают наше убеждение, что эксперименты — необходимая вещь в разработке продукта. Мы надеемся, что эти правила помогут сообществу и стимулируют новые исследования, которые, возможно добавят новые правила.
Благодарности
Мы хотим поблагодарить наших коллег, которые провели с нами множество экспериментов, что помогло нам составить этот список из семи правил. Mujtaba Khambatti, John Psaroudakis, и Sreenivas Addagatke, были вовлечены в процесс оценки быстродействия и его анализа. Мы хотим поблагодарить за отзывы и комментарии к черновикам статьи Juan Lavista Ferres, Urszula Chajewska, Greben Langendijk, Lukas Vermeer, и Jonas Alves. Комментарии к последним черновикам дали Eytan Bakshy, Brooks Bell и Colin McFarland.Литература
- Kohavi, Ron and Round, Matt. Front Line Internet Analytics at Amazon.com. [ed.] Jim Sterne. Santa Barbara, CA: s.n., 2004. ai.stanford.edu/~ronnyk/emetricsAmazon.pdf.
- McKinley, Dan. Design for Continuous Experimentation: Talk and Slides. [Online] Dec 22, 2012. mcfunley.com/designfor-continuous-experimentation.
- Bakshy, Eytan and Eckles, Dean. Uncertainty in Online Experiments with Dependent Data: An Evaluation of Bootstrap Methods. KDD 2013: Proceedings of the 19th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2013.
- Tang, Diane, et al. Overlapping Experiment Infrastructure: More, Better, Faster Experimentation. Proceedings 16th Conference on Knowledge Discovery and Data Mining. 2010.
- Moran, Mike. Multivariate Testing in Action: Quicken Loan’s Regis Hadiaris on multivariate testing. Biznology Blog by Mike Moran. [Online] December 2008. www.biznology.com/2008/12/multivariate_testing_in_action.
- Posse, Christian. Key Lessons Learned Building LinkedIn Online Experimentation Platform. Slideshare. [Online] March 20, 2013. www.slideshare.net/HiveData/googlecontrolledexperimentationpanelthe-hive.
- Kohavi, Ron, Crook, Thomas and Longbotham, Roger. Online Experimentation at Microsoft. Third Workshop on Data Mining Case Studies and Practice Prize. 2009. http://expplatform.com/expMicrosoft.aspx.
- Amatriain, Xavier and Basilico, Justin. Netflix Recommendations: Beyond the 5 stars. [Online] April 2012. techblog.netflix.com/2012/04/netflix-recommendationsbeyond-5-stars.html.
- McFarland, Colin. Experiment!: Website conversion rate optimization with A/B and multivariate testing. s.l.: New Riders, 2012. 978-0321834607.
- Smietana, Brandon. Zynga: What is Zynga’s core competency? Quora. [Online] Sept 2010. www.quora.com/Zynga/What-is-Zyngas-corecompetency/answer/Brandon-Smietana.
- Kohavi, Ron, et al. Online Controlled Experiments at Large Scale. KDD 2013: Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. 2013. bit.ly/ExPScale.
- Brutlag, Jake. Speed Matters. Google Research blog. [Online] June 23, 2009. googleresearch.blogspot.com/2009/06/speed-matters.html.
- Sullivan, Nicole. Design Fast Websites. Slideshare. [Online] Oct 14, 2008. www.slideshare.net/stubbornella/designingfast-websites-presentation.
- Kohavi, Ron, Henne, Randal M and Sommerfield, Dan. Practical Guide to Controlled Experiments on the Web: Listen to Your Customers not to the HiPPO. The Thirteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2007). August 2007, pp. 959-967. www.expplatform.com/Documents/GuideControlledExperiments.pdf.
- Ries, Eric. The Lean Startup: How Today’s Entrepreneurs Use Continuous Innovation to Create Radically Successful Businesses. s.l.: Crown Business, 2011. 978-0307887894.
- Kohavi, Ron, et al. Controlled experiments on the web: survey and practical guide. Data Mining and Knowledge Discovery. February 2009, Vol. 18, 1, pp. 140-181. www.exp-platform.com/Pages/hippo_long.aspx.
- Crook, Thomas, et al. Seven Pitfalls to Avoid when Running Controlled Experiments on the Web. [ed.] Peter Flach and Mohammed Zaki. KDD ’09: Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining. 2009, pp. 1105-1114. www.expplatform.com/Pages/ExPpitfalls.aspx.
- Kohavi, Ron, et al. Trustworthy online controlled experiments: Five puzzling outcomes explained. Proceedings of the 18th Conference on Knowledge Discovery and Data Mining. 2012, www.expplatform.com/Pages/PuzzingOutcomesExplained.aspx.
- Wikipedia contributors. Fisher’s method. Wikipedia. [Online] Jan 2014. http://en.wikipedia.org/wiki/Fisher %27s_method.
- Eisenberg, Bryan. How to Increase Conversion Rate 1,000 Percent. ClickZ. [Online] Feb 28, 2003. www.clickz.com/showPage.html?page=1756031.
- Spool, Jared. The $300 Million Button. USer Interface Engineering. [Online] 2009. www.uie.com/articles/three_hund_million_button.
- Goldstein, Noah J, Martin, Steve J and Cialdini, Robert B. Yes!: 50 Scientifically Proven Ways to Be Persuasive. s.l.: Free Press, 2008. 1416570969.
- Collins, Jim and Porras, Jerry I. Built to Last: Successful Habits of Visionary Companies. s.l.: HarperBusiness, 2004. 978- 0060566104.
- Badam, Kiran. Looking Beyond Page Load Times – How a relentless focus on Task Completion Times can benefit your users. Velocity: Web Performance and Operations. 2013. velocityconf.com/velocityny2013/public/schedule/detail/32 820.
- Why Most Published Research Findings Are False. Ioannidis, John P. 8, 2005, PLoS Medicine, Vol. 2, p. e124. www.plosmedicine.org/article/info:doi/10.1371/journal.pme d.0020124.
- Wacholder, Sholom, et al. Assessing the Probability That a Positive Report is False: An Approach for Molecular Epidemiology Studies. Journal of the National Cancer Institute. 2004, Vol. 96, 6. jnci.oxfordjournals.org/content/96/6/434.long.
- Ehrenberg, A. S. C. The Teaching of Statistics: Corrections and Comments. Journal of the Royal Statistical Society. Series A, 1974, Vol. 138, 4.
- Ron Kohavi, David Messner,Seth Eliot, Juan Lavista Ferres, Randy Henne, Vignesh Kannappan,Justin Wang. Tracking Users’ Clicks and Submits: Tradeoffs between User Experience and Data Loss. Redmond: s.n., 2010.
- Patel, Neil. 11 Obvious A/B Tests You Should Try. QuickSprout. [Online] Jan 14, 2013. http://www.quicksprout.com/2013/01/14/11-obvious-ab-tests-youshould-try/.
- Porter, Joshua. The Button Color A/B Test: Red Beats Green. Hutspot. [Online] Aug 2, 2011. blog.hubspot.com/blog/tabid/6307/bid/20566/The-ButtonColor-A-B-Test-Red-Beats-Green.aspx.
- Linden, Greg. Marissa Mayer at Web 2.0. Geeking with Greg. [Online] Nov 9, 2006. glinden.blogspot.com/2006/11/marissa-mayer-at-web20.html.
- Performance Related Changes and their User Impact. Schurman, Eric and Brutlag, Jake. s.l.: Velocity 09: Velocity Web Performance and Operations Conference, 2009.
- Souders, Steve. High Performance Web Sites: Essential Knowledge for Front-End Engineers. s.l.: O’Reilly Media, 2007. 978-0596529307.
- Linden, Greg. Make Data Useful. [Online] Dec 2006. sites.google.com/site/glinden/Home/StanfordDataMining.20 06-11-28.ppt.
- Wikipedia contributors. Above the fold. Wikipedia, The Free Encyclopedia. [Online] Jan 2014. en.wikipedia.org/wiki/Above_the_fold.
- Souders, Steve. Moving beyond window.onload (). High Performance Web Sites Blog. [Online] May 13, 2013. www.stevesouders.com/blog/2013/05/13/moving-beyondwindow-onload.
- Brutlag, Jake, Abrams, Zoe and Meenan, Pat. Above the Fold Time: Measuring Web Page Performance Visually. Velocity: Web Performance and Operations Conference. 2011. en.oreilly.com/velocitymar2011/public/schedule/detail/18692.
- Meenan, Patrick. Speed Index. WebPagetest. [Online] April 2012. sites.google.com/a/webpagetest.org/docs/usingwebpagetest/metrics/speed-index.
- Meenan, Patrick, Feng, Chao (Ray) and Petrovich, Mike. Going Beyond onload — How Fast Does It Feel? Velocity: Web Performance and Operations. 2013. velocityconf.com/velocityny2013/public/schedule/detail/31 344.
- Fisher, Ronald A. Presidential Address. Sankhyā: The Indian Journal of Statistics. 1938, Vol. 4, 1. www.jstor.org/stable/40383882.
- Kohavi, Ron and Longbotham, Roger. Unexpected Results in Online Controlled Experiments. SIGKDD Explorations. 2010, Vol. 12, 2. www.exp-platform.com/Documents/2010- 12 %20ExPUnexpectedSIGKDD.pdf.
- Montgomery, Douglas C. Applied Statistics and Probability for Engineers. 5th. s.l.: John Wiley & Sons, Inc, 2010. 978- 0470053041.
- Boos, Dennis D and Hughes-Oliver, Jacqueline M. How Large Does n Have to be for Z and t Intervals? The American Statistician. 2000, Vol. 54, 2, pp. 121-128.
- Efron, Bradley and Robert J. Tibshirani. An Introduction to the Bootstrap. New York: Chapman & Hall, 1993. 0-412-04231- 2.
что ждет участников эксперимента — СКБ Контур
С чего начался эксперимент
Речь о переводе кадрового документооборота в электронный формат зашла еще в 2017 году в связи с национальной программой «Цифровая экономика». По замыслу разработчиков переход на кадровый ЭДО:
- повысит качество управления за счет ускоренного обмена информацией;
- упростит взаимодействие работников с кадровой службой и контролирующими органами;
- обезопасит кадровые документы, содержащие в том числе персональные данные сотрудников;
- сократит расходы на печать и бумагу.
В 2018 году работу с кадрами «оцифровали» компании-гиганты: «Российские железные дороги», «Газпром», «АвтоВаз» и пр. Пилотный проект цифрового документооборота выявил серьезные проблемы, решение которых взял на себя Минтруд.
Весной 2020 года актуальность вопроса возросла: половина страны перешла на удаленную работу и оформлять документы по всем правилам работодателям стало сложнее. В апреле Президент РФ подписал Федеральный закон № 122-ФЗ, который дал старт масштабному эксперименту по всей стране. Порядок и сроки его проведения, требования к участникам утверждены Приказом Минтруда России от 14.05.2020 № 240Н.
Эксперимент продлится до 31 марта 2021 года.
Как будет проходить оцифровка кадрового документооборота
Проект предполагает, что документы кадровые службы будут оформлять, подписывать и хранить только в электронном виде — без дублирования на бумаге. Работодатели могут работать в своих системах или в информационной системе «Работа в России».
Участники эксперимента самостоятельно определяют, какие типы документов они готовы перевести в цифровой формат: трудовые договоры, приказы о приеме на работу или увольнении, график отпусков и пр. Работодатель подписывает документы усиленной квалифицированной электронной подписью. Как должен подписывать документы работник, в законе № 122-ФЗ не уточняется.
Особое правило введено только для трудовых и ученических договоров, договоров о материальной ответственности. Их сотрудник подписывает простой подписью, если организация ведет документооборот в системе «Работа в России», или усиленной неквалифицированной — если в своей учетной системе.
Эксперимент не распространяется на электронные трудовые книжки. Эту сферу регулирует Федеральный закон от 16.12.2019 № 439-ФЗ.
Участие в проекте добровольное. О своем желании присоединиться к эксперименту может заявить учреждение или коммерческая организация любой сферы деятельности.
Работодатель не может заставлять сотрудников вести документы в электронном виде. Они присоединяются к проекту добровольно, вправе отказаться от участия на старте и даже выйти из проекта в любой момент. К эксперименту можно привлекать соискателей и только устроившихся работников.
Специалист по кадровому учету Контура Алсу Гензель:
«Контур тоже принимает участие в эксперименте Минтруда. Свое согласие уже дали около 50 % сотрудников, и этот показатель меняется ежедневно. На онлайн-подписание документов мы перевели приказы по командировкам и всем видам отпусков».
Не могут участвовать в эксперименте сотрудники, временно занятые в организации по договору о предоставлении персонала, а также дистанционные работники. Документооборот с последними регулируется ст. 312.2 ТК РФ. Основные документы могут быть оформлены электронно, но работодатель обязан в срок до трех дней отправить бумажный экземпляр почтой.
Все расходы, связанные с экспериментом, в том числе затраты на оформление электронных подписей для сотрудников, работодатели берут на себя.
Автоматизировать кадровый учет можно уже сейчас: используйте возможности программы Контур.Персонал
Как принять участие в эксперименте
Если ваша организация хочет присоединиться к проекту, до 1 декабря 2020 года подайте заявление в Минтруд России. В заявлении укажите: ИНН и название, штатную численность и предварительное количество сотрудников-участников эксперимента. Образец заявления вы найдете в Приложении № 1 к приказу № 240.
Кроме того, проведите предварительную подготовку:
- Определите типы документов, которые будут вестись только в цифровом формате.
- Получите согласие работников на участие в эксперименте, сформируйте список желающих.
- Внесите изменения в локальные нормативные акты, в том числе регулирующие использование электронной подписи, обработку персональных данных и пр.
- Ознакомьте работников с порядком проведения эксперимента и сопутствующими документами.
- Установите программу для кадрового ЭДО или используйте информационную систему «Работа в России» — сейчас система в разработке, в эксплуатацию ее запустят 20 июля.
Обратите внимание: работодатель обязан обеспечить защиту персональных данных работников, в том числе в электронных документах, поэтому установленная учетная программа и система передачи документов должны соответствовать требованиям № 152-ФЗ.
Какую отчетность будут сдавать работодатели
Будьте готовы в ходе эксперимента подавать в Минтруд промежуточные отчеты:
- до 1 августа 2020 года;
- до 1 декабря 2020 года;
- до 2 апреля 2021 года.
Отчет должен содержать сведения:
- Количество сотрудников, которые согласились участвовать в эксперименте изначально, процент участвующих на начало отчетного этапа, доля вышедших досрочно.
- Перечень документов, которые работодатель выбрал для эксперимента.
- Перечень мероприятий, которые провел работодатель, чтобы перейти на электронный учет документов, в том числе:
- доработка установленного ПО;
- настройка взаимодействия с информационной системой «Моя работа»;
- меры по защите информации и пр.
- Наличие технических проблем.
- Количество жалоб/споров с сотрудниками с разбивкой по темам.
- Предложения по доработке системы электронного кадрового учета.
Подобные срезы позволят собрать максимально полную картину и дать оценку эффективности эксперимента. После анализа результатов Минтруд решит, какие еще доработки нормативно-правовой и технической баз нужны, чтобы система электронного кадрового документооборота работала без сбоев и обеспечивала стабильное взаимодействие работодателей с сотрудниками.
Медведев предложил провести эксперимент с четырехдневкой в регионах :: Политика :: РБК
Зампредседателя Совбеза считает, что эксперимент надо начинать постепенно и сокращать рабочий день на час, затем на два и так далее. «Можно это делать в масштабах эксперимента в целом регионе, в группе компаний», — пояснил он
Дмитрий Медведев (Фото: Юлия Зырянова / ТАСС)
Постепенный переход на четырехдневную рабочую неделю можно начать в рамках эксперимента на уровне региона или группы компаний, заявил заместитель председателя Совета безопасности Дмитрий Медведев.
«Можно это делать в масштабах эксперимента в целом регионе, в группе компаний и так далее — сокращать на час, на два, на три», — пояснил он (цитата по ТАСС).
Медведев подчеркнул, что переход на четырехдневную рабочую неделю должен быть ступенчатым, чтобы в отдельных случаях избежать безработицы. При этом зарплата сотрудников должна быть сохранена в прежнем размере, а производительность — остаться на том же уровне, подчеркнул зампредседателя Совбеза.
Накануне Медведев также высказался о переходе на четырехдневку и подчеркнул, что сейчас «мир движется в этом направлении». По его мнению, переход должен быть максимально аккуратным и основываться на экономической логике.
Медведев заявил об «оживлении» идеи ввести четырехдневную рабочую неделюКомпания ООО «Созвездие»: пример удачного эксперимента.
Дата публикации: 13.07.2020
Для развития отрасли переработки отходов необходимо проведение исследований, анализов и экспериментов. Санкт-Петербург может похвастаться наличием у себя экспериментальной площадки, где в данный момент проводятся исследования инновационных технологий в области переработки органических отходов.
06.12.2019 волонтеры РазДельного сбора побывали на экскурсии в компанию ООО «Созвездие». Это не крупный завод по переработке вторсырья, на данный момент это экспериментальная площадка, с большим потенциалом, которая обслуживает сеть ресторанов Дмитрия Блинова. Сейчас удалось получить экономику и технологию переработки органических отходов, благодаря сотрудничеству с сетью ресторанов, а также поддержка волонтерского движения.
ООО «Созвездие» оказывает услуги по сбору и транспортировке твердых бытовых отходов и строительных отходов с 2006 года. У компании есть специальная техника и около 27 единиц транспорта. Благодаря этому осуществляется вывоз отходов 4 и 5 категории опасности.
Компания принимает активное участие в волонтерских движениях Санкт-Петербурга.
Переработка отходов сети ресторанов производится в эко технопарке «Созвездие».
Путь новаторов — это творческий путь, он всегда связан с рисками, так как на первоначальных этапах не ясны многие аспекты, такие как экономическая составляющая и расходы на реализацию данного проекта. В ходе реализации проекта компании ООО «Созвездие» удалось сократить расходы сети ресторанов Дмитрия Блинова на 20%, что добавляет экономический аспект мотивации развития данного проекта. При этом предлагаемая технология является экологически безопасной, позволяет решить вопрос возврата в производство металла, полимерных материалов, макулатуры, стекла и других перерабатываемых отходов.
В перечень принимаемых компанией отходов входят отходы 4 и 5 класса опасности, которые прописаны в лицензии компании.
Неорганические отходы проходят досортировку рабочими на площадке компании «Созвездие», затем отправляются на специализированные полигоны для утилизации. Компания работает с лицензированными переработчиками и имеет с ними договорные отношения.
Компания «Созвездие» инвестирует значительные денежные средства в развитие проекта, а также имеет земли 2 класса опасности, под цели мусороперерабатывающего завода. А также хочет способствовать тому, чтобы недалеком будущем каждый регион России перешёл бы на новую модель хозяйствования- без свалок, мусоросжигательных заводов, когда каждый отход является либо ресурсом для новой продукции, либо необходимым элементом, который возвращается в природу в виде компоста.
Переработка органических отходов способом ускоренного компостирования отходов.
На площадке предприятия нам показали машину по переработке органических отходов. Она небольшого размера, так же ее нельзя перегружать. В установку можно загрузить определенное количество перерабатываемых отходов, которое отмеряется на весах.
Переработка основана на методе ускоренной биоферментации, путем управления развития аэробных бактерий. Аэробное компостирование- одно из самых распространённых методов без термической обработки биологических отходов, основанное на разложении органической части биоорганизмами.
Технологический процесс протекает в искусственных условиях, созданных в компактных установках закрытого типа, которые оснащены компостирующим резервуаром с датчиками влажности и температуры, нагревательным устройством и смесительными лопатками. Процесс развития колоний бактерий управляется микропроцессорной системой, которая собирает информацию о ходе процесса при помощи датчиков. При закладке материала для компостирования устройство автоматически повышает температуру исходя из параметров влажности. В результате нагрева влага испаряется и выводится в виде пара через выпускную систему.
Машина автоматически перемешивает субстрат, вентилирует, регулирует температуру. В результате аэробной деградации органические отходы сокращаются в объеме на 95-85% и преобразуется в однородную, сухую, сыпучую массу, не имеющую неприятного запаха.
Как выяснилось из лабораторных исследований, получаемый продукт экологически безопасен, не имеет токсичных веществ. В последующем имеет многоцелевое назначение. В зависимости от исходного сырья может быть использовано в качестве почвоулучшителя, компоста, кормовой добавки для животных.
В процессе переработки патогенная микрофлора, вредные химические соединения и семена сорных трав полностью разлагаются. Сохраняются полезные вещества, которые переходят в стабильную, легкоусвояемую форму.
Автоматическая машина- это уникальный продукт на рынке и отличное решение для ликвидации органических отходов. Машина обладает замкнутым экологическим циклом: продукты питания становятся источником обогащения почвы для создания других продуктов питания. Перерабатываются органические отходы не только растительного, но и животного происхождения.
В данный момент ведется сбор исследовательских данных, но уже сейчас результаты анализов позволяют отнести компост к категории «чистая почва».
Экскурсия состоялась в рамках проекта «Служба поддержки развития придомового РСО и Акции «РазДельный Сбор» в Санкт-Петербурге» при поддержке Фонда президентских грантов.
«РазДельный Сбор» — некоммерческая организация, мы работаем благодаря вашей поддержке. Если вам нравится то, что мы делаем, вы можете помочь.
3D-печать | Отработка применения технологий аддитивного производства изделий космической техники в условиях космоса | 5. Технологии освоения космического пространства | Готовится | |
EarthKam | Фотосъемка с борта МКС участков поверхности Земли с высоким разрешением по запросам учащихся образовательных учреждений | 6. Образование и популяризация космических исследований | Реализуется | |
RR | Исследование грызунов (Rodent Research) | 4. Космическая биология и биотехнология | Реализуется | |
s-FLAME | Структура и динамика сферических диффузионных пламен | 1. Физико-химические процессы и материалы в условиях космоса | Реализуется | |
АВИС | Отработка технологий создания и применения пико/ нано спутников для контроля отделения космических аппаратов и мониторинга их состояния на орбите в автономном режиме, включая технологии разделения, сближения и стыковки нано спутников | 5. Технологии освоения космического пространства | Готовится | |
Адамант | Управление сажеобразованием в сферическом диффузионном газовом пламени в условиях микрогравитации | 1. Физико-химические процессы и материалы в условиях космоса | Реализуется | |
Аквариум | Исследование устойчивости состояния модельной замкнутой экологической системы и звеньев, в нее входящих , в условиях микрогравитации | 4. Космическая биология и биотехнология | Завершен | ИС АКВАРИУМ AQH.doc |
Аквасфера | Демонстрация формирования и развития замкнутой экологической микросистемы в условиях космического полета | 6. Образование и популяризация космических исследований | Готовится | |
Акустика-М | Исследование помехоустойчивости речевой и звуковой связи в МКС | 5. Технологии освоения космического пространства | Завершен | |
Акустический томограф | Исследование возможности проведения неразрушающего контроля элементов конструкций из металлических материалов с помощью акустического томографа в условиях работы на РС МКС. | 5. Технологии освоения космического пространства | Готовится | ИС Акустический томограф.docx |
Альбедо | Исследование характеристик излучения Земли и отработка использования их в модели системы электропитания РС МКС | 5. Технологии освоения космического пространства | Реализуется | ИС Альбедо.docx |
Альгометрия | Исследование болевой чувствительности у человека в условиях космического полета | 3. Человек в космосе | Реализуется | ИС Альгометрия.doc |
Альфа-Электрон | Исследование пучков высокоэнергетичных электронов в магнитосфере Земли, генерируемых грозовой активностью | 2. Исследование Земли и космоса | Готовится | |
Андромеда | Исследование влияния невесомости на центральные и периферические механизмы организации произвольных движений и биофизические свойства мышц у человека в условиях длительного космического полета | 3. Человек в космосе | Готовится | |
Антиген | Оптимизация гетерологической экспрессии в дрожжах-сахаромицетах в условиях микрогравитации на примере синтеза HBS антигена вируса гепатита В | 4. Космическая биология и биотехнология | Завершен | ИС Антиген_2013 г.doc |
АРИЛ | Воздействие факторов космического полета на экспрессию штаммов-продуцентов интерлейкинов 1-альфа, 1-бетта, «АРИЛ» | 4. Космическая биология и биотехнология | Завершен | |
Асептик | Разработка методов и бортовых технических средств обеспечения асептических условий проведения биотехнологических экспериментов в условиях пилотируемого космического полета | 4. Космическая биология и биотехнология | Завершен | |
Астра-3 | Исследование динамики загрязняющего воздействия СВА на элементы внешних поверхностей МКС. | 5. Технологии освоения космического пространства | Готовится | ИС Астра-3.docx |
Астровакцина | Культивирование в невесомости E.сoli – продуцента белка Caf1 | 4. Космическая биология и биотехнология | Завершен | |
БАБЛ | Экспериментальное исследование диффузии газа в жидких пенах | 1. Физико-химические процессы и материалы в условиях космоса | Готовится | ИС БАБЛ.doc |
Краткое руководство по дизайну эксперимента
Эксперимент — это тип метода исследования, в котором вы манипулируете одной или несколькими независимыми переменными и измеряете их влияние на одну или несколько зависимых переменных. Дизайн эксперимента означает создание набора процедур для проверки гипотезы.
Хороший экспериментальный план требует глубокого понимания изучаемой системы. Рассмотрев сначала переменные и то, как они связаны (шаг 1), вы можете делать прогнозы, которые являются конкретными и проверяемыми (шаг 2).
То, насколько широко и точно вы изменяете независимую переменную (шаг 3), будет определять уровень детализации и внешнюю достоверность ваших результатов. Ваши решения о рандомизации, экспериментальном контроле и дизайнах между субъектами и внутри субъектов (шаг 4) будут определять внутреннюю валидность вашего эксперимента.
Шаг 1. Определите вопрос исследования и переменные
Вы должны начать с конкретного исследовательского вопроса. Возможно, вам придется потратить время на чтение о вашей области обучения, чтобы выявить пробелы в знаниях и найти интересующие вас вопросы.
В этом руководстве мы будем работать с двумя примерами исследовательских вопросов, один из наук о здоровье, а другой из экологии:
Пример вопроса 1: Использование телефона и сон
Вы хотите знать, как использование телефона перед сном влияет на режим сна. В частности, вы спрашиваете, как количество минут, в течение которых человек пользуется телефоном перед сном, влияет на количество часов, которые он спит.
Пример вопроса 2: Температура и дыхание почвы
Вы хотите знать, как температура влияет на дыхание почвы.В частности, вы спрашиваете, как повышение температуры воздуха у поверхности почвы влияет на количество углекислого газа (CO2), вдыхаемого почвой.
Чтобы превратить ваш исследовательский вопрос в экспериментальную гипотезу, вам необходимо определить основные переменные и сделать прогнозы о том, как они связаны.
Начните с простого перечисления независимых и зависимых переменных.
Исследовательский вопрос | Независимая переменная | Зависимая переменная |
---|---|---|
Использование телефона и сон | Минуты использования телефона перед сном | часов сна в сутки |
Температура и дыхание почвы | Температура воздуха непосредственно над поверхностью почвы | CO2 вдыхается из почвы |
Затем вам нужно подумать о возможных посторонних и мешающих переменных и подумать, как вы могли бы контролировать их в своем эксперименте.
Посторонняя переменная | Как управлять | |
---|---|---|
Использование телефона и сон | Естественная вариация режима сна среди людей. | Контроль статистически: измеряет среднюю разницу между сном при использовании телефона и сном при использовании телефона, а не среднее количество сна в каждой группе лечения. |
Температура и дыхание почвы | Влажность почвы также влияет на дыхание, и влажность может уменьшаться с повышением температуры. | Контроль экспериментальным путем: контролирует влажность почвы и добавляет воду, чтобы убедиться, что влажность почвы постоянна на всех участках обработки. |
Наконец, объедините эти переменные в диаграмму. Используйте стрелки, чтобы показать возможные отношения между переменными, и включите знаки, чтобы показать ожидаемое направление отношений.
Здесь мы прогнозируем, что рост использования телефона отрицательно коррелирует с продолжительностью сна, и прогнозируем неизвестное влияние естественных колебаний на продолжительность сна.
Здесь мы прогнозируем положительную корреляцию между температурой и дыханием почвы и отрицательную корреляцию между температурой и влажностью почвы, а также прогнозируем, что уменьшение влажности почвы приведет к снижению дыхания почвы.
Шаг 2: Напишите свою гипотезу
Теперь, когда у вас есть четкое концептуальное понимание системы, которую вы изучаете, вы должны быть в состоянии написать конкретную, проверяемую гипотезу, которая отвечает на ваш исследовательский вопрос.
Нулевая (H 0 ) гипотеза | Альтернативная (H a ) гипотеза | |
---|---|---|
Использование телефона и сон | Использование телефона перед сном не связано с продолжительностью сна человека. | Более частое использование телефона перед сном приводит к ухудшению сна. |
Температура и дыхание почвы | Температура воздуха не связана с дыханием почвы. | Повышенная температура воздуха приводит к усилению дыхания почвы. |
Следующие шаги описывают, как разработать управляемый эксперимент . В контролируемом эксперименте вы должны уметь:
- Систематически и точно манипулируйте независимыми переменными.
- Точно измерьте зависимые переменные.
- Управляйте любыми потенциально мешающими переменными.
Если ваша учебная система не соответствует этим критериям, вы можете использовать другие типы исследований, чтобы ответить на ваш исследовательский вопрос.
Какая у вас оценка за плагиат?
Сравните вашу статью с более чем 60 миллиардами веб-страниц и 30 миллионами публикаций.
- Лучшая программа для проверки плагиата 2020 года
- Отчет о плагиате и процентное содержание
- Самая большая база данных о плагиате
Scribbr Проверка на плагиат
Шаг 3: Разработайте свои экспериментальные методы лечения
То, как вы манипулируете независимой переменной, может повлиять на внешнюю валидность эксперимента, то есть на степень, в которой результаты могут быть обобщены и применены к более широкому миру.
Во-первых, вам может потребоваться решить, насколько широко , чтобы варьировать вашу независимую переменную.
Почвенный опыт
Вы можете увеличить температуру воздуха:
- немного выше естественного диапазона для вашего изучаемого региона.
- в более широком диапазоне температур, чтобы имитировать потепление в будущем.
- в экстремальном диапазоне, превышающем любые возможные естественные вариации.
Во-вторых, вам может потребоваться выбрать, насколько точно , чтобы варьировать вашу независимую переменную.Иногда этот выбор делается за вас вашей экспериментальной системой, но часто вам нужно будет принять решение, и это повлияет на то, насколько вы можете сделать вывод из своих результатов.
Эксперимент по использованию телефона
Вы можете рассматривать использование телефона как:
Шаг 4: Распределите субъектов по группам лечения
То, как вы применяете экспериментальные методы лечения к испытуемым, имеет решающее значение для получения достоверных и надежных результатов.
Во-первых, вам необходимо рассмотреть размер исследования : сколько человек будет включено в эксперимент? В целом, чем больше субъектов вы включите, тем выше статистическая мощность вашего эксперимента, которая определяет, насколько вы можете быть уверены в своих результатах.
Затем вам необходимо случайным образом распределить субъектов по группам лечения . Каждая группа получает различный уровень обращения (например, отсутствие использования телефона, низкий уровень использования телефона, высокий уровень использования телефона).
Вы также должны включить контрольную группу , которая не получает лечения. Контрольная группа сообщает нам, что случилось бы с вашими испытуемыми без какого-либо экспериментального вмешательства.
При распределении субъектов по группам вам необходимо сделать два основных выбора:
- Полностью рандомизированный план против рандомизированного блочного плана .
- Межсубъектный дизайн по сравнению с внутрисубъектным дизайном Дизайн .
Рандомизация
Эксперимент может быть полностью рандомизирован или рандомизирован в пределах блоков (также называемых стратами):
- В полностью рандомизированном плане каждый субъект случайным образом распределяется в группу лечения.
- В рандомизированном блочном дизайне (также известном как стратифицированный случайный дизайн) субъекты сначала группируются в соответствии с их общими характеристиками, а затем случайным образом распределяются по видам лечения в этих группах.
Полностью рандомизированный дизайн | Рандомизированная блочная конструкция | |
---|---|---|
Использование телефона и сон | Всем испытуемым случайным образом назначается уровень использования телефона с помощью генератора случайных чисел. | Пациенты сначала группируются по возрасту, а затем в этих группах случайным образом распределяются процедуры использования телефона. |
Температура и дыхание почвы | Обработка потепления назначается участкам почвы случайным образом с использованием генератора чисел для генерации координат карты в пределах исследуемой области. | Почвы сначала группируются по среднему количеству осадков, а затем участки обработки случайным образом распределяются внутри этих групп. |
Иногда рандомизация непрактична или этична, поэтому исследователи создают частично случайные или даже неслучайные планы. План эксперимента, в котором лечение не назначается случайным образом, называется квазиэкспериментальным планом .
Между субъектами и внутри субъектами
В схеме между субъектами (также известной как план независимых измерений или классический дизайн ANOVA) индивидуумы получают только один из возможных уровней экспериментального лечения.
В медицинских или социальных исследованиях вы также можете использовать согласованных пар в рамках вашего межгруппового плана, чтобы убедиться, что каждая группа лечения содержит одинаковое разнообразие испытуемых в одинаковых пропорциях.
В схеме внутри субъектов (также известной как план с повторными измерениями) каждый человек последовательно получает каждое из экспериментальных курсов лечения, и измеряется их реакция на каждое лечение.
Внутри субъектов или повторяющиеся измерения также могут относиться к экспериментальному плану, в котором эффект проявляется с течением времени, а индивидуальные реакции измеряются с течением времени, чтобы измерить этот эффект по мере его появления.
Уравновешивание (рандомизация или изменение порядка лечения среди субъектов) часто используется в планах внутри субъектов, чтобы гарантировать, что порядок применения лечения не влияет на результаты эксперимента.
Межпредметный (самостоятельный) дизайн | Внутрипредметный дизайн (повторные измерения) | |
---|---|---|
Использование телефона и сон | Субъектам случайным образом назначается уровень использования телефона (низкий, средний или высокий), и они следят за этим уровнем использования телефона на протяжении всего эксперимента. | Субъектам последовательно назначают низкий, средний и высокий уровень использования телефона на протяжении всего эксперимента, и порядок, в котором они следуют этим методам лечения, рандомизирован. |
Температура и дыхание почвы | Обработка утеплением назначается участкам почвы случайным образом, и почвы выдерживаются при этой температуре на протяжении всего эксперимента. | Каждый участок получает каждую обработку согреванием (на 1, 3, 5, 8 и 10 ° C выше температуры окружающей среды) последовательно в течение эксперимента, и порядок, в котором они получают эти обработки, рандомизирован. |
Эксперименты всегда зависят от контекста, и хороший экспериментальный план будет учитывать все уникальные особенности вашей системы исследования, чтобы получить информацию, которая является одновременно достоверной и актуальной для вашего исследовательского вопроса.
Часто задаваемые вопросы об экспериментах
- Что такое экспериментальный дизайн?
Дизайн эксперимента означает планирование набора процедур для исследования взаимосвязи между переменными.Для разработки управляемого эксперимента вам потребуется:
- Проверяемая гипотеза
- Как минимум одна независимая переменная, которой можно точно управлять
- Как минимум одна зависимая переменная, которую можно точно измерить
При разработке эксперимента вы решаете:
- Как вы будете манипулировать переменными
- Как вы будете контролировать любые потенциально мешающие переменные
- Сколько предметов или образцов будет включено в исследование
- Как субъекты будут распределяться по уровням лечения
Экспериментальный план важен для внутренней и внешней достоверности вашего эксперимента.
- Что такое независимые и зависимые переменные?
Вы можете думать о независимых и зависимых переменных в терминах причины и следствия: независимая переменная — это переменная, которую вы считаете причиной , а зависимой переменной — эффект .
В эксперименте вы манипулируете независимой переменной и измеряете результат в зависимой переменной. Например, в эксперименте о влиянии питательных веществ на рост сельскохозяйственных культур:
- Независимая переменная — это количество питательных веществ, добавленных к полю.
- Зависимая переменная — это биомасса сельскохозяйственных культур во время сбора урожая.
Определение ваших переменных и решение, как вы будете ими манипулировать и измерять, — важная часть экспериментального дизайна.
- Что такое мешающая переменная?
Смешивающая переменная , также называемая смешивающим фактором или смешивающим фактором, является третьей переменной в исследовании, изучающем потенциальную причинно-следственную связь.
Смешивающая переменная связана как с предполагаемой причиной, так и с предполагаемым следствием исследования.Иногда бывает трудно отделить истинное влияние независимой переменной от влияния смешивающей переменной.
В плане исследования важно определить потенциально мешающие переменные и спланировать, как вы уменьшите их влияние.
Квазиэкспериментальный дизайн | Определение, типы и примеры
Как и настоящий эксперимент, квазиэкспериментальный план направлен на установление причинно-следственной связи между независимой и зависимой переменной.
Однако, в отличие от настоящего эксперимента, квазиэксперимент не основывается на случайном назначении. Вместо этого испытуемые распределяются по группам на основе неслучайных критериев.
Квазиэкспериментальный дизайн — полезный инструмент в ситуациях, когда настоящие эксперименты не могут быть использованы по этическим или практическим причинам.
Различия между квази-экспериментами и настоящими экспериментами
Есть несколько общих различий между истинным и квазиэкспериментальным планами.
Настоящий экспериментальный дизайн | Квазиэкспериментальный проект | |
---|---|---|
Назначение на лечение | Исследователь случайным образом распределяет субъекта на контрольную и лечебную группы. | Другой, неслучайный метод используется для распределения субъектов по группам. |
Контроль за лечением | Обычно исследователь разрабатывает лечение и решает, какие субъекты его получат. | Исследователь часто не контролирует лечение , а вместо этого изучает ранее существовавшие группы, которые получали другое лечение постфактум. |
Использование контрольных групп | Требуется использовать контрольных и лечебных групп. | Контрольные группы не требуются (хотя они обычно используются). |
Пример реального эксперимента и квазиэксперимента
Допустим, вас интересует влияние новой психологической терапии на пациентов с депрессией. Пример: истинный план эксперимента Чтобы провести настоящий эксперимент, вы случайным образом назначаете половину пациентов в психиатрической клинике для получения нового лечения. Другая половина — контрольная группа — получает стандартный курс лечения депрессии.Каждые несколько месяцев пациенты заполняют листы с описанием своих симптомов, чтобы увидеть, дает ли новое лечение значительно лучший (или худший) эффект, чем стандартный.
Однако по этическим причинам директора психиатрической клиники могут не давать вам разрешения на случайное назначение своих пациентов лечению. В этом случае вы не сможете провести настоящий эксперимент.
Вместо этого вы можете использовать квазиэкспериментальный дизайн.
Пример: квазиэкспериментальный план Вы обнаруживаете, что несколько психотерапевтов в клинике решили опробовать новую терапию, в то время как другие, которые лечат подобных пациентов, предпочли придерживаться обычного протокола.Вы можете использовать эти уже существующие группы для изучения прогрессирования симптомов у пациентов, получавших новую терапию, по сравнению с пациентами, получающими стандартный курс лечения.
Хотя группы не были распределены случайным образом, если вы должным образом учитываете любые систематические различия между ними, вы можете быть достаточно уверены в том, что любые различия должны возникать из-за лечения, а не из-за других искажающих переменных.
Типы квазиэкспериментальных разработок
Существует много типов квазиэкспериментальных проектов.Здесь мы объясняем три наиболее распространенных типа: неэквивалентный групповой дизайн, прерывность регрессии и естественные эксперименты.
Конструкция неэквивалентных групп
При неэквивалентном групповом дизайне исследователь выбирает существующие группы, которые кажутся похожими, но в которых только одна из групп подвергается лечению.
В настоящем эксперименте со случайным распределением контрольная группа и группа лечения считаются эквивалентными во всех отношениях, кроме лечения. Но в квазиэксперименте, где группы не случайны, они могут различаться и по-другому — это неэквивалентных групп .
При использовании такого плана исследователи пытаются учесть любые мешающие переменные, контролируя их в своем анализе или выбирая группы, которые максимально похожи.
Это наиболее распространенный тип квазиэкспериментального дизайна.
Пример: разработка неэквивалентных групп. Вы предполагаете, что новая внеклассная программа приведет к более высоким оценкам. Вы выбираете две похожие группы детей, которые ходят в разные школы, одна из которых реализует новую программу, а другая нет.Сравнивая детей, которые посещают программу, с детьми, которые ее не посещают, вы можете выяснить, влияет ли это на оценки.
Разрыв регрессии
Многие потенциальные методы лечения, которые исследователи хотят изучить, построены вокруг, по существу, произвольного порогового значения, когда те, кто выше порога, получают лечение, а те, кто ниже него, нет.
Вблизи этого порога различия между двумя группами часто настолько минимальны, что практически отсутствуют. Таким образом, исследователи могут использовать людей чуть ниже порога в качестве контрольной группы, а тех, кто чуть выше порога, в качестве группы лечения.
Пример: прерывание регрессии Некоторые средние школы в Соединенных Штатах предназначены для учащихся с высокими успеваемостями, которые должны превысить определенный балл на тесте, чтобы иметь возможность посещать их. Те, кто проходит этот тест, скорее всего, систематически отличаются от тех, кто его не проходит.Тем не менее, поскольку точная граничная оценка является произвольной, ученики, близкие к пороговому значению — те, кто едва сдают экзамен, и те, кто не сдает экзамен с очень небольшим отрывом, — как правило, очень похожи, с небольшими различиями в их оценках, в основном из-за случайный шанс.Таким образом, можно сделать вывод, что любые различия в результатах должны исходить из школы, в которой они учились.
Чтобы проверить влияние посещения отборной школы, вы можете изучить долгосрочные результаты этих двух групп учащихся (тех, кто с трудом сдал экзамен, и тех, кто почти не сдал экзамен).
Натуральные опыты
Как в лабораторных, так и в полевых экспериментах исследователи обычно контролируют, к какой группе относятся испытуемые. В естественном эксперименте внешнее событие или ситуация («природа») приводит к случайному или подобному случайному отнесению субъектов к экспериментальной группе.
Несмотря на то, что некоторые используют случайные задания, естественные эксперименты не считаются настоящими экспериментами, потому что они носят наблюдательный характер.
Хотя исследователи не контролируют независимую переменную, они могут использовать это событие постфактум, чтобы изучить эффект лечения.
Пример: эксперимент на природе. Исследование здоровья в Орегоне — один из самых известных экспериментов на природе. В 2008 году штат Орегон принял решение расширить участие в Medicaid, американской программе государственного медицинского страхования для малоимущих, на большее количество взрослых с низкими доходами.Однако, поскольку они не могли позволить себе покрыть всех, кого они сочли подходящими для участия в программе, они вместо этого выделили места в программе на основе случайной лотереи.
Исследователи смогли изучить влияние программы, используя включенных в нее лиц в качестве группы лечения, назначенной случайным образом, а остальных участников, которые соответствовали критериям отбора, но не добились успеха в лотерее, в качестве контрольной группы.
Какая у вас оценка за плагиат?
Сравните вашу статью с более чем 60 миллиардами веб-страниц и 30 миллионами публикаций.
- Лучшая программа для проверки плагиата 2020 года
- Отчет о плагиате и процентное содержание
- Самая большая база данных о плагиате
Scribbr Проверка на плагиат
Когда использовать квазиэкспериментальный дизайн
Хотя истинные эксперименты имеют более высокую внутреннюю достоверность, вы можете выбрать квазиэкспериментальный план по этическим или практическим причинам.
Этические нормы
Иногда было бы неэтично предоставлять или отказываться от лечения на случайной основе, поэтому настоящий эксперимент невозможен.В этом случае квазиэксперимент может позволить вам изучить ту же причинно-следственную связь без этических проблем.
Исследование здоровья Орегона является хорошим примером. Было бы неэтично предоставлять одним людям медицинскую страховку наугад, но намеренно препятствовать ее получению другими исключительно в исследовательских целях.
Однако, поскольку правительство штата Орегон столкнулось с финансовыми ограничениями и решило предоставить медицинское страхование посредством лотереи, изучение этого события постфактум является гораздо более этичным подходом к изучению той же проблемы.
Практический
Настоящий экспериментальный план может оказаться невозможным для реализации или просто слишком дорогим, особенно для исследователей, не имеющих доступа к крупным потокам финансирования.
В других случаях требуется слишком много работы для набора и правильного планирования экспериментального вмешательства для достаточного количества субъектов, чтобы оправдать настоящий эксперимент.
В любом случае квазиэкспериментальные планы позволяют изучить вопрос, используя данные, которые ранее были оплачены или собраны другими (часто государством).
Преимущества и недостатки
Квазиэкспериментальные планы имеют различные плюсы и минусы по сравнению с другими типами исследований.
- Более высокая внешняя достоверность, чем у большинства истинных экспериментов, потому что они часто предполагают вмешательство реального мира, а не искусственные лабораторные условия.
- Более высокая внутренняя валидность, чем у других неэкспериментальных типов исследований, поскольку они позволяют лучше контролировать смешивающие переменные, чем другие типы исследований.
- Более низкая внутренняя достоверность, чем истинные эксперименты — без рандомизации может быть трудно проверить, учтены ли все смешивающие переменные.
- Использование ретроспективных данных, которые уже были собраны для других целей, может быть неточным, неполным или труднодоступным.
Часто задаваемые вопросы о квазиэкспериментальных разработках
- Что такое случайное присвоение?
В экспериментальных исследованиях случайное распределение — это способ распределения участников из вашей выборки в разные группы с использованием рандомизации.При использовании этого метода у каждого члена выборки есть известные или равные шансы попасть в контрольную или экспериментальную группу.
Межсубъектный дизайн | Примеры, плюсы и минусы
В экспериментах вы проверяете эффект независимой переменной, создавая условий , в которых применяются различные методы лечения (например, таблетка плацебо или новое лекарство).
В межгрупповом дизайне , или межгрупповом дизайне каждый участник испытывает только одно условие, и вы сравниваете групповые различия между участниками в различных условиях.Это противоположность внутрисубъектному дизайну, когда каждый участник испытывает все условия.
Дизайн между субъектами также называется независимых измерений. или независимых групп. Дизайн , потому что исследователи сравнивают несвязанные измерения, взятые из разных групп.
Использование межсубъектного дизайна
В плане между субъектами обычно есть по крайней мере одна контрольная группа и одна экспериментальная группа или несколько групп, которые различаются по переменной (например,g., пол, этническая принадлежность, результаты тестов и т. д.)
Каждой экспериментальной группе предоставляется независимая переменная терапия, которая, по мнению исследователя, будет иметь некоторое влияние на результаты, в то время как контрольным группам не назначают никакого лечения, стандартное несвязанное лечение или поддельное лечение.
Вы сравниваете показатели зависимых переменных между группами, чтобы увидеть, эффективно ли манипулирование независимыми переменными. Если группы значительно различаются, вы можете сделать вывод, что ваши независимые манипуляции с переменными, вероятно, вызвали различия.
Пример: Межпредметный дизайн Чтобы проверить, увеличит ли отображение нового слогана (ваша независимая переменная) количество подписок на информационный бюллетень веб-сайта (ваша зависимая переменная), вы собираете выборку из 138 участников.Вы используете план между субъектами, чтобы разделить выборку на две группы:
- Контрольная группа, участники которой видят на сайте текущий бизнес-слоган,
- Экспериментальная группа, участники которой видят новый слоган на сайте.
Затем вы сравниваете процент подписок на информационные бюллетени между двумя группами, используя статистический анализ.
В идеале участников следует случайным образом распределить в одну из групп, чтобы обеспечить сопоставимость исходных характеристик участников по группам.
Вы также должны использовать маскировку, чтобы убедиться, что участники не могут определить, находятся ли они в экспериментальной или контрольной группе. Если они знают свое групповое задание, они могут непреднамеренно или намеренно изменить свои ответы, чтобы оправдать ожидания исследователей, и это приведет к необъективным результатам.
Межпредметный план также полезен, когда вы хотите сравнить группы, различающиеся по ключевой характеристике. Эта характеристика будет вашей независимой переменной с различными уровнями характеристики, отличающей группы друг от друга. Не было бы экспериментальных или контрольных групп, потому что все участники проходят одинаковые процедуры.
Пример: межпредметный дизайн. Вас интересует, влияет ли возраст на время реакции при выполнении новой познавательной задачи.Вы собираете образец и распределяете участников по группам в зависимости от их возраста:- первая группа — возраст 21–30 лет,
- вторая группа — возраст 31–40 лет,
- Третья группа — это возраст 41–50 лет.
Процедура для всех участников одинакова: они прибывают в лабораторию индивидуально и выполняют задание на время реакции. Затем вы оцениваете разницу во времени реакции между возрастными группами.
Межсубъектный дизайн в сравнении с внутрисубъектным
Альтернатива плану между субъектами — это план внутри субъектов , , где каждый участник испытывает все условия.Исследователи повторно тестируют одних и тех же участников, чтобы оценить различия между условиями.
В планах внутри субъектов нет контрольных групп, потому что участников тестируют до и после лечения с независимыми переменными. Предварительный тест аналогичен контрольному условию, при котором еще не назначается независимая переменная терапия, в то время как посттест проводится после того, как все процедуры были проведены.
Слово «между» означает, что вы сравниваете разные условия в группах, а слово «внутри» означает, что вы сравниваете разные условия в одной и той же группе.
Пример: межпредметный или внутрипредметный дизайн Вы планируете изучить, может ли сон (ваша независимая переменная) после учебного занятия улучшить результаты тестов (вашу зависимую переменную). Вы можете использовать дизайн между предметами или внутри предметов.Если вы используете межобъектный план, вы бы разбили вашу выборку на две группы участников:
- контрольная группа , которая проводит учебный сеанс и выполняет несвязанную задачу в течение 20 минут в качестве противовеса
- экспериментальная группа , у которой есть учебная сессия, после которой следует 20-минутный сон.
Затем вы должны провести один и тот же тест для всех участников и сравнить результаты тестов между группами.
Если вы используете внутрипредметный дизайн, все в вашей выборке будут проходить одни и те же процедуры:
- Во-первых, все они будут проводить учебные занятия, а затем предварительные тесты.
- Затем каждый из них вздремнул на 20 минут.
- Наконец, посттест оценит их знания в конце исследования.
Вы бы сравнили результаты до и после тестирования статистически.
Эти два типа планов также можно объединить в одном исследовании, если у вас есть две или более независимых переменных.
В факторных планах одновременно проверяются несколько независимых переменных. Каждый уровень одной независимой переменной комбинируется с каждым уровнем каждой другой независимой переменной для создания различных условий.
В смешанном факторном дизайне одна переменная изменяется между субъектами, а другая — внутри субъектов.
Плюсы и минусы межсубъектного дизайна
При выборе стратегии исследования важно учитывать плюсы и минусы межпредметных планов по сравнению с внутрипредметными.Хотя межсубъектный план имеет меньше угроз для внутренней валидности, он также требует большего количества участников для высокой статистической мощности по сравнению с внутрипредметным дизайном.
Предотвращает эффект переноса
Эффекты переноса — это длительные эффекты пребывания в одном экспериментальном состоянии на последующее состояние в проектах внутри субъектов. К ним относятся практических или обучающих эффектов , где воздействие лечения ускоряет или улучшает реакцию участников при последующих курсах лечения.
Межпредметные схемы также предотвращают эффектов усталости , которые возникают, когда участники устают или устают от многократных процедур подряд в рамках внутригрупповых схем. Эффекты переноса ставят под угрозу внутреннюю валидность исследования.
Более короткий срок исследования
В схеме между участниками каждому участнику предоставляется только одно лечение, поэтому каждое занятие может быть довольно быстрым.
Напротив, сбор данных в рамках внутрисубъектного дизайна занимает больше времени, потому что каждому участнику предоставляется несколько процедур.
Требуется больше участников и ресурсов
Дизайн между субъектами требует большего количества участников для каждого условия, чтобы соответствовать высокой статистической мощности планов внутри субъектов.
Это означает, что им также требуется больше ресурсов для набора большей выборки, администрирования сессий, покрытия расходов и т. Д.
Индивидуальные различия могут угрожать действительности
Поскольку разные участники предоставляют данные для каждого состояния, возможно, что группы существенно различаются между состояниями, и эти различия могут быть альтернативными объяснениями результатов.
Чтобы противостоять этому в дизайне между субъектами, вы можете использовать сопоставление для объединения определенных лиц или групп в вашей выборке. Таким образом, группы сопоставляются по определенным переменным (например, демографическим характеристикам или уровню способностей), которые могут повлиять на результаты.
Часто задаваемые вопросы о межгрупповых дизайнах
- Что такое факторный план?
В факторном плане проверяется несколько независимых переменных.
Если вы тестируете две переменные, каждый уровень одной независимой переменной комбинируется с каждым уровнем другой независимой переменной для создания различных условий.
Контрольные группы и группы лечения
В научном исследовании контрольная группа используется для установления причинно-следственной связи путем выделения эффекта независимой переменной.
Исследователи изменяют независимую переменную в экспериментальной группе и оставляют ее неизменной в контрольной группе.Затем они сравнивают результаты этих групп.
Использование контрольной группы означает, что любое изменение зависимой переменной можно отнести к независимой переменной.
Контрольные группы в опытах
Контрольные группы необходимы для экспериментального дизайна. Когда исследователи интересуются влиянием нового лечения, они случайным образом делят участников исследования как минимум на две группы:
- Группа лечения (также называемая экспериментальной группой ) получает лечение, эффект которого интересует исследователя.
- Контрольная группа либо не получает лечения, либо получает стандартное лечение, эффект которого уже известен, либо плацебо (поддельное лечение).
Обработка — это любая независимая переменная, которой манипулируют экспериментаторы, и ее точная форма зависит от типа выполняемого исследования. В медицинском испытании это может быть новый препарат или терапия. В исследованиях государственной политики это может быть новая социальная политика, которую одни получают, а другие нет.
В хорошо спланированном эксперименте все переменные, кроме лечения, должны оставаться постоянными между двумя группами.Это означает, что исследователи могут правильно измерить весь эффект лечения без вмешательства смешанных переменных.
Пример контрольной группы Вас интересует, лучше ли учащиеся учатся в колледже, если им платят за их работу. Чтобы проверить это, вы разделите нескольких студентов на контрольную и экспериментальную группы.- Вы платите учащимся из лечебной группы за высокие оценки.
- Студенты контрольной группы денег не получают.
Сравнивая среднее изменение их оценок за год, вы можете узнать, улучшают ли денежные стимулы успеваемость в школе.
Исследования также могут включать более одной экспериментальной или контрольной группы. Исследователи могут захотеть изучить влияние нескольких методов лечения одновременно или сравнить новое лечение с несколькими доступными в настоящее время альтернативами.
Пример нескольких контрольных групп Вы разработали новую таблетку для лечения высокого кровяного давления. Чтобы проверить его эффективность, вы запускаете эксперимент с лечением и двумя контрольными группами.- Лечебная группа получает новую таблетку.
- Контрольная группа 1 получает сахарную пилюлю идентичного вида (плацебо)
- Контрольная группа 2 получает уже одобренные таблетки для лечения высокого кровяного давления
Поскольку единственной переменной, которая различается между тремя группами, является тип таблетки, любые различия в среднем артериальном давлении между тремя группами могут быть отнесены на счет типа таблетки, которую они получили.
- Разница между группой лечения и контрольной группой 1 демонстрирует эффективность таблетки по сравнению с отсутствием лечения.
- Разница между экспериментальной группой и контрольной группой 2 показывает, улучшает ли новая таблетка методы лечения, уже имеющиеся на рынке.
Контрольные группы в неэкспериментальных исследованиях
Хотя контрольные группы чаще используются в экспериментальных исследованиях, их можно использовать и в других типах исследований. Исследователи обычно полагаются на неэкспериментальные контрольные группы в двух случаях: квазиэкспериментальный или соответствующий дизайн.
Контрольные группы в квазиэкспериментальном дизайне
В то время как настоящие эксперименты основаны на случайном распределении по экспериментальным или контрольным группам, квазиэкспериментальный план использует некоторые критерии, отличные от рандомизации, для распределения людей.
Часто эти назначения не контролируются исследователями, а являются уже существующими группами, которые получали различное лечение. Например, исследователи могут изучить влияние нового метода обучения, который применялся в некоторых классах школы, но не применялся в других, или изучить влияние новой политики, которая реализуется в одном штате, но не в соседнем.
В этих случаях контрольной группой являются классы, которые не использовали новый метод обучения, или состояние, в котором не применялась новая политика.
Контрольные группы в соответствующем дизайне
В корреляционных исследованиях сопоставление представляет собой потенциальный альтернативный вариант, когда вы не можете использовать ни истинный, ни квазиэкспериментальный планы.
В подходящих планах исследователь сопоставляет людей, получивших «лечение» или независимую исследуемую переменную, с другими, не получавшими — контрольной группой.
Таким образом, у каждого члена экспериментальной группы есть аналог в контрольной группе, идентичный во всех отношениях вне лечения.Это гарантирует, что лечение является единственным источником потенциальных различий в результатах между двумя группами.
Пример подобранной контрольной группы Вас интересует, может ли курение электронных сигарет вызвать рак легких. Здесь «лечение» заключается в том, курил ли кто-то электронные сигареты. Вы не можете просто сравнивать заболеваемость раком у тех, кто курил электронные сигареты, с теми, кто этого не делал — две группы, скорее всего, различаются способами, которые могут повлиять на их заболеваемость раком.Вместо этого вы можете создать контрольную группу, сопоставив людей, которые не курят, с теми, кто курит (группа лечения), по возрасту, полу, диете, уровню физической активности и так далее, гарантируя, что единственная разница между двумя группами — и, таким образом, единственная переменная, которая может вызвать различия в их заболеваемости раком легких, — это использование ими электронных сигарет.
Какая у вас оценка за плагиат?
Сравните вашу статью с более чем 60 миллиардами веб-страниц и 30 миллионами публикаций.
- Лучшая программа для проверки плагиата 2020 года
- Отчет о плагиате и процентное содержание
- Самая большая база данных о плагиате
Scribbr Проверка на плагиат
Значение контрольных групп
Контрольные группы помогают обеспечить внутреннюю достоверность вашего исследования.Со временем вы можете увидеть разницу в зависимой переменной в вашей группе лечения. Однако без контрольной группы трудно определить, возникли ли изменения в результате лечения. Возможно, это изменение связано с другими переменными.
Если вы используете контрольную группу, которая во всех отношениях идентична группе лечения, вы знаете, что лечение — единственное различие между двумя группами — должно быть причиной изменения.
Например, люди часто со временем выздоравливают от болезней или травм, независимо от того, получили они эффективное лечение или нет.Таким образом, без контрольной группы трудно определить, является ли улучшение состояния здоровья результатом лечения или просто естественным течением времени.
Риски от недействительных контрольных групп
Если ваша контрольная группа отличается от экспериментальной группы способами, которые вы не учли, ваши результаты могут отражать вмешательство смешивающих переменных вместо вашей независимой переменной.
Пример недействительной контрольной группы Анализируя свое исследование электронных сигарет, вы понимаете, что забыли контролировать семейный анамнез курения, который, вероятно, различается в вашей контрольной группе и группе лечения, поскольку люди, чьи родители курят, с большей вероятностью воспримут курение. сами себя.Поскольку те, кто происходит из семьи курильщиков, с большей вероятностью будут подвергаться воздействию пассивного курения, известной причины рака, более высокие показатели могут встречаться среди лиц в вашей группе лечения, но вы не можете точно знать, вызвана ли эта разница. к употреблению электронных сигарет.
Минимизация риска
Несколько методов могут помочь вам свести к минимуму риск от недействительных контрольных групп.
- Убедитесь, что все возможные смешивающие переменные учтены как , предпочтительно с помощью экспериментального плана, если это возможно, поскольку трудно контролировать все возможные искажающие факторы вне экспериментальной среды.
- Используйте с двойным ослеплением . Это не позволит членам каждой группы изменять свое поведение в зависимости от того, были ли они помещены в группу лечения или в контрольную группу, что может затем привести к предвзятым результатам.
- Случайным образом распределите субъектов в контрольную и лечебную группы. Этот метод позволит вам не только минимизировать различия между двумя группами по смешивающим переменным, которые вы можете наблюдать напрямую, но и по тем, которые вы не можете.
Часто задаваемые вопросы о контрольных группах
- Всегда ли для экспериментов нужна контрольная группа?
Настоящий эксперимент (А.к.а. контролируемый эксперимент) всегда включает по крайней мере одну контрольную группу, которая не получает экспериментального лечения.
Однако в некоторых экспериментах используется дизайн внутри субъектов для тестирования лечения без контрольной группы. В этих планах вы обычно сравниваете результаты одной группы до и после лечения (вместо сравнения результатов между разными группами).
Для большей внутренней валидности обычно лучше, если возможно, включить контрольную группу. Без контрольной группы труднее быть уверенным, что результат был вызван экспериментальным лечением, а не другими переменными.
- Что такое мешающая переменная?
Смешивающая переменная , также называемая смешивающим фактором или смешивающим фактором, является третьей переменной в исследовании, изучающем потенциальную причинно-следственную связь.
Смешивающая переменная связана как с предполагаемой причиной, так и с предполагаемым следствием исследования.Иногда бывает трудно отделить истинное влияние независимой переменной от влияния смешивающей переменной.
В плане исследования важно определить потенциально мешающие переменные и спланировать, как вы уменьшите их влияние.
- Как сделать так, чтобы мешающие переменные не мешали моим исследованиям?
Есть несколько методов, которые вы можете использовать для уменьшения влияния искажающих переменных на ваше исследование: ограничение, сопоставление, статистический контроль и рандомизация.
В ограничении вы ограничиваете свою выборку, включая только определенных субъектов, которые имеют одинаковые значения потенциальных смешивающих переменных.
В сопоставлении вы сопоставляете каждого из субъектов в вашей группе лечения с аналогом в группе сравнения. Соответствующие субъекты имеют одинаковые значения любых возможных смешивающих переменных и различаются только независимой переменной.
В статистическом контроле вы включаете потенциальные искажающие факторы в качестве переменных в регрессию.
В рандомизации вы случайным образом назначаете лечение (или независимую переменную) в вашем исследовании достаточно большому количеству субъектов, что позволяет вам контролировать все потенциально мешающие переменные.
- Что такое экспериментальный дизайн?
Дизайн эксперимента означает планирование набора процедур для исследования взаимосвязи между переменными.Для разработки управляемого эксперимента вам потребуется:
- Проверяемая гипотеза
- Как минимум одна независимая переменная, которой можно точно управлять
- Как минимум одна зависимая переменная, которую можно точно измерить
При разработке эксперимента вы решаете:
- Как вы будете манипулировать переменными
- Как вы будете контролировать любые потенциально мешающие переменные
- Сколько предметов или образцов будет включено в исследование
- Как субъекты будут распределяться по уровням лечения
Экспериментальный план важен для внутренней и внешней достоверности вашего эксперимента.
Проведение экспериментов с использованием FTF
Введение: Что такое научный эксперимент? ВведениеЕсли вы хотите найти примеры грамматических конструкций в разобранный корпус, такой как ICE-GB вы можете выполнить запрос FTF, описанный на других страниц на этом сайте.Выполнение запроса приведет к (потенциально очень длинный) список результатов, состоящий из последовательности предложений или «текстовые единицы».
В каждом предложении FTF будет соответствовать как минимум одному отличному аранжировка («хит» или футляр ). Обратите внимание, что если элементы внутри FTF обычны или структура гибкая, может быть много попаданий в предложение.
Здесь мы отвечаем на следующий вопрос: —
Как исследователям следует использовать грамматические запросы на проведение экспериментов на разобранном корпусе?
Вопрос совершенно правильный.При условии сбора корпуса систематически и последовательно и добросовестно аннотировать, нет особой причины, по которой экспериментальный подход не может быть применен в корпус, даже в разобранный. Для некоторых комментариев по философскому последствия этого см. здесь. ( Примечание во избежание сомнений, термин эксперимент на этих страниц используется для обозначения естественного эксперимента , а не лабораторный эксперимент, см. ниже.)
Вопрос тоже очень важный. Одно дело найти примеры одной конструкции в корпусе, а совсем другое — сделать любые обобщения о наличии таких конструкций в современный британский английский или английский в целом. Более того, примеры просто указывают на существование возможных явлений, они не объясняйте, при каких обстоятельствах они появляются.Последний требует как экспериментального метода, так и ясной теоретической защиты.
ICECUP 3.1 поддерживает конструкцию несколько простых таблиц и сбор статистики частот. Однако во многих описанных здесь примерах вам придется выполнять процесс извлечения данных из корпуса вручную. (Мы считаем, что автоматизация многих процедур была бы очень выгодно по ряду причин, и это предмет Инструменты нового поколения проект.)
Предупреждение: эти страницы написаны для лингвистов (включая аспирантов и магистрантов), желающих экспериментально исследовать разобранные корпуса. Пояснения обязательно касаются технических вопросы в статистике. Это , а не , предназначенный для введения тесту хи-квадрат или предположениям и разветвлениям тест. Если вы не знакомы с хи-квадрат, вы можете посмотреть Другие страницы в Интернете или хорошее учебное пособие для экспериментаторов.
Слайды из мастерской TALC в Бертиноро (TALC 02), в которых обсуждались экспериментальные конструкции в корпусах, также доступен в виде файла PDF.
На этой странице содержатся вводные комментарии об экспериментальном дизайне. Следующая пара страниц резюмирует общий метод и общие подводные камни, о которых вам следует знать, если вы используете FTF в экспериментах.На второй паре страниц обсуждается более сложная задача изучения того, как два грамматических аспекта явления взаимодействуют. ( NB. Вы должны прочитать эти страницы по порядку.)
Многие из этих вопросов, по сути, являются центральными для расследования. из любой корпус , включая простой текст и корпуса с тегами. В проблема просто обостряется с разобранным корпусом и быстрым программное обеспечение для поиска, такое как ICECUP.Как мы увидим, он также становится легче определить иерархию языкового выбора, когда подробный грамматический анализ присутствует.
Таблицы частот собрать легко. Менее легко проводите эксперименты, чтобы разобраться в числах.
Статистическое здоровье предупреждение: |
Проведение эксперимента не заменяет размышления
о проблеме исследования. Вам необходимо (a) получить
дизайн справа и (b) соотносят результаты назад с
лингвистическая теория. |
Что такое научный эксперимент?
Ответ: это проверка гипотезы.
Гипотеза — утверждение, которое можно считать истинным. но не проверено, т.е.г.,
- курение полезно
- падающих предметов разлетаются с ускорением в сторону земли на высоте 9,8 метра на секунду в квадрате
- ‘ — это клитика, а не слово
- слово «кто» употребляется в речи реже, чем письмо
- степень предпочтения «кому», а не «Кто» отличается в современном устном и письменном британском Английский
В каждом случае задача исследователя — разработать эксперимент. что позволяет нам решить, подтверждают ли доказательства в реальном мире или противоречит гипотезе.Сравните примеры 4 и 5 выше. Если заявление очень общее
- трудно собрать доказательства для проверки гипотезы и
- доказательства могут поддержать множество других объяснений.
Итак, нам нужно «прижать» общую гипотезу к ряд более конкретных гипотез, которые легче проверить. Искусство экспериментального дизайна заключается в сборе данных, соответствующих гипотеза исследования.Мы обсудим, как собирать данные из корпус на следующей странице.
Вкратце, простой эксперимент состоит из
- зависимая переменная , от которой может зависеть или не зависеть на
- независимая переменная , которая отличается от нормы
ход событий.
В качестве удобного сокращения мы будем также ссылаться на независимый переменная как « IV » и зависимая переменная как « DV ».
(Кстати, можно поэкспериментировать и с большим количеством чем один, возможно, способствующий фактор ( IV ) или более один вид результата ( DV ), но всегда лучше оставить это просто. В любом случае такие «эксперименты» проводятся как серию более простых экспериментов.)
Таким образом, в примере 5 независимой переменной может быть ‘text категория ‘(например,g., устная или письменная), и зависимая переменная, количество раз, когда используется слово «кто», где это применимо, т.е. , когда либо «кто», либо «кто» мог использоваться в тексте .
Статистический тест позволяет нам измерить силу корреляции между зависимыми и независимыми переменными.
- Если мера мала, переменные, вероятно, независимы, я.е., они не влияют друг на друга;
- если большой, это означает, что переменные коррелируют, т. Е. Они могут зависеть друг от друга.
Означает ли значительный результат что у нас
доказали нашу гипотезу?Строго говоря, нет. Всегда есть вероятность, что что-то еще продолжается. Корреляция не указывает на причину.
Например, по населению, росту (A) и уровень образования (B) может коррелировать.Но растет выше не увеличивает тягу к знаниям, ни способность сдавать экзамены. Обратное следствие может быть правдой, то есть, эти знания имеют тенденцию улучшать диету и благополучие. | |||
Другие коренные причины (например, распределение богатства, C), могут можно сказать, что инструментально вносит как в высоту, так и в образование одновременно.(Один экспериментальный метод заключается в устраните любую такую возможную причину, получив образец аналогичного богатство и снова проводим эксперимент. Однако результат будет применяться только к генеральной совокупности, из которой проводилась выборка. взятый. Этот метод и есть редукционизм .) |
Здесь мы должны проводить различие между «лабораторией» экспериментов и естественных экспериментов, иногда называемых ex постфактум исследований.В лабораторных экспериментах исследователи могут ( некоторой степени) контрольные условия эксперимента для того, чтобы заранее ограничьте действие альтернативных гипотез. Недостатки с лабораторными экспериментами заключаются в том, что они могут быть чрезмерно ограничены (например, чтение с экрана при выключенном свете, когда объект голова прикреплена к аппарату) или узкая и нерепрезентативная (например, данные, основанные на конкретной совместной задаче).Корпусные исследования контраст могут преодолеть некоторые из этих проблем.
В нашем случае мы должны использовать лингвистический аргумент, чтобы попытаться установить связь между любыми двумя коррелирующими переменными.
Примечание: Не утверждайте, что ваши результаты демонстрируют «вероятностный реальность явления. Статистический тест основан на математическая модель, которая оценивает, насколько вероятно, что наблюдаемое отклонение от ожидаемого распределения произойдет случайно, учитывая определенные предположения.
А как насчет обратного? Опровергает ли несущественный результат
гипотезу ?Традиционный (попперовский) язык, используемый для описания эксперимента. выражается в двойных негативах. Мы говорим о «нулевой гипотезе», что является противоположностью интересующей нас гипотезе. Если тест не обнаруживает достаточных вариаций, мы говорим, что мы не может отвергнуть нулевую гипотезу .Это не то же самое, что сказать что исходная гипотеза неверна, а данные не позволяйте нам отказываться от принятого по умолчанию предположения, что ничего не происходит на.
Дополнительные комментарии по философии экспериментирования с корпусом доступны. здесь.
Итак, что толку от эксперимента?
Эксперименты позволяют продвигать позицию. Если разные биты доказательства указывают на тот же общий вывод, мы можем быть на правильном пути.
Планирование эксперимента
Эксперимент состоит как минимум из двух переменных: зависимой и независимая переменная. Экспериментальная гипотеза , которая это действительно краткое изложение экспериментального плана, сформулированное в терминах этих переменных.
Предположим, мы вернемся к нашему примеру 5. Наша зависимая переменная — это использование «кто» по сравнению с использованием «кто», наша независимая переменная — это текстовая категория.Предположим, что мы берем данные из ICE-GB, хотя мы могли бы в равной степени взять данные из других корпуса, содержащие устные или письменные образцы. NB. Размер два сэмпла не обязательно должны быть равными, если вы работаете с относительными частотами (см. следующий раздел).
Наша экспериментальная гипотеза является более конкретной версией, чем наша предыдущий, то есть
- слово «кто» отличается от «кто». в использовании между устным и письменным британским английским языком выборки прямо сопоставимым образом с категориями ICE-GB .
Гипотетический пример: изменения относительной и абсолютный риск | |
Обратите внимание, что мы не предлагаем рассматривать абсолютную частоту . «кто» или «кого», e.г., количество падежей на 1000 слов. Скорее, мы должны изучить родственника частота «кого», когда возникает выбор.
Предположим, кто-то говорит вам, что поездки на поезде становятся безопаснее. Они говорят, что в период с 1990 по 2000 год количество аварий на железные дороги упали на десять процентов. Но что делать, если количество поездок уменьшились вдвое за тот же период времени? Стоит ли верить их аргументам?
Относительный риск травмы (в данном случае оценивается за поездку , но вы также можете рассмотреть за расстояние вместо этого проехал ) увеличилось (на 90 / 50×100% = 180%, см. график), не упал.
- Абсолютная частота сообщает, насколько часто встречается слово в корпусе. Но причина того, что слово есть в первом место может зависеть от многих факторов, не имеющих отношения к экспериментальная гипотеза.
- Использование относительных частот фокусируется на вариации , где есть выбор .Плохая новость в том, что вам может потребоваться проверить примеры в корпусе, чтобы увидеть, действительно ли есть выбор в каждом случае. Если вы используете другие аннотации, такие как теги или синтаксический анализ, чтобы классифицировать ваши случаи, вам может потребоваться перепроверить это. (Итак, если вам интересно, мы не отказались по натуралистическому изучению корпуса только что.)
Если вы исследуете проанализированный корпус, например ICE-GB, и пытаетесь исследовать явно представленные грамматические явления (т.е., запросы могут быть представлены как FTF или как серия FTF), тогда создание набора вариантов выбора не должно быть особенно трудным (см. вопрос о нумерации). Если у вас большое количество кейсов, вы можете положиться на парсинг, при условии отсутствия систематической погрешности в аннотации (т.е. либо корпус исправлен вручную, либо неточный выбор были решены случайным образом). систематические ошибки в аннотациях представляют смещение , случайные — шум .
В нашем примере на следующей странице, использование относительных частот означает, что ожидаемое распределение рассчитывается путем масштабирования общего столбца «кто + кто». Если мы рассчитали его на основе абсолютных частот, ожидаемое распределение будет просто пропорционально размеру выборки, а результат будет гораздо легче исказить из-за различий в выборке между подкорпусами.
Две хорошие новости
Другими словами, одна из распространенных критических замечаний по корпусной лингвистике, а именно то, что он состоит из атеоретического подсчета частот, удален. Во-вторых, сосредоточение внимания на индивидуальном выборе снижает вероятность эта обнаруженная вариация связана с выборкой, потому что любая такая выборка смещение повлияет на вероятность выбора в сторону большей степень, чем вероятность одного решения над другим.(NB. Это сказал, вы всегда должны стремиться к репрезентативной выборке.)
Методологический континуум
Наша методологическая позиция находится где-то между двумя полярными противоположности: самоанализ на основе примеров и репортаж из абсолютных частот при отсутствии контекста. Из с нашей точки зрения, верхняя граница приемлемого метода проиллюстрирована по условному эксперименту (не настроение влияет на транзитивность предложения?).Случаи в этом эксперименте (предложения) встречаются в различных лингвистических контекстах где факторы, влияющие на корреляцию двух переменных (настроение и переходность) также будут варьироваться от ситуации к ситуации. Такой эксперимент действительно слишком общий, чтобы делать какие-либо определенные выводы. Нижний предел нашего эмпирического подхода — это a единый лингвистический выбор и достаточно данных, чтобы разрешить статистический тест .Позже мы увидим подобный эксперимент. Обратите внимание, что проблема специфичности (лингвистического контекста) не обязательно определять только грамматическими критериями.
Как мы увидим, мы можем исследовать набор экспериментальных гипотез, работая сверху вниз, или снизу вверх.
Методологический континуум в корпусной лингвистике
(щелкните изображение, чтобы увеличить)
Этот вид исследования корпуса основан на подсчете токенов, скорее, чем типов .То есть наше доказательство — это частотные данные от естественная выборка, каждый случай засчитывается независимо от того, уникальный. Этот экспериментальный план отличается от изучения словаря. или данные лексики, связанные с частотой уникальных типов.
Отобранный для эксперимента образец определяет теоретическую «Популяция», вы можете обобщить значительный результат к. Значимый результат в корпусе можно обобщить на сравнительно выбранная совокупность предложений.Значительный результат в лексике исследование (где не учитываются данные о частоте корпуса) обобщает к сравнительно отобранной совокупности из словарных статей . Если лексика образована из корпуса, то это позволяет нам предсказать это были слова, которые нужно было составить с использованием того же процесса из сравнительно отобранный корпус, результаты, вероятно, будут повторяться. Если лексика взята из словарей, то словарь необходимо учитывать предвзятость составителей.
Эксперименты с разобранным корпусом
Проблема соотношения двух или более грамматических элементов вместе становится центральным, когда мы рассматриваем вопрос о проведении экспериментов на разобранном корпусе.
- Проще быть более точным при установлении грамматической типология лексического элемента, говоря «получить этот элемент в этот грамматический контекст ».Мы также можем варьировать точность наших определений, добавляя или удаляя элементы, ребра, ссылки, пр.
- Гораздо проще связать два элемента, например, « и ». и man являются частями одной и той же именной группы ».
Против этой точки зрения есть возражение, что эксперимент должен обязательно быть в контексте определенного набора предположений, я.е., специфическая грамматика. Это не исключает возможности научных экспериментов, но означает, что мы должны квалифицировать наши результаты — «НП, согласно эта грамматика », и т.д. Здесь мы обсуждаем этот вопрос более подробно. В параллельно проанализированном корпусе можно было изучить взаимодействие между два разных набора анализов (хотя на практике рабочая нагрузка будет очень высоким, если большая часть задачи не может быть автоматизирована).
В ICECUP мы используем Fuzzy Фрагменты дерева , чтобы установить связь между двумя или больше элементов. Более того, мы можем изучить взаимодействие между грамматическими термины. Более подробно это обсуждается в заключительной части. пара этих страниц. Сначала обратимся к более простой задаче: как определить, влияет ли социолингвистическая переменная на грамматический один.
Домашние страницы FTF, Шон Уоллис
и Джерри
Нельсон.
Комментарии / вопросы на [email protected].
Подписаться на @UCLEnglishUsage
Последнее изменение этой страницы 28 января, 2021 от Survey Web Administrator.
примеров научных методов и 6 ключевых шагов
Научный метод — это процесс, созданный в семнадцатом веке, посредством которого гипотезы разрабатываются, проверяются и либо доказываются, либо опровергаются.Это организованный процесс определения точности научных теорий путем тщательного наблюдения и экспериментов.
Шесть шагов научного метода
При создании и проведении эксперимента используется научный метод. Цель научного метода — иметь систематический способ проверки идей и представления результатов в процессе научного исследования. Ключевым компонентом использования научного метода является то, что он гарантирует, что эксперимент может быть воспроизведен кем угодно.Если это невозможно, результаты считаются недействительными.
Научный метод состоит из шести шагов:
- Определить цель
- Построить гипотезу
- Проверить гипотезу и собрать данные
- Проанализировать данные
- Сделать вывод
- Сообщать результаты
Прежде чем вы сможете правильно использовать научный метод в своих собственных экспериментах, вы должны хорошо понимать независимых и зависимых переменных.Чтобы лучше понять, как научный метод работает на практике, рассмотрим следующие примеры простых экспериментов, которые вы можете попробовать в повседневной жизни.
Пример №1: Замерзшая вода
Рассмотрим, как научный метод применим в этом простом эксперименте с замораживанием воды в двух различных условиях.
- Определить Цель: Я хочу знать, замерзает ли вода быстрее сама по себе или с добавлением сахара.
- Construct Hypothesis: Нулевая гипотеза состоит в том, что не будет никакой разницы в том, сколько времени потребуется воде, чтобы замерзнуть, независимо от того, был ли в нее добавлен сахар.Альтернативная гипотеза состоит в том, что между двумя сценариями будет статистически значимая разница во времени замораживания.
- Проверить гипотезу и собрать данные: Наполните два одинаковых контейнера одинаковым количеством воды комнатной температуры. Добавьте в одну из емкостей отмеренное количество сахара. Поместите два контейнера в морозильную камеру. Через равные промежутки времени в 15 минут открывайте морозильную камеру и наблюдайте за состоянием воды в каждой емкости. Продолжайте, пока оба полностью не замерзнут.Запишите время, за которое каждая емкость с водой достигла полностью замороженного уровня.
- Анализ данных: Посмотрите, сколько времени потребовалось для того, чтобы каждый контейнер с водой замерз. Вода с добавленным сахаром замерзла значительно дольше или меньше?
- Вывод вывода: На основании результатов вашего эксперимента сделайте вывод о том, замерзает ли вода с сахаром быстрее, медленнее или с той же скоростью, что и вода без добавления сахара.
- Сообщите результаты: Сообщите о своих выводах в форме письменного отчета в виде устной презентации.
В случае этого эксперимента вы можете изменить количество добавляемого сахара (во время шага 3 научного метода, описанного выше), чтобы увидеть, не повлияет ли он на результаты. Это может быть более надежный эксперимент, поскольку тогда у вас будут дополнительные данные для отчета.
Пример № 2: Выращивание растений фасоли
Вот еще один пример, когда научный метод может быть использован для изучения мира природы.
- Определить Цель: Я хочу знать, будет ли фасоль быстрее расти снаружи или внутри.Для целей этого эксперимента вы можете выбрать временные рамки в три недели.
- Construct Hypothesis: Нулевая гипотеза состоит в том, что нет никакой разницы между выращиванием фасоли в помещении или на открытом воздухе. Альтернативная гипотеза состоит в том, что существует статистически значимая разница между двумя ситуациями выращивания бобовых растений.
- Проверить гипотезу и собрать данные: Посадите четыре растения фасоли в одинаковые горшки, используя один и тот же тип почвы.Поместите два из них на открытом воздухе, а два других поместите в помещении. Постарайтесь выбрать места, где растения будут получать одинаковое количество солнечного света. Ухаживайте за растениями точно так же, как и поливайте одинаковое количество воды. Затем каждый день в течение трехнедельного экспериментального периода наблюдайте и измеряйте рост растений. Тщательно запишите размер каждого растения в тетрадь.
- Анализ данных: Просмотрите данные и определите, как развивались предприятия в обеих средах в течение трех недель.Вы можете найти среднее значение между двумя комнатными растениями, чтобы определить «типичный» рост комнатных растений, проделав то же самое для двух уличных растений, чтобы вычислить «типичный» рост уличных растений.
- Вывод на вывод: На основе собранных вами данных определите, есть ли окончательный ответ на вопрос о том, будет ли фасоль, помещенная внутрь или снаружи, расти быстрее.
- Сообщите о результатах: Подготовьте способ представления результатов эксперимента, например, в форме письменного отчета, слайд-шоу или демонстрации на научной ярмарке.
Пример № 3: Подсчет автомобилей
Приложения научного метода включают также и простое наблюдение.
- Определить цель: Я хочу знать, используют ли водители-одиночки незаконно проезжую часть автострады в моем городе, и если да, то насколько широко распространена проблема.
- Construct Hypothesis: Нулевая гипотеза может заключаться в том, что нет ни одного человека, едущего в одиночку, который использует полосу для машин на автостраде. Альтернативная гипотеза может заключаться в том, что существует значительное количество водителей-одиночек, использующих автомобильную полосу.
- Проверить гипотезу и собрать данные: Чтобы проверить эту гипотезу, вы можете найти удобный для пешеходов путепровод, с которого вы сможете наблюдать за полосой для машин на автостраде. В течение 60-минутного периода в час пик вы подсчитываете количество транспортных средств на полосе для машин, у которых есть минимальное количество пассажиров, подходящих для этой полосы, а также отдельно подсчитываете количество транспортных средств с водителем-одиночкой. (В целях этого эксперимента мы могли бы игнорировать исключения для конкретных местоположений, например, как в некоторых штатах разрешено движение электромобилей по полосе для парковки автомобилей независимо от количества пассажиров.)
- Анализ данных: Просмотрите свои данные. Вы можете рассчитать процент транспортных средств, в которых были водители-одиночки.
- Вывод по розыгрышу: На основе собранных вами данных решите, использовало ли значительное количество индивидуальных водителей полосу для автомобилей в течение вашего периода наблюдения.
- Сообщите результаты: Представьте свои выводы в письменной или устной презентации.
Хотя единичный отбор проб в течение одного часа пик в одном месте может не быть репрезентативным для города в целом, такого рода наблюдения могут стать отличной отправной точкой для дальнейшего изучения и анализа.
Понимание научного метода
Процесс проведения эксперимента с использованием научного метода гарантирует, что ваша работа хорошо продумана и организована, и что все данные будут записаны и ими можно будет легко поделиться. Это, наряду с возможным воспроизведением обстоятельств эксперимента, снижает любую предвзятость со стороны ученого, проводящего эксперимент. Кроме того, сообщение результатов позволяет коллегам проверять работу, чтобы убедиться, что результаты точны, точны и правильно интерпретированы.
Когда вы будете готовы представить результаты своих собственных экспериментов, обязательно следуйте правильному формату написания отчета. Помните о различных элементах, а также о выборе шрифта и использовании заголовков. Поддерживайте свое научное обучение, открывая для себя некоторые изобретения Научной революции.
Как представить результаты моего эксперимента в отчете?
Обзор
Многие считают, что самая сложная работа ученого — не проводить эксперимент, а представлять результаты эффективным и последовательным образом.Даже если ваши методы и техника надежны, а ваши записи полны, написание отчета может быть проблемой, потому что организация и передача научных результатов требует терпения и полного понимания определенных условностей. Четкое понимание типичных целей и стратегий написания эффективного лабораторного отчета может значительно облегчить этот процесс.
Общие положения
Полезно отметить, что эффективное научное письмо служит той же цели, что и ваш лабораторный отчет.Хорошее научное письмо объясняет:
- Цель (цели) вашего эксперимента
- Как вы проводили эксперимент
- Полученных вами результатов
- Почему эти результаты важны
Хотя маловероятно, что вы выиграете Нобелевскую премию за свою работу в лабораторных курсах бакалавриата, адаптировать свои стратегии письма к имитации профессиональных журналов проще, чем вы думаете, поскольку все они следуют единому образцу.Однако последнее слово в решении вопроса о том, как должен быть структурирован ваш отчет и что должно отображаться в каждом разделе, остается за вашим преподавателем. Пожалуйста, используйте следующие пояснения только для , дополняющего заданными вами критериями написания, а не думайте о них как о том, как должны быть написаны все лабораторные отчеты .
На практике
Структура отчета
Традиционный экспериментальный отчет структурирован с использованием аббревиатуры «IMRAD» , что означает I ntroduction, M ethods, R esults и D iscussion.« A » иногда используется для обозначения A bstract. Чтобы получить помощь в написании рефератов, посетите ресурс Sweetland под названием «Что такое реферат и как его написать?»
Введение: «Что я здесь делаю?»
Введение должно выполнять то же самое, что и любое хорошее введение: втягивать читателя в статью. Чтобы упростить задачу, следуйте структуре «перевернутой пирамиды», которая включает в себя сужение информации от самой широкой (обеспечивающей контекст для места вашего эксперимента в науке) до самой конкретной (о чем конкретно идет ваш эксперимент).Рассмотрим пример ниже.
Самый широкий: «Кофеин — это мягкий стимулятор, который содержится во многих распространенных напитках, включая кофе».
Менее широко: «Обычные реакции на употребление кофеина включают учащенное сердцебиение и учащенное дыхание».
Немного конкретнее (ближе к вашему эксперименту): Предыдущее исследование показало, что люди, потребляющие несколько напитков с кофеином в день, также более склонны к раздражительности.
Наиболее конкретный (ваш эксперимент): В этом исследовании изучается эмоциональное состояние студентов колледжа (в возрасте 18–22 лет) после того, как они выпивают по три чашки кофе каждый день.
Видите, как это работало? Каждая идея становилась немного более сфокусированной, заканчиваясь кратким описанием вашего конкретного эксперимента. Вот еще пара советов, о которых следует помнить при написании введения:
- Включите обзор рассматриваемой темы, включая соответствующую литературу
Хороший пример: «В 1991 году Роджерс и Хаммерштейн пришли к выводу, что употребление кофе улучшает бдительность и умственную концентрацию (цитата 1991). - Объясните, что ваш эксперимент может способствовать получению прошлых результатов.
Хороший пример: «Несмотря на эти установленные преимущества, кофе может отрицательно влиять на настроение и поведение. Это исследование направлено на изучение эмоций тех, кто пьет кофе из колледжа во время финальной недели ». - Держите введение кратким
Написание длинного введения не дает реальных преимуществ. Большинство людей, читающих вашу статью, уже знают, что такое кофе и откуда он берется, так какой смысл рассказывать им подробную историю кофейных зерен?
Хороший пример: «Кофеин — это психоактивный стимулятор, очень похожий на никотин.(Соответствующая информация, поскольку она дает контекст для кофеина — молекулы исследования)
Плохой пример: «Некоторые из наиболее популярных кофейных напитков в Америке включают капучино, латте и эспрессо». (Неуместно для вашего введения. Эта информация бесполезна для вашей аудитории, потому что она не только уже знакома, но и ничего не упоминает о кофеине или его эффектах, которые являются причиной того, что вы проводите эксперимент.) - Не разглашайте подробную технику и данные, которые вы собрали в ходе эксперимента.
Хороший пример: «Во время экзаменов в конце семестра наблюдалась выборка студентов колледжа, пьющих кофе.»( Подходит для введения )
Плохой пример:« Были изучены 25 студентов колледжа, и каждому дали 10 унций темного обжаренного кофе высшего качества (содержащего 175 мг кофеина на порцию, за исключением Folgers, в котором содержание кофеина значительно ниже). в день через пластиковую соломинку с интервалом в два часа в течение трех недель ». ( Слишком подробно для вступления. Более подробная информация должна быть представлена в разделах «Методы» или «Результаты». )
Методы: «Где я возьму весь этот кофе…?»
Раздел «методы» должен включать всю информацию, необходимую для воссоздания вашего эксперимента кем-либо еще.Ваши экспериментальные заметки будут очень полезны для этого раздела отчета. Более-менее, этот раздел будет напоминать рецепт вашего эксперимента. Не думайте о написании умной и увлекательной прозы. Просто скажите, что вы сделали, как можно яснее. Ответьте на следующие типы вопросов:
- Где вы проводили эксперимент? (Это особенно важно в полевых исследованиях — работе, проводимой вне лаборатории.)
- Какие у вас были материалы?
- Сколько вы использовали? (Будьте точны.)
- Вы что-нибудь в них меняли? (т.е. каждые 5 унций кофе разбавляли 2 унциями дистиллированной воды.)
- Как вы записывали данные?
- Вы использовали какой-либо специальный метод для записи данных? (например, после того, как они выпили кофе, счастье студентов измерялось с помощью рейтинговой системы Walter Gumdrop по шкале от 1 до 10.)
- Использовали ли вы какие-либо приемы / методы, важные для исследования? (То есть, возможно, вы провели двойной слепой эксперимент с X и Y в качестве контроля.Был ли ваш контроль плацебо? Будьте конкретны.)
- Есть ли необычные / уникальные методы сбора данных? Если да, то почему вы их использовали?
После того, как вы определили основное содержание раздела «методы», обратите внимание на следующие советы:
- Выберите активный или пассивный голос
Было много споров по поводу использования пассивного залога в научной литературе. «Пассивный залог» — это когда субъект предложения является получателем действия.
- Например: Студентам подали кофе.
«Активный голос» — это когда субъект предложения выполняет действие.
- Например: Я угощал студентов кофе.
В некоторых случаях преимущества использования пассивной передачи голоса очевидны. Например, научные отчеты касаются того, что изучается, а не ВАС.Использование слишком большого количества личных местоимений может сделать ваше письмо более похожим на повествование, а не на отчет. По этой причине многие люди рекомендуют использовать пассивный залог, чтобы создать более объективный, профессиональный тон, подчеркивая то, что было сделано ДЛЯ вашего объекта. Тем не менее, активный голос становится все более распространенным в научных статьях, особенно в социальных науках, поэтому окончательное решение о пассивном или активном голосе остается за вами (и тем, кто оценивает ваш отчет).
- Единицы важны
При использовании чисел важно всегда перечислять единицы и поддерживать их единообразие на протяжении всего раздела.Есть большая разница между тем, чтобы дать кому-то 150 миллиграммов кофе и 150 граммов кофе: первое заставит вас бодрствовать на некоторое время, а второе заставит вас уснуть на неопределенное время. Так что будьте последовательны в этом отношении. - Не надо без нужды объяснять общие методы
Если вы работаете в химической лаборатории, например, и хотите измерить температуру плавления кофеина, нет смысла говорить: «Я использовал« измеритель точки плавления 3000 ». взять температуру плавления кофеина.Сначала я подключил его… потом включил… »Ваш читатель может экстраполировать эти методы для себя, так что простой« Точка плавления была записана »будет работать нормально. - Если это не важно для ваших результатов, не включайте его.
Никого не волнует, купили ли вы кофе для своего эксперимента в «день латте за 3 доллара». Цена на кофе не повлияет на результат вашего эксперимента, так что не утомляйте читателя этим. Просто запишите все, что ВЛИЯЕТ на ваши результаты (т.е. массы, объемы, количество испытаний и т. д.).
Результаты: Единственное, что стоит прочитать?
Раздел «Результаты» — это место, где можно рассказать читателю о том, что вы наблюдали. Однако не делайте ничего, кроме как «рассказывать». Такие вещи, как объяснение и анализ, относятся к вашему разделу обсуждения. Если вы обнаружите, что используете такие слова, как «потому что» или «что предполагает» в разделе результатов, то СТОП! Вы слишком много анализируете.
Хороший пример: «В этом исследовании 50% испытуемых проявляли симптомы повышенного гнева и раздражения в ответ на прослушивание музыки Селин Дион.»( Подходит для раздела« результаты »- он не увлекается объяснением, ПОЧЕМУ они были раздражены. )
В разделе «Результаты» укажите:
- По возможности отображайте факты и цифры в таблицах и графиках.
Избегайте перечисления таких результатов, как «В первом испытании было 5 студентов из 10, которые проявляли раздражительное поведение в ответ на кофеин. Во втором испытании… »Вместо этого сделайте график или таблицу. Просто не забудьте пометить его, чтобы вы могли ссылаться на него в своем письме (т.е. «Как показано в таблице 1, количество ругательств, произнесенных учащимися, увеличивалось пропорционально количеству выпитого кофе»). Точно так же не забудьте пометить каждую ось / заголовок на диаграмме или графике (хорошее визуальное представление можно понять на свое собственное без каких-либо текстовых пояснений). Следующий пример ясно показывает, что происходило во время каждого испытания эксперимента, делая тенденции визуально очевидными и, таким образом, избавляя экспериментатора от необходимости объяснять каждое испытание словами.
Таблица 1
Количество потребленного кофе (мг) | Ответ на тычок карандашом (количество произнесенных ругательств ) |
50 | 0 |
75 | 1 |
100 | 3 |
125 | 4 |
150 | 7 ½ |
- Определите только наиболее значимые тенденции.
Не пытайтесь включить каждый бит данных в этот раздел, потому что большая часть из них не будет иметь отношения к вашей гипотезе. Просто выберите самые важные тенденции или то, что наиболее важно для ваших целей.
Обсуждение: «Что все это значит?»
Раздел «обсуждение» предназначен для того, чтобы объяснить читателю, что могут означать ваши данные. Как и в случае со всей наукой, цель вашего отчета — просто предоставить доказательств того, что что-то может быть правдой или ложью, а не однозначно доказать это.В разделе «обсуждение» необходимо ответить на следующие вопросы:
- Поддерживается ли ваша гипотеза?
Если у вас не было конкретной гипотезы, соответствовали ли результаты тому, что предлагали предыдущие исследования?
Хороший пример: «В соответствии с наблюдаемым влиянием кофеина на частоту сердечных сокращений, склонность студентов сильно реагировать на лопание воздушного шара явно свидетельствует о том, что способность кофеина повышать бдительность также может увеличивать нервозность.” - Какие данные вас удивили?
Выбросы редко бывают значительными, и упоминать о них в большинстве случаев бесполезно. Однако, если вы видите на графике еще один кластер точек, который устанавливает свой собственный тренд, об этом стоит упомянуть. - Полезны ли результаты?
Если у вас нет существенных выводов, просто скажите это. Не пытайтесь делать дикие заявления о значении вашей работы, если для этих утверждений нет статистических / наблюдательных оснований — это нечестно и бесполезно для других ученых, читающих вашу работу.Точно так же старайтесь избегать использования слов «доказательство» или «доказывает». Ваша работа просто предлагает доказательства для новых идей. Тот факт, что в ваших испытаниях все сложилось одинаково, не означает, что эти результаты всегда будут повторяемыми или верными. - Каковы последствия вашей работы?
Вот несколько примеров вопросов, которые могут помочь понять, насколько ваше исследование может быть значимым вне данного эксперимента: Почему кого-то должно волновать то, что вы говорите? Как эти результаты могут повлиять на любителей кофе? Предполагают ли ваши выводы, что употребление кофе более вредно, чем считалось ранее? Менее вредно? Как эти открытия могут повлиять на другие области науки? А как насчет воздействия кофеина на людей с эмоциональными расстройствами? Ваши выводы предполагают, что им следует или не следует пить кофе? - Есть недостатки в работе?
Были ли недостатки в вашей экспериментальной конструкции? Как следует учитывать эти осложнения в будущих исследованиях в этой области?Поднимает ли ваше исследование какие-либо новые вопросы? Какие еще области науки следует изучить в результате вашей работы?
Ресурсы:
Хогг, Алан.