наст. | прош. | повелит. | |
---|---|---|---|
Я | дискретизи́рую | дискретизи́ровал дискретизи́ровала | — |
Ты | дискретизи́руешь | дискретизи́ровал дискретизи́ровала | дискретизи́руй |
Он Она Оно | дискретизи́рует | дискретизи́ровал дискретизи́ровала дискретизи́ровало | — |
Мы | дискретизи́ровали | — | |
Вы | дискретизи́руете | дискретизи́ровали | дискретизи́руйте |
Они | дискретизи́руют | дискретизи́ровали | — |
Пр. действ. наст. | дискретизи́рующий | ||
дискретизи́ровавший | |||
Деепр. наст. | дискретизи́руя | ||
Деепр. прош. | дискретизи́ровав, дискретизи́ровавши | ||
Пр. страд. наст. | дискретизи́руемый | ||
Будущее | буду/будешь… дискретизи́ровать |
Дискретизация — это… Что такое Дискретизация?
Также,
Преобразование непрерывного информационного множества аналоговых сигналов в дискретное множество называется дискретизацией или квантованием по уровню (ср. «Квантование по времени»).Квантование по уровню широко используется в цифровых автоматах. При квантовании по уровню производится отображение всевозможных значений величины на дискретную область, состоящую из величин уровня квантования.
— Самофалов К.Г., Романкевич А.М., Валуйский В.Н., Каневский Ю.С., Пиневич М.М. 1.3 Дискретизация информации // Прикладная теория цифровых автоматов. — К.: Вища школа, 1987. — 375 с.
Используется в гибридных вычислительных системах и цифровых устройствах при импульсно-кодовой модуляции сигналов в системах передачи данных[1]. При передаче изображения используют для преобразования непрерывного аналогового сигнала в дискретный или дискретно-непрерывный сигнал.
Обратный процесс называется восстановлением. При дискретизации только по времени, непрерывный аналоговый сигнал заменяется последовательностью отсчётов, величина которых может быть равна значению сигнала в данный момент времени. Возможность точного воспроизведения такого представления зависит от интервала времени между отсчётами .
Согласно теореме Котельникова:
где — наибольшая частота спектра сигнала.
Примечания
- ↑ Словарь по кибернетике, стр. 168 /Под редакцией В. С. Михалевича. — 2-е издание — К.: 1989. — 751 с., ISBN 5-88500-008-5
Литература
- Самофалов К.Г., Романкевич А.М., Валуйский В.Н., Каневский Ю.С., Пиневич М.М. Прикладная теория цифровых автоматов. — К.: Вища школа, 1987. — 375 с.
См. также
Ссылки
Дискретизация — Википедия
Дискретизация непрерывного аналогового сигнала. Выборки изображены точками на кривой. Период дискретизации обозначен T {\displaystyle T} .В обработке сигналов — представление аналогового непрерывного сигнала S ( t ) {\displaystyle S(t)} совокупностью его значений, эту совокупность принято называть
В общем случае период времени от одной выборки до следующей может различаться для каждой пары соседних выборок, но обычно при обработке сигнала, выборки следуют через фиксированный и постоянный промежуток времени. Этот промежуток в таком случае называют периодом дискретизации или интервалом выборок и обычно обозначается буквой T {\displaystyle T} . Величину обратную периоду дискретизации F s = 1 / T {\displaystyle F_{s}=1/T} называют
Примерами аналогового сигнала могут служить аудио- или видеосигналы, сигналы различных измерительных датчиков и др. Для последующей цифровой обработки аналоговые непрерывные сигналы обязательно предварительно подвергаются дискретизации и квантованию по уровню с помощью аналого-цифровых преобразователей.
Обратный процесс получения непрерывного аналогового сигнала заданного дискретной совокупностью его выборок называется восстановлением. Восстановление производится цифро-аналоговыми преобразователями.
Теория
Дискретизация гребёнкой ДиракаВ математических терминах — дискретизация это умножение непрерывной функции s ( t ) {\displaystyle s(t)} на функцию, называемую гребень Дирака Δ T ( t ) = d e f ∑ k = − ∞ ∞ δ ( t − k T ) {\displaystyle \Delta _{T}(t)\ {\stackrel {\mathrm {def} }{=}}\ \sum _{k=-\infty }^{\infty }\delta (t-kT)} где T {\displaystyle T} — константа — период дискретизации и δ ( t ) {\displaystyle \delta (t)} — дельта-функция Дирака:
- s a ( t ) = s ( t ) ⋅ ∑ n = − ∞ ∞ δ ( t − n T ) . {\displaystyle s_{\mathrm {a} }(t)=s(t)\cdot \sum _{n=-\infty }^{\infty }\delta (t-nT).}
Преобразование Фурье дискретной функции s a ( t ) {\displaystyle s_{\mathrm {a} }(t)} даёт её спектр S a ( f ) {\displaystyle S_{\mathrm {a} }(f)} . Согласно теореме Котельникова, если спектр S a ( f ) {\displaystyle S_{\mathrm {a} }(f)} исходной функции ограничен, то есть спектральная плотность нулевая свыше некоторой частоты f m a x {\displaystyle f_{max}} , то исходная функция однозначно восстановима по совокупности её выборок, взятых с частотой дискретизации 1 / T ≥ 2 f m a x {\displaystyle 1/T\geq 2f_{max}} .
Для абсолютно точного восстановления необходимо подать на вход идеального фильтра нижних частот последовательность бесконечно коротких импульсов каждый с площадью равной значению выборки.
Практически невозможно идеально точно восстановить реальные сигналы по выборкам, так как во-первых, не существует сигналов с ограниченным спектром, ибо реальные сигналы ограничены во времени, что обязательно даёт спектр бесконечной ширины. Во-вторых, физически нереализуем идеальный фильтр низких частот (sinc-фильтр), в третьих, невозможны бесконечно короткие импульсы с конечной площадью.
Применение
Все сигналы в природе по сути аналоговые. Для цифровой обработки сигнала, хранения его и передачи в цифровом виде аналоговые сигналы предварительно оцифровываются. Оцифровка включает дискретизацию и квантование по уровню, производимую с помощью АЦП. После цифровой обработки, передачи, хранения цифровых данных, кодирующих сигнал, часто необходимо обратное преобразование цифрового образа сигнала в аналоговый сигнал. Например, звуковоспроизведение аудиозаписей с компакт-диска.
Также дискретизация применяется в системах аналоговой импульсной модуляции.
Практически восстановление аналогового сигнала по совокупности выборок производится с той или иной степенью точности, причём точность восстановления тем выше, чем выше частота дискретизации и число уровней квантования каждой выборки. Но чем больше частота дискретизации и число уровней квантования, тем больше требуется ресурсов для обработки, хранения, передачи оцифрованных данных. Поэтому частоту дискретизации и разрядность АЦП практически выбирают исходя из разумного компромисса.
Например, для цифровой передаче голоса для хорошей разборчивости речи достаточна частота дискретизации 8 кГц, высококачественное воспроизведение музыкальных произведений с компакт-дисков в современном стандарте производится с частотой дискретизации 48 кГц, что обеспечивает высококачественное воспроизведение звука во всей полосе слышимых частот 20 Гц — 20 кГц.
Оцифровка телевизионного видеосигнала с полосой частот 6 МГц производится с частотой дискретизации свыше 10 МГц[2].
См. также
Частота дискретизации.
См. также
Примечания
- ↑
Преобразование непрерывного информационного множества аналоговых сигналов в дискретное множество называется дискретизацией или квантованием по уровню (ср. «Квантование по времени»). Квантование по уровню широко используется в цифровых автоматах. При квантовании по уровню производится отображение всевозможных значений величины x {\displaystyle x} на дискретную область, состоящую из величин x − {\displaystyle {\overset {-}{x}}} уровня квантования.
— Самофалов К. Г., Романкевич А. М., Валуйский В. Н., Каневский Ю. С., Пиневич М. М. 1.3 Дискретизация информации // Прикладная теория цифровых автоматов. — К.: Вища школа, 1987. — 375 с. - ↑ Словарь по кибернетике, стр. 168 /Под редакцией В. С. Михалевича. — 2-е издание — К.: 1989. — 751 с., ISBN 5-88500-008-5
Литература
- Самофалов К. Г., Романкевич А. М., Валуйский В. Н., Каневский Ю. С., Пиневич М. М. Прикладная теория цифровых автоматов. — К.: Вища школа, 1987. — 375 с.
Ссылки
- дискретизировать
дискретизировать
—Параллельные тексты EN-RU
All the measurements (voltage, current, power etc) are sampled and recalculated in 20ms time interval.
[ Legrand]Все измеряемые параметры (напряжение, ток, мощность и др.) дискретизируются и пересчитываются в течение 20 мс.
[Перевод Интент]Тематики
- измерение электр. величин в целом
EN
- digitize
- discretize
- quantize
- sample
Справочник технического переводчика. – Интент. 2009-2013.
- дискретизация телеметрического сообщения
- дискретизирующая функция
Смотреть что такое «дискретизировать» в других словарях:
Сигма-дельта модуляция — Сигма дельта модулятор в АПЦ При кодировании уровня аналогового сигнала требуется передавать несколько битов, а если уровень сигнала изменяется плавно, то получается избыточность передаваемой информации. Поэтому можно кодировать и передавать… … Википедия
Корректно поставленная задача — Математический термин корректно поставленная задача происходит от определения, данного Жаком Адамаром. Он полагал, что математические модели физических явлений должны иметь следующие свойства Решение существует Решение единственно Решение… … Википедия
Сомнение — У этого термина существуют и другие значения, см. Сомнение (значения). Сомнение психическое состояние или состояние ума, в котором возникает воздержание от окончательно определённого суждения, или/и раздвоения (троення и т. п.)… … Википедия
Digitize — Преобразовать в цифровую форму; производить цифровое кодирование; Дискретизировать … Краткий толковый словарь по полиграфии
- дискретизировать
- digitize, sample
Большой англо-русский и русско-английский словарь. 2001.
- дискретизированный сигнал
- дискретная антенная решетка
Смотреть что такое «дискретизировать» в других словарях:
дискретизировать — Параллельные тексты EN RU All the measurements (voltage, current, power etc) are sampled and recalculated in 20ms time interval. [ Legrand] Все измеряемые параметры (напряжение, ток, мощность и др.) дискретизируются и пересчитываются в течение 20 … Справочник технического переводчика
Сигма-дельта модуляция — Сигма дельта модулятор в АПЦ При кодировании уровня аналогового сигнала требуется передавать несколько битов, а если уровень сигнала изменяется плавно, то получается избыточность передаваемой информации. Поэтому можно кодировать и передавать… … Википедия
Корректно поставленная задача — Математический термин корректно поставленная задача происходит от определения, данного Жаком Адамаром. Он полагал, что математические модели физических явлений должны иметь следующие свойства Решение существует Решение единственно Решение… … Википедия
Сомнение — У этого термина существуют и другие значения, см. Сомнение (значения). Сомнение психическое состояние или состояние ума, в котором возникает воздержание от окончательно определённого суждения, или/и раздвоения (троення и т. п.)… … Википедия
Digitize — Преобразовать в цифровую форму; производить цифровое кодирование; Дискретизировать … Краткий толковый словарь по полиграфии
наст. | прош. | повелит. | |
---|---|---|---|
Я | дискретизи́рую | дискретизи́ровал дискретизи́ровала | — |
Ты | дискретизи́руешь | дискретизи́ровал дискретизи́ровала | дискретизи́руй |
Он Она Оно | дискретизи́рует | дискретизи́ровал дискретизи́ровала дискретизи́ровало | — |
Мы | дискретизи́руем | дискретизи́ровали | — |
Вы | дискретизи́руете | дискретизи́ровали | дискретизи́руйте |
Они | дискретизи́руют | дискретизи́ровали | — |
Пр. действ. наст. | |||
Пр. действ. прош. | |||
Деепр. наст. | |||
Деепр. прош. | дискретизи́ровав, дискретизи́ровавши | ||
Пр. страд. наст. | |||
Будущее | буду/будешь… дискретизи́ровать |
Что такое дискретизация? Частота дискретизации
Что такое дискретизация, знает сегодня любой профессионал в сфере цифровой фотографии. Однако многие люди, которые только начинают знакомиться с этой сферой, не знают основных ее особенностей, вследствие чего могут допускать те или иные ошибки.
Что это?
Что такое дискретизация? Это нежелательный эффект, который приводит к тому, что качество фотографии заметно ухудшается. Данное явление может быть ассоциировано с любым устройством или же процессом, в котором информация подразделяется на несколько отдельных отсчетов. В данном случае дискретизация может рассматриваться в качестве типа интерференционной картины, если есть определенное соотношение между частотой данного явления и определенной периодической структурой в данных.
Глаз человека постоянно стремится к тому, чтобы воспринимать определенное соотношение в качестве интерференционной картины, которая сможет заслонить собой реальный смысл того или иного изображения. Рассматривая примеры того, что такое дискретизация, стоит выделить муар, который представляет собой не совсем точный ее эффект, но при этом может показать, каким образом человек вводится в заблуждение в том случае, когда два паттерна начинают между собой взаимодействовать, образуя третий.
Что такое муар?
Муар представляет собой непонятный волнообразный узор, который изначально не присутствовал на объекте съемки. Данный эффект чаще всего возникает на различных изображениях, которые получаются при помощи цифровых устройств. И заключается проблема здесь в том, что узор объекта накладывается на узор размещения пикселей на матрице, вследствие чего появляется третий, который и называется муаром.
В преимущественном большинстве случаев этот эффект возникает на детализированных высококонтрастных изображениях, которые не соответствуют изначально настроенному разрешению датчиков. В частности, его достаточно часто можно встретить в том случае, если снимаются такие объекты, как волосы или же ткани, а также сюжеты, в которых содержится большое количество повторяющихся деталей. Зачастую муар невозможно встретить в природе, так как он возникает на изображениях, которые получаются при помощи цифровой фотокамеры или же впоследствии неправильного сканирования.
Достаточно часто в современных цифровых фотокамерах для того, чтобы снизить данный эффект, применяется специализированный оптический низкочастотный фильтр, поэтому, если вы действительно собираетесь профессионально заниматься фотографией, то в таком случае вам следует обязательно задуматься о модели с этой функцией, которая сможет обеспечить должное качество вне зависимости от вторичных условий.
Дискретизация в современных фотоаппаратах
В современных цифровых устройствах эффект дискретизации вызван тем, что информация разбивается на несколько отсчетов с регулярным интервалом. В частности, одним из паттернов в данном случае будет расположение пикселей на матрице, вторым паттерном будут любые элементы на снимке, которые могут повторяться на большой области или же которые изменяются через определенное количество пикселей в поперечном или же продольном направлении.
Для тех, кто не понял, что такое дискретизация и когда она возникает, можно привести конкретный пример. Когда в наличии есть недостаточное количество пикселей для того, чтобы передать достоверную информацию со снимка, то в таком случае он делается в не самом лучшем качестве. В стандартном варианте достаточно было бы просто выбрать более высокое разрешение, гарантируя таким образом обеспечение нужного количества пикселей для передачи деталей не снимке с определенной точностью, а если бы число пикселей было бы недостаточным, то мы могли бы просто увидеть небольшое количество элементов снимка.
Однако на самом деле это не совсем так. Теория дискретизации гласит о том, что в действительности ситуация является гораздо более негативной, и если нам не будет хватать количества пикселей для того, чтобы сделать определенный снимок, то в таком случае качество изображения будет постоянно ухудшаться.
Сколько пикселей нужно?
Возьмем в качестве примера ситуацию, когда на снимке присутствует просто 20 черных и белых линий, каждая из которых имеет ширину 5 пикселей. В данном случае, если на каждой линии будет обеспечен хотя бы один пиксель, то снимок может быть записан. Естественно, если пиксели не будут попадать четко в центр каждой линии, то в таком случае каждый пиксель получится серым, а не белым или черным, а его оттенок уже непосредственно будет зависеть от того, как пиксель располагается относительно линий.
Если на снимке количество пикселей будет уменьшаться, то в таком случае некоторые из них начнут оказываться между линиями, вследствие чего на изображении появится вышеуказанный паттерн, который будет постоянно изменяться в зависимости от того, в каком соотношении находится интервал между линиями и число пикселей. Конечно, такое изображение уже не будет являться точным воспроизведением оригинала, так как регулярная структура линий будет уже заметно нарушена. Именно это явление и принято в профессиональных кругах называть «дискретизация данных».
Что делать?
Чтобы решить данную проблему, нужно несколько смягчить снимок перед тем, как снизить количество пикселей. Таким образом, вы сможете полностью избавиться от резких границ на каждой линии, а пиксели смогут принимать промежуточные значения. Другими словами, снимок становится более мягким, но при этом сохраняется общее впечатление от картинки.
Как это влияет на изображение?
Конечно, повторяющиеся и регулярные структуры линий достаточно редко можно встретить на снимках различных природных объектов — их присутствие часто ограничивается снимками разнообразных искусственных сооружений, таких как здания и прочее. Однако в любом случае глубина дискретизации может быть внушительной, поэтому этого эффекта всегда стоит избегать, занимаясь съемкой любых объектов.
При этом стоит отметить тот факт, что качество изображений может быть абсолютно разным даже в том случае, если они имеют одинаковое количество пикселей. Ведь, помимо всего прочего, разница между снимками может заключаться также в том, каким именно образом они были получены. К примеру, в одном случае снимок может быть несколько смягчен путем пропуска его через низкочастотный фильтр для получения промежуточных значений пикселей перед тем, как уменьшить размер, в то время как другое изображение может просто уменьшаться в размере, не внося в него при этом никаких дополнительных изменений и не получая промежуточных значений на границах объектов, где наблюдаются слишком резкие изменения яркости.
Как проверить?
Чтобы понять, как это работает, достаточно просто взять один снимок, после чего сделать его копию. Оригинал отфильтровать при изменении размера с применением опции так называемой бикубической фильтрации, которая является доступной в стандартном Adobe Photoshop. Таким образом, снимок будет смягчен. Несмотря на заметное снижение пикселей, переходы между тональностями в конечном итоге оказываются гладкими и вполне подходящими под имеющееся количество пикселей.
После этого сделанную нами ранее копию снимка уменьшаем, скажем, до 30% от первоначального размера, используя при этом опцию «ближайшей соседней точки» в той же программе. Именно эта операция в конечном итоге и даст вам эффект дискретизации, который будет налицо.
Дискретизация звука
Дискретизация звука – это фильтрация звуковой волны перед тем, как она будет сохранена в звуковой файл. Другими словами, в конечном файле будет не точная копия звуковой волны, а только приблизительная. С одной стороны, дискретизация звука обеспечивает определенное снижение объема сохраняемого файла, но с другой есть масса звуковых колебаний, которые не обязательно сохранять на жестком диске.
Такая фильтрация звука называется «частота дискретизации». При этом стоит отметить, что на самом деле только в природе присутствует звук без этого эффекта, хоть и немногие об этом знают. Частота дискретизации – это наложение определенной сетки на звуковую волну, а также запись только определенных ключевых элементов.
Производить запись полностью всей звуковой волны было бы достаточно сложно. Именно по этой причине гораздо чаще можно встретить такую ситуацию, когда производилась двухканальная звукозапись с частотой дискретизации 44.1 kHz. Последняя выбирается наиболее часто, так как это самый оптимальный параметр.
В принципе, рассматривая звуковую обработку, нужно уделить особенное внимание таким параметрам, как глубина кодирования и частота дискретизации, ведь чем эти показатели выше, тем больше цифровой сигнал будет соответствовать аналоговому.
Дискретизация — это процесс преобразования непрерывных переменных в дискретные переменные путем создания набора смежных интервалов, которые охватывают диапазон значений переменных.
1.1. Дискретизация помогает обрабатывать выбросы и сильно искаженные переменные.
Дискретизация помогает обрабатывать выбросы, помещая эти значения в более низкие или более высокие интервалы вместе с остальными внутренними значениями распределения. Таким образом, эти выбросы больше не отличаются от остальных значений в хвостах распределения, так как теперь они все вместе в одном интервале / сегменте.Кроме того, путем создания соответствующих интервалов или интервалов дискретизация может помочь распределить значения перекошенной переменной по набору интервалов с равным количеством наблюдений.
1.2 Подходы к дискретизации
Существует несколько подходов для преобразования непрерывных переменных в дискретные. Этот процесс также известен как , объединение , причем каждый интервал является каждым интервалом. Методы дискретизации делятся на 2 категории: под надзором и без надзора .
Неконтролируемые методы не используют никакую информацию, кроме распределения переменных , для создания смежных блоков, в которые будут помещены значения.
Контролируемые методы обычно используют целевую информацию для создания бинов или интервалов.
Мы будем говорить только о методе контролируемой дискретизации с использованием деревьев решений здесь, в этой статье.
Но прежде чем перейти к следующему шагу, давайте загрузим набор данных, для которого мы будем выполнять дискретизацию.
Дискретизация с деревьями решений состоит в использовании дерева решений для определения оптимальных точек разделения, которые бы определяли интервалы или смежные интервалы:
Шаг 1 : Сначала оно обучает дерево решений ограниченной глубины (2, 3 или 4) используя переменную, которую мы хотим дискретизировать, чтобы предсказать цель.
Шаг 2: Затем исходные значения переменных заменяются вероятностью, возвращаемой деревом. Вероятность одинакова для всех наблюдений в пределах одной ячейки, поэтому замена на вероятность эквивалентна группировке наблюдений в пределах отсечения, определяемого деревом решений.
Преимущества:
- Дерево возвращаемых решений вероятностных прогнозов монотонно связано с целью.
- Новые контейнеры показывают уменьшенную энтропию, то есть наблюдения внутри каждой корзины / корзины больше похожи на самих себя, чем наблюдения других корзин / корзин.
- Дерево находит бункеры автоматически.
Недостатки:
- Это может привести к переопределению
- Что более важно, может потребоваться некоторая настройка параметров дерева для получения оптимальных разбиений (например, глубина, минимальное количество выборок в одном разделе, максимальное количество разделов и минимальный прирост информации). Это может занять много времени.
Давайте посмотрим, как выполнить дискретизацию с деревьями решений с использованием набора данных Titanic.
- Импорт полезных библиотек
IN [1]:
импорт панд как pd
импорт numpy как np
импорт matplotlib.pyplot как plt
из sklearn.model_selection import train_test_split
2. Загрузить набор данных
IN [2]:
data = pd.read_csv ('titanic.csv', usecols = ['Age', 'Fare', 'Survived'])
data.head ()
3. Разделите данные на обучающие и тестовые наборы
IN [3]:
X_train, X_test, y_train, y_test = train_test_split (data [['Age', 'Fare', 'Survived']], data.Survived, test_size = 0.3)
Итак, предполагая, что у нас нет пропущенных значений в наборе данных (или даже если у нас отсутствуют пропущенные данные в наборе данных, мы их вменяем). Я покидаю эту часть, потому что моя главная цель — показать, как работает дискретизация.
Итак, теперь давайте визуализируем наши данные таким образом, чтобы мы могли получить из них некоторую информацию и понять переменные. Выжил
, чтобы опровергнуть переменную возраст
.
IN [4]:
tree_model = DecisionTreeClassifier (max_depth = 2) tree_model.fit (X_train.Age.to_frame (), X_train.Survived) X_train ['Age_tree'] = tree_model.predict_ra.ra.ra. ()) [:, 1] X_train.head (10)
Теперь у нас есть классификационная модель, использующая переменную age
для прогнозирования переменной Survived
.
Вновь созданная переменная Age_tree
содержит вероятность того, что точка данных принадлежит соответствующему классу
5.Проверка количества уникальных значений в Age_tree
переменная
IN [5]:
X_train.Age_tree.unique ()
Почему правы только четыре вероятности?
Выше на входе четыре мы упомянули max_depth = 2.
Дерево глубины 2 делает 2 разбиения, следовательно, генерируя 4 сегмента, поэтому мы видим 4 различных вероятности в выходных данных выше ,
6. Проверьте соотношение между дискретизированной переменной Возраст_дерево
и целевой показатель Выжил
.
IN [6]:
fig = plt.figure ()
fig = X_train.groupby (['Age_tree']) ['Survived']. Mean (). Plot ()
fig.set_title ('Monotonic взаимосвязь между дискретным возрастом и целью ')
fig.set_ylabel (' Survived ')
Здесь мы видим монотонную взаимосвязь между дискретизированной переменной и Age_tree
целевой переменной Survived
.Этот график предполагает, что Age_tree
выглядит хорошим предсказателем целевой переменной Выживший
.
7. Проверка количества пассажиров в вероятностном ведре / контейнере в соответствии с распределением дискретизированной переменной.
IN [7]:
X_train.groupby (['Age_tree']) ['Survived']. Count (). Plot.bar ()
Давайте проверим сегменты ограничения возраста, созданные деревом, путем захвата минимальный и максимальный возраст для каждого вероятного сегмента, чтобы получить представление о пороговых значениях.
8. Проверка сегментов ограничения по возрасту, генерируемых деревом
IN [7]:
pd.concat ([X_train.groupby (['Age_tree'])] ['Age']. Min (),
X_train.groupby (['Age_tree']) ['Age']. Max ()], axis = 1)
Таким образом, дерево решений сгенерировало сегменты: 0–11
, 12–15
, 16 –63
и
46–80
, с вероятностями выживания 0,51
, 0,81
, 0,37
и 0,10
соответственно.
9. Визуализация дерева.
IN [8]:Визуализация дерева
с открытым ("tree_model.txt", "w") как f:
f = export_graphviz (tree_model, out_file = f) из IPython.display импортировать изображение
из IPython.core.display import HTML
PATH = "tree_visualisation.png"
Изображение (имя файла = PATH, ширина = 1000, высота = 1000)
Как видно из графика, мы получаем 4 ячейки для max_depth = 2
.
Как я упоминал ранее, существует ряд параметров, которые мы могли бы оптимизировать для получения наилучшего разбиения бина с использованием деревьев решений.Ниже я оптимизирую глубину дерева для демонстрации. Но помните, что вы также можете оптимизировать оставшиеся параметры дерева решений. Посетите веб-сайт sklearn, чтобы увидеть, какие другие параметры можно оптимизировать.
10. Выбор оптимальной глубины дерева
Я построю деревья различной глубины и вычислю roc-auc , определенных для переменной, и цель для каждого дерева. Затем я выберу глубину который генерирует лучшие roc-auc
IN [9]:
score_ls = [] # здесь я буду хранить roc auc
score_std_ls = [] # здесь я буду хранить стандартное отклонение roc_aucfor tree_depth в [1, 2,3,4]:
tree_model = DecisionTreeClassifier (max_depth = tree_depth)баллов = cross_val_score (tree_model, X_train.Age.to_frame (),
y_train, cv = 3, оценка = 'roc_auc')score_ls.append (np.mean (баллы))
score_std_ls.append (np.std (баллы))
temp = pd .concat ([pd.Series ([1,2,3,4]), pd.Series (score_ls), pd.Series (score_std_ls)], axis = 1)
temp.columns = ['глубина', 'roc_auc_mean ',' roc_auc_std '] print (temp)
Здесь мы можем легко заметить, что мы получили лучший roc-auc , используя глубину 1 или 2. Я выберу глубину 2 , чтобы продолжить.
11. Преобразовать переменную Возраст
с помощью дерева
IN [10]:
tree_model = DecisionTreeClassifier (max_depth = 2) tree_model.fit (X_train.Age.to_fra ( ), X_train.Survived) X_train ['Age_tree'] = tree_model.predict_proba (X_train.Age.to_frame ()) [:, 1] X_test ['Age_tree'] = tree_model.predict_proba (X_test.Age.to_fra) :, 1]
12. Проверка преобразованной переменная
переменная в наборе поездов
IN [11]:
X_train.head ()
13. Проверка уникальных значений каждого бина в наборе поездов
IN [12]:
X_train.Age_tree.unique ()
14. Проверка преобразованных возраст
переменная в тестовом наборе
IN [13]:
X_test.head ()
15. Проверка уникальных значений каждого бина в наборе поездов
IN [ 14]:
X_test.Age_tree.unique ()
Теперь мы успешно разделили переменную Age
на четыре дискретных значения, которые могут помочь нашей модели сделать более точные прогнозы.
Мы также можем выполнить ту же процедуру, если мы хотим дискретизировать оставшиеся переменные, такие как Тариф
.
Discretize by Binning — RapidMiner Documentation
Обучающие процессы
Дискретизация числовых атрибутов набора данных ‘Golf’, установленных Binning
В центре внимания этого примера процесса находится процедура биннинга. Для понимания параметров, связанных с выбором атрибутов, изучите пример процесса оператора Select Attributes.
Набор данных ‘Golf’ загружается с помощью оператора Retrieve. К нему применяется оператор Discretize by Binning. Атрибуты «Температура» и «Влажность» выбраны для дискретизации.Параметр количества ячеек установлен в 2. Параметр определения границ установлен в true. Параметры min value и max value установлены на 70 и 80 соответственно. Таким образом, биннинг будет выполняться только в диапазоне от 70 до 80. Поскольку для параметра количества ячеек задано значение 2, диапазон будет разделен на два равных сегмента. Приблизительно говоря, первый сегмент диапазона будет от 70 до 75, а второй сегмент диапазона будет от 76 до 80. Это не точные значения, но они достаточно хороши для объяснения этого процесса.Для всех этих значений будет отдельный диапазон, который меньше, чем параметр минимального значения, то есть меньше 70. Этот диапазон автоматически называется «диапазон1». Первый и второй сегменты диапазона биннинга называются «range2» и «range3» соответственно. Для всех этих значений будет отдельный диапазон, который больше, чем параметр max value, то есть больше 80. Этот диапазон автоматически называется ‘range4’. Запустите процесс и сравните исходный набор данных с дискретизированным. Вы можете видеть, что значения, меньшие или равные 70 в исходном наборе данных, называются «range1» в дискретизированном наборе данных.Значения больше 70 и меньше или равные 75 в исходном наборе данных называются «range2» в наборе дискретизированных данных. Значения больше 75 и меньше или равные 80 в исходном наборе данных называются «range3» в наборе дискретизированных данных. Значения больше 80 в исходном наборе данных называются «range4» в наборе дискретизированных данных.
- Товары
- Клиенты
- Случаи использования
- Переполнение стека Публичные вопросы и ответы
- Команды Частные вопросы и ответы для вашей команды
- предприятие Частные вопросы и ответы для вашего предприятия
- работы Программирование и связанные с ним технические возможности карьерного роста
- Талант Нанимать технический талант
- реклама Связаться с разработчиками по всему миру
Загрузка…