Что такое findslide.org?

FindSlide.org - это сайт презентаций, докладов, шаблонов в формате PowerPoint.


Для правообладателей

Обратная связь

Email: Нажмите что бы посмотреть 

Яндекс.Метрика

Презентация на тему Голосовой интерфейс

Содержание

Интерфейс это… В области информационных технологий (ИТ) средства взаимодействия пользователя с технической системой принято называть интерфейсом.
Голосовой интерфейсСт. ИС-21 ИПСАРябченко Алена Александровна Интерфейс это…  В области информационных технологий (ИТ) средства взаимодействия пользователя с Одной из важнейших задач разработки современных технических систем является обеспечение наиболее По наличию тех или иных средств ввода, интерфейсы разделяются на Одной из естественных форм взаимодействия для человека является речь. Голосовой Разработка голосового интерфейса является достаточно сложной и комплексной, и требует от Преимущества голосового интерфейса: оперативность и естественность;минимум специальной подготовки пользователя;возможность управления объектом в Распознавание речи  Распознавание речи - технология, позволяющая использовать естественный для человека Системы распознавания речи   Системы распознавания речи - это системы, Рис.1 Классификация систем распознавания речи Структура стандартной системы распознавания речи Необработанная речь  Обычно, поток звуковых данных, записанный с высокой дискретизацией (20 Анализ сигналаПоступающий сигнал должен быть изначально трансформирован и сжат, для облегчения последующей Речевые кадры  Результатом анализа сигнала является последовательность речевых кадров. Обычно, каждый Акустические моделиДля анализа состава речевых кадров требуется набор акустических моделей. Рассмотрим две Акустический анализ  Состоит в сопоставлении различных акустических моделей к каждому кадру Корректировка времени  Используется для обработки временной вариативности, возникающей при произношении слов Последовательность слов  В результате работы, система распознавания речи выдает последовательность (или Программная реализация голосового интерфейса  Используем:  1 ) JDK 6 ( Sphinx-4Sphinx-4 – самый известное и наиболее работоспособное из открытых программных продуктов для Структура Sphinx-4Главными блоками являются: предварительный анализ,декодер,лингвистический модуль. Все три составляющие обезательные, но вместо языковой модели Голосовой калькуляторMin количество информации:Поле «А» – 1 символ;Поле «В» – 1 символ;Кнопка Оценка эффективностиОценку эффективности и продуктивности интерфейса человека с системой, который реализован в Пример расчет эффективности по методике GOMS  Используем мышку и клавиатуру, введенные Эффективность интерфейсов,  если нет ошибокМетодика GOMSЭкспериментальный метод 1Эффективность интерфейсов по методике GOMS,если есть 1-4 ошибки234 Эффективность интерфейсов (экспериментальный метод), если есть 1-4 ошибки1234 Вывод  Смешанный тип интерфейса наиболее эффективный для использования в программных приложениях. Спасибо за внимание! 
Слайды презентации

Слайд 2 Интерфейс это…
В области информационных технологий (ИТ)

Интерфейс это… В области информационных технологий (ИТ) средства взаимодействия пользователя с технической системой принято называть интерфейсом.

средства взаимодействия пользователя с технической системой принято называть интерфейсом.


Слайд 3 Одной из важнейших задач разработки современных технических

Одной из важнейших задач разработки современных технических систем является обеспечение

систем является обеспечение наиболее интуитивного и естественного интерфейса с

пользователем, то есть современные компьютерные приложения ориентированные на пользователя.

Слайд 4 По наличию тех или иных средств

По наличию тех или иных средств ввода, интерфейсы разделяются на

ввода, интерфейсы разделяются на типы:

голосовой,


2. жестовый ,



возможны


смешанные варианты.

Типы интерфейсов


Слайд 5 Одной из естественных форм взаимодействия для

Одной из естественных форм взаимодействия для человека является речь. Голосовой

человека является речь. Голосовой интерфейс может улучшить существующий пользовательский

интерфейс - он обеспечивает более удобный и менее ограниченный способ взаимодействия человека с компьютером.

Слайд 6 Разработка голосового интерфейса является достаточно сложной и

Разработка голосового интерфейса является достаточно сложной и комплексной, и требует

комплексной, и требует от разработчика знаний в различных предметных

областях, таких как компьютерные науки, лингвистика и психология поведения человека.


Слайд 7 Преимущества голосового интерфейса:
оперативность и естественность;
минимум специальной подготовки пользователя;
возможность

Преимущества голосового интерфейса: оперативность и естественность;минимум специальной подготовки пользователя;возможность управления объектом

управления объектом в темноте, за пределами его визуальной видимости

(в частности, с использованием существующей телефонной сети);
возможность использования одновременно ручного (с помощью клавиатуры) и голосового ввода информации;
обеспечение мобильности оператора при управлении.


Слайд 8 Распознавание речи
Распознавание речи - технология, позволяющая

Распознавание речи Распознавание речи - технология, позволяющая использовать естественный для человека

использовать естественный для человека речевой интерфейс для взаимодействия с

электронной техникой.
Сложность распознавание речи состоит в том, что совокупность таких характеристик голоса и речи как тембр, громкость, высота, темп, интонация, качество дикции делают речь каждого человека по-своему неповторимой и уникальной как отпечатки пальцев.

или


Слайд 9 Системы распознавания речи
Системы распознавания

Системы распознавания речи  Системы распознавания речи - это системы,

речи - это системы, анализирующие акустический сигнал алгоритмами, основанными

на разнообразных теориях, предполагающих, какие характеристики речевого сигнала создают ощущения звуков данного языка, и математических методах, с той или иной точностью выделяющих значащие параметры акустического сигнала и преобразующие его в различной полноте в необходимую форму.


Слайд 10 Рис.1 Классификация систем распознавания речи

Рис.1 Классификация систем распознавания речи

Слайд 11 Структура стандартной системы распознавания речи

Структура стандартной системы распознавания речи

Слайд 12 Необработанная речь
Обычно, поток звуковых данных, записанный

Необработанная речь Обычно, поток звуковых данных, записанный с высокой дискретизацией (20

с высокой дискретизацией (20 КГц при записи с микрофона

либо 8 КГц при записи с телефонной линии).

Слайд 13 Анализ сигнала
Поступающий сигнал должен быть изначально трансформирован и

Анализ сигналаПоступающий сигнал должен быть изначально трансформирован и сжат, для облегчения

сжат, для облегчения последующей обработки. Есть различные методы для

извлечения полезных параметров и сжатия исходных данных в десятки раз без потери полезной информации. Наиболее используемые методы:
анализ Фурье;
линейное предсказание
речи;
кепстральный анализ.


Слайд 14 Речевые кадры
Результатом анализа сигнала является последовательность

Речевые кадры Результатом анализа сигнала является последовательность речевых кадров. Обычно, каждый

речевых кадров. Обычно, каждый речевой кадр – это результат

анализа сигнала на небольшом отрезке времени (порядка 10 мс.), содержащий информацию об этом участке (порядка 20 коэффициентов).

Слайд 15 Акустические модели
Для анализа состава речевых кадров требуется набор

Акустические моделиДля анализа состава речевых кадров требуется набор акустических моделей. Рассмотрим

акустических моделей. Рассмотрим две наиболее распространенные из них.
Шаблонная модель.

В качестве акустической модели выступает каким-либо образом сохраненный пример распознаваемой структурной единицы (слова, команды).
Модель состояний. Каждое слово моделируется как последовательность состояний указывающих набор звуков, которые возможно услышать в данном участке слова, основываясь на вероятностных правилах.


Слайд 16 Акустический анализ
Состоит в сопоставлении различных акустических

Акустический анализ Состоит в сопоставлении различных акустических моделей к каждому кадру

моделей к каждому кадру речи и выдает матрицу сопоставления

последовательности кадров и множества акустических моделей.

Слайд 17 Корректировка времени
Используется для обработки временной вариативности,

Корректировка времени Используется для обработки временной вариативности, возникающей при произношении слов (например, “растягивание” или “съедание” звуков).

возникающей при произношении слов (например, “растягивание” или “съедание” звуков).


Слайд 18 Последовательность слов
В результате работы, система распознавания

Последовательность слов В результате работы, система распознавания речи выдает последовательность (или

речи выдает последовательность (или несколько возможных последовательностей) слов, которая,

наиболее вероятно, соответствует входному потоку речи.

Слайд 19 Программная реализация голосового интерфейса

Используем:

Программная реализация голосового интерфейса  Используем: 1 ) JDK 6 (

1 ) JDK 6 ( J2SE ) 2 ) Eclipse

SDK 3 ) Sphinx 4.0 4 ) JSAPI ( Included in
Sphinx 4.0 )

Слайд 20 Sphinx-4
Sphinx-4 – самый известное и наиболее работоспособное из

Sphinx-4Sphinx-4 – самый известное и наиболее работоспособное из открытых программных продуктов

открытых программных продуктов для распознавания речи на сегодняшний день.


Структура Sphinx-4 была разработана с высокой степенью гибкости и модульности. На рисунке показана общая архитектура системы. Каждый помеченный элемент на рисунке представляет собой модуль, который может быть легко заменен.


Слайд 21 Структура Sphinx-4
Главными блоками являются:
предварительный анализ,
декодер,
лингвистический модуль.

Структура Sphinx-4Главными блоками являются: предварительный анализ,декодер,лингвистический модуль.

Слайд 22 Все три составляющие обезательные,

Все три составляющие обезательные, но вместо языковой модели возможно

но вместо языковой модели возможно просто описать порядок слов

в jsgf словаре примерно так:

camera.jsgf

#JSGF V1.0;
grammar camera;
public = ( | );
= ( включить | выключить | отключить );
= ( камеру | видео-камеру );
= [ номер ]
= ( один | два | три | четыре | пять | шесть | семь | восемь | девять );
= ( первую | вторую | третью | четвертую | пятую | шестую | седьмую | восьмую | девятую );

Акустическая модель преобразует звук в фонемы
Словарь пребразует фонемы в слова
Языковая модель помогает построить предложения исходя из порядка слов


Слайд 23 Голосовой калькулятор
Min количество информации:
Поле «А» – 1 символ;
Поле

Голосовой калькуляторMin количество информации:Поле «А» – 1 символ;Поле «В» – 1

«В» – 1 символ;
Кнопка «+» или «-».
Вводить информацию можно

с помощью:
Мышки и клавиатуры;
Только клавиатуры, используя клавишу «Tab» для перехода между полями;
Голосовые команды.

Слайд 24 Оценка эффективности
Оценку эффективности и продуктивности интерфейса человека с

Оценка эффективностиОценку эффективности и продуктивности интерфейса человека с системой, который реализован

системой, который реализован в виде компьютерной программы можно сделать

с помощью оценки времени выполнения операций для достижения целей пользователя.
Математическая модель для оценки временных параметров интерфейсов позволяет прогнозировать время выполнения какой-либо задачи пользователем.
В методике GOMS (the model of goals, objects, methods, and selection rules) расчёт эффективности основывается на понятии ментальных операций и их последовательной расстановке.
Использованы следующие обозначения:
Н(перемещение)=0,4(с),
М (ментальная подготовка)=1,35(с),
К(нажатие клавиши )=0,28(с),
Р(указание)=1,1(с).

Слайд 25 Пример расчет эффективности по методике GOMS
Используем

Пример расчет эффективности по методике GOMS Используем мышку и клавиатуру, введенные

мышку и клавиатуру, введенные данные без ошибок, значения «А»

и «В» по 1 символу:
НКНРКНКНРК => НМКНМРКНМКНМРМК
4*0,4+5*1,35+4*0,28+2*1,1=11,67(с).
С увеличением количества символов, скорость интерфейса будет снижатся на количество дополнительных n кликов, то есть на n*0,28с.

Слайд 26 Эффективность интерфейсов, если нет ошибок
Методика GOMS
Экспериментальный метод

Эффективность интерфейсов, если нет ошибокМетодика GOMSЭкспериментальный метод

Слайд 27 1
Эффективность интерфейсов по методике GOMS,если есть 1-4 ошибки
2
3
4

1Эффективность интерфейсов по методике GOMS,если есть 1-4 ошибки234

Слайд 28 Эффективность интерфейсов (экспериментальный метод), если есть 1-4 ошибки
1
2
3
4

Эффективность интерфейсов (экспериментальный метод), если есть 1-4 ошибки1234

Слайд 29 Вывод
Смешанный тип интерфейса наиболее эффективный для

Вывод Смешанный тип интерфейса наиболее эффективный для использования в программных приложениях.

использования в программных приложениях.


  • Имя файла: golosovoy-interfeys.pptx
  • Количество просмотров: 103
  • Количество скачиваний: 1
- Предыдущая АНТРОПОЛОГИЯ