Как помочь людям с нарушениями слуха выражать свои мысли?

Обзор

В прошлом году в моём родном городе Екатеринбурге широко освещалась ситуация, когда органы опеки разлучили дочерей с многодетной матерью из-за того, что она с рождения страдала от нарушений слуха и не могла позаботиться о них без помощи сурдопереводчика. С этого события и началась история моей работы. Я выбрал эту тему, потому что считаю, что современная наука может помочь не только этой женщине, но и миллионам других людей со схожими проблемами! 

Можно ли помочь глухонемым людям выразить свои мысли, автоматически "переводя" жесты, которые они показывают? Что бы ответить на этот вопрос, я хочу создать автономное устройство, способное интерпретировать жесты руками в слова, которое имело бы достаточно высокую точность перевода, могло заменить сурдопереводчика.

Для получения данных о положении руки, в работе используется плоскостная электромиография: отслеживание биопотенциалов, характерных для активности мышц предплечья. Для классификации: специально обученная глубокая нейронная сеть Inception v3. Суть работы в создании программно-аппаратного комплекса для перевода жестов в слова на основе получения и анализа ЭМГ-сигнала. Устройство для получения и обработки электромиограммы построено на основе микроконтроллера PSoC 5LP, классифицирующая нейросеть обучена и развёрнута на облачном сервере.

Методы, разработанные в рамках проекта позволяют осуществлять точную (более 92% верных распознаний) интерпретацию жестового языка. Использование готового устройства не требует специальной подготовки от пользователя, поскольку применима для использования с любым жестовым словарём. Небольшие размеры площади для снятия ЭМГ (ширина, занимаемая электродами составляет 7см), позволяют использовать технологию автономно, в повседневных условиях.

В дальнейшем я планирую повышать качество перевода путём введения в разработку конструирования предложений из переведённых слов, максимально приближать качество перевода к достигамому человеком-переводчиком.

Постановка вопроса

Как помочь людям с нарушениями речи и слуха выражать свои мысли?

Согласно статистическому исследованию всемирной организации здравоохранения (WHO. Deafness and hearing loss) около 466 миллионов человек (более 5% населения Земли) страдают от нарушений слуха. Большинство глухих людей для общения использует язык жестов, однако даже в развитых странах немногие способны общаться с глухими людьми без помощи переводчика. Таким образом, эффективный метод автоматической интерпретации жестового общения мог бы существенно упростить коммуникацию со слабослышащими людьми.

Электромиография (ЭМГ) - медицинская техника, позволяющая обнаружить и измерить электромеханическую активность мышцы во время её сокращения или расширения.
Можно ли при помощи данных об ЭМГ мышц предплечья определить жест, который показывает рука?
 
Главная цель моего исследования: разработать эффективную методику определения положения рук в пространстве на основе данных об электромеханической активности мышц предплечья,  создать программно-аппаратный комплекс, который при помощи этой технологии сможет эффективно интерпретировать язык жестов.

В итоге я хочу получить устройство для судоперевода, которое имело бы достаточно высокое (не менее 90%) качество распознавания, не требующее специальных навыков работы с ним (основанное на интерпретации существующих жестовых языков), достаточно автономное для использования в режиме повседневной жизни, которое было бы способно заменить человека-переводчика, дать возможность высказаться каждому, кто нуждается в этом.

Исследования

В современной науке существуют технологии, частично или полностью основанные на исследуемых мной закономерностях электромеханической активности мышц. В частности, электромиография находит широкое применение при разработке интерфейсов взаимодействия пользователя с техникой. Мною рассматривались исследования по управлению протезами при помощи электромиографии.

Изучение некоторых работ в этой сфере (представлены в разделе "Библиография") подтвердило взаимосвязь между изменением активности биопотенциалов мышц и изменением положения конечностей, дало представление об общей структуре интерфейсов человеко-машинного взаимодействия, основанных на плоскостной электромиографии. Основываясь именно на этих данных, мною была разработана собственная структура аппаратной платформы для снятия и первичной обработки электромиограммы.
 







 

Методика и эксперимент

Для проведения эксперимента в домашних условиях был сконструирован прототип. Прототип построен на микроконтроллере типа PSoC (Programmable System-on-Chip), состоящем из ядра ARM Cortex-M3 и программируемой аналоговой части. Такое решение позволило минимизировать количество необходимых деталей и существенно упростить предполагаемую конструкцию, применив аналоговую часть для получения сигнала и микроконтроллерную для его цифровой обработки.

Так как в качестве метода фиксации мышечной активности была выбрана плоскостная электромиография (ЭМГ), для определения положения пальцев руки были установлены электроды по периметру предплечья, в том месте, где проходят все значимые для эксперимента мышцы.
Примерное соответствие расположения электродов проходящим мышцам предплечья представлено на рис.1:

               
Всего используется 8 точек съёма, на каждой из которых установлено по два плюс-электрода в месте сокращения/расширения мышцы и одному минус-электроду ближе к её окончанию.
Разность потенциалов вычисляется как разница между значением на плюс-электроде и минус-электроде. Так как важным показателем является участок, в котором достигнут пик сокращения/расширения мышцы, выходным значением для каждой точки съёма считается среднее арифметическое от потенциалов двух "+", находящихся с некоторой удалённостью друг от друга и имеющих общий "-". Для экономии ресурсов, электроды подключаются к схеме через мультиплексор, встроенный в МК (рис.2).

Электрическое напряжение, которое можно получить из изменения разности потенциалов мышцы, колеблется в районе 3-5 мВ. Для эффективного определения уровня активности мышцы сигнал необходимо усилить. Для усиления сигнала был использован внешний модуль усиления аналогового сигнала, построенный на измерительном усилителе INA333, коэффициент усиления (G) которого равен 1000. 

Далее для каждого конкретного электрода (соответственно и мышечного участка) производится аналого-цифровое преобразование (8 бит, типа дельта-сигма), выходные значения которого формируют уникальный "отпечаток" положения определённой части кисти в пространстве. 
Для каждого конкретного электрода частота дискретизации составляет 1000 Гц.

                                                    
После, оцифрованный сигнал необходимо профильтровать от помех при помощи частотного фильтра.
Методом анализа специализированной литературы (представлена в разделе "Библиография"), а так же опытным путём, было установлено, что большая часть полезного сигнала находится в частотном промежутке 20-150Гц. Фильтрация производится при помощи блока частотного фильтра PSoC (рис.3).

                                                           

Для получения данных о cобственном положении предплечья в пространстве используется инерционное измерительное устройство абсолютной ориентации (IMU) BNO055. 

Итоговый вид экспериментальной установки:

Для хранения полученных данных испольузется матричный метод.
Каждое положение руки в пространстве прдеставлено в виде матрицы А(NxM), где N - количество проведённых измерений за цикл (8 точек съёма, плюс сведения о положении руки в пространстве, следовательно N=11), M - количество циклов измерений за фиксированное время, отведённое на демонстрацию жеста (2с. с частотой дискретизации 1000 Гц, M=2000).

Готовая матрица нормируется в градации 0-255 (создаётся так называемая "электромиографическая карта" - изображение, где градация каждого пикселя обозначает определённое измерение), после чего передаётся на вычислительный сервер при помощи UART для классификации жеста.
                                                   
Классификация полученных данных производится при помощи специально обученной нейронной сети типа Inception v3 из библиотеки Google TensorFlow. Эта нейросеть была выбрана для эксперимента, так как она была специально создана для классификации изображений и показывает высокое качество распознавания. 

В качестве исходных данных для обучения используются по 12 заведомо верно классифицированных "карт", полученные с рук трёх разных участников эксперимента (по 4 от каждого: автор, женщина 22 года, мужчина 49 лет), для жестов из популярного жестового языка ASL (American Sign Language).  
В экспериментальной выборке использовались следующие жесты:

 

 

 

Результаты

На рис.1 представлены следующие графики выходных значений АЦП для группы мышц, определяющих положение указательного пальца (в одной точке съёма, сигнал усилен в 1000 раз, произведена частотная фильтрация):
1. В "спокойном" состоянии.
2. Палец слега присогнут.
3. Палец полностью согнут. (Так же как был бы согнут в полностью сжатом кулаке)
Ось Х обозначает время измерения, ось Y - проведённое измерение

    
рис.1

Из представленных графиков можно сделать вывод, что электромеханическая активность мышц при различных положениях пальцев различается достаточно, что бы по ней было возможно классифицировать эти положения.


На рис.2 представлен увеличенный в 160 раз фрагмент "карты ЭМГ", снятой с руки пользователя во время показывания жеста "yes" (рис. 3).                                                                                                                                                                                                                            рис.2

рис.3


Рассмотрим фрагмент подробнее:
Поскольку карта составлена из значений в градации 0-255, более светлые участки соответствуют большей активности мышцы.

На рис.4 можно видеть, что активность в точках съёма, обозначенных строками 1-3, была высокой на протяжении всего фрагмента.

рис.4 

Первые три строки на "карте" соответствуют трём точкам съёма, находящимся на ладонной стороне предплечья. В этих местах располагаются основные сгибатели пальцев, из чего следует, что высокая активность в районе всех мышц этого комплекса свидетельствует о том, что все пальцы согнуты (собраны в кулак), что, в случае данного жеста, действительно так (рис.3).

Также, как можно увидеть на следующей схеме (рис. 5), для жеста "yes" характерно как сгибание кистевого сустава вперёд, так и отгибание его назад. Первое действие требует задействования сгибателя запястного сустава (располагается с ладонной стороны, на "карте" измерения этой "располагаются" в 4 строке), второе - его разгибателя (располагается с дозаральной стороны, измерения представлены в 8 строке)



рис.5

Рассмотрим подробнее указанные строки:
На рис.6 видно, что в первой половине "карты" активность разгибателя (строка 8) близка к нулевой, но во второй - его активность увеличивается.  

рис.6

Рис.7 демонстрирует обратную ситуацию для сгибателя (строка 4): он активен в первой половине, но во второй - практически нет.

рис.7

Это свидетельствует о том, что сначала кисть была согнута вперёд, потом была "откинута" назад, что также соответствует реальности (рис.5).

Также, на "карте" видна почти равномерная активность в последних строках (рис.8), соответствующих измерениям абсолютного положения предплечья в пространстве. Исходя из этого можно судить о том, что предплечье не перемещалось во время показывания жеста, изменялось положение только кисти и пальцев, что является истиной (рис.5).


                                                                                   рис.8

Исходя из этого, можно считать надёжным метод "фиксирования" измерений в виде матриц.

Для определения качества распознавания жестов таким методом, был проведён эксперимент по нейросетевой классификации "карт", обозначающих определённые слова - жесты American Sign Language. В эксперименте участовало три человека, каждый участник сделал 10 попыток показать жест, конечный коэффициент качества распознавания высчитывается как соотношение верно классифицированных "карт" к общему числу попыток . Участники эксперимента имеют разный пол и возраст, что обеспечитвает его чистоту.

В следующей таблице приведены результаты этого эксперимента: 

  1 участник 2 участник 3 участник
Hello 9 10 9
Yes 10 8 10
No 9 8 9
Please 8 10 9
I love you 10 10 10

В столбцах таблицы обозначены участники эксперимента, в строках - наименования жестов, которые требуется получить в ходе работы. В ячейках указано количество верных распознаний (из 10).Таким образом, общее качество распознавания составляет 92,6%
 

 

Заключение

По итогам проделанной работы была разработана методика определения положений руки в пространстве на основе данных ЭМГ, доказавшая свою высокую точность (92,6% верно распознаваемых положений) в практических тестах. Программно-аппаратный комплекс, построенный на этой технологии позволяет определить абсолютное положение пальцев, кисти и предплечья в пространстве, благодаря чему идея применима для использования с любым жестовым словарём, основанном на жестах руками. Из этого следует, что использование устройства не требует специальной подготовки от пользователя.

Поскольку аппаратная оцифровка потенциала каждой группы электродов происходит с частотой 1000 значений в секунду (1000 Гц), при стабильном соединении с вычислительным сервером-классификатором, можно судить о достаточно высокой скорости выполнения перевода для повседневного использования технологиии, как следствие, её эффективности.

Окончательная физическая ширина площади, которую занимают электроды на руке, составляет 7 см, что позволяет судить о том, что готовое устройство, созданное на основе такого метода, не будет иметь крупных габаритов, благодаря чему будет удобно для повседневного использования.

Основным недостатком технологии на текущем этапе является постоянная необходимость доступа к мощной вычислительной машине для применения классификационной нейросети, однако современная скорость передачи данных по мобильному интернету, качество и количество развёрнутых мобильных сетей, позволяют обеспечить бесперебойный доступ к серверу с достаточной эффективностью перевода, тем самым частично скомпенсировав этот недостаток.

Свой эксперимент я считаю успешным, однако я не собираюсь прекращать работу над ним.
Может ли сейчас данная технология полностью заменить сурдопереводчика? На текущем этапе работы нет. Устройство позволяет точно классифицировать жест, который показывает пользователь, однако пока не способна конструировать предложения на основе переведённых слов. Именно в этой области я хочу продолжить работу над проектом, совершенствовать метод.

Сейчас моя мечта - довести технологию до состояния, когда она сможет полностью компенсировать нарушения речевого аппарата, потому что каждый из нас нуждается в том, что бы быть услышанным.

О себе

Меня зовут Казанцев Даниил. 
Я учусь в физико-математическом классе МАОУ Лицея №12 г. Екатеринбурга, Россия.

С раннего детства я мечтал стать изобретателем. Технические науки всегда увлекали меня, моими кумирами с самого детства были Никола Тесла и Ричард Фейнман. В процессе изучения курсов физики и информатики, я увлёкся электроникой и с тех пор постоянно совершенствую свои навыки разработки технических решений, программирования, схемотехники, иду к своей детской мечте. Сейчас я готов применять свои идеи для улучшения мира вокруг себя.

Я неоднократно представлял свои идеи на научно-практических конференциях различного уровня (от регионального до международного), и каждый раз участие для меня - невероятный опыт. Я решил принять участие в Google Science Fair, так как для меня это серьёзная возможность рассказать о своих идеях на весь мир, дать узнать о них потенциальным пользователям, ускорить их внедрение в жизнь каждого, кто нуждается в этом.

После школы я хотел бы поступить в университет международного уровня, что бы иметь возможность продолжать свои исследования, сотрудничая с другими молодыми инженерами и учёными со всего мира, в чём мне, возможно, также поможет участие в этом конкурсе!

 

 

Здоровье и безопасность

Работа над проектом производилась в домашних условиях.
Для обеспечения безопасности работы:
- При пайке схем соблюдался температурный режим паяльника, рекомендованный для работы с использованными припоем и канифолью, помещение регулярно проветривалось.
- Во избежание поражения током, было минимизировано прямое использование сети питания 220В, для питания прототипа использовался регулируемый блок питания с системой предохранения от короткого замыкания.
- Все соединения после пайки были изолированы друг от друга.

Библиография, ссылки и источники

Библиография:
1. Д.Сафин, И.Пильщиков, М.Ураксеев. Современные системы управления протезами. Конструкции электродов и усилителей биосигналов. 2009.
2. К.А. Зименко, А.С. Боргуль, А.А. Маргун. Анализ и обработка сигналов электромиограммы. 2013.
3. Jeffrey R. Cram, Eleanor Criswell. Cram's introduction to surface electromyography. 1998.
4. School of Electrical Engineering Department of Control and Automation VIT University. Myoelectric control of prosthetic hands: state-of-the-art review. 2016.
5. Navdeep Prashar, Jyotsna Dogra, Meenakshi Sood, Shruti Jain. Removal of electromyography noise from ECG for high performance biomedical systems. 2017.
6. Mohammed M. Shobaki , Noreha Abdul Malik, Sheroz Khan, Anis Nurashikin, Samnan Haider, Sofiane Larbani, Atika Arshad and Rumana Tasnim. High Quality Acquisition of Surface Electromyography – Conditioning Circuit Design. 2013.
7. Ле Мань Ха. Свёрточная нейронная сеть для решения задачи классификации. 2016.
8. Ramesh Sankara Subbu. Brief Study of Classification Algorithms in Machine Learning. 2017
9. Википедия - свободная энциклопедия
10. ResearchGate
11. Хабрахабр - сообщество программистов
12. ПАЯЛЬНИК
13. Stack Overflow

Оборудование:
1. Ноутбук
2. USB-Осциллограф Instrustar ISDS205X
3. Паяльная станция с регулируемым температурным режимом

Спасибо Носкову Владиславу Юрьевичу (Google Scholar, v.j.noskov@urfu.ru), за неоценимые советы по разработке общей структуры программно-аппаратного комплекса, советы по отладке отдельных частей системы к тому виду, в котором она функционирует сейчас.

Также, отдельная благодарность Маньковой Ирине Валентиновне (i.manckowa@yandex.ru), за рецензирование и корректуру итогового текста работы.