Обработкаестественногоязыка - этоТо,КакМашиныпонимаштеловеческийязык。Какветвьискусственногоинтеллектаобластьобработкиестественногоязыка(自然语言处理,NLP)играетважнуюрольвоблегчениивзаимодействиямеждулюдьмиикомпьютерами。Мыпроведэмобзорnlpиобъясним,КакМашиныимитируштпроцессссссссссссссссзыковогообучения。
Какработаетобработкаестественногозыка
ОбработкаестественногозыкаилидлякраткостиnlpприсутствуетвповседневныхвсеимодействияхсовсемивидамиМашин。КогдатывводишьВопросвпоисковуюСистему,NLPАнализирутвоенамерение,чтобызатемпредоставитьрелевантныерезультаты。Виртуальныепомощники,ТакиеКакумныеколонкииличат-Боты,Полагатсянаобработкуестественногозыкадлявзаимодействияслюдьми。ДругиепримененияNLP - этоавтоматическигенерируемыепереводыиподписи,сортировкасообщений,проверкаорфографиииграмматики,распознаваниерукописногоилинапечатанноготекстаипреобразованиетекставречь。
Какобработкаестественногозыкасвязанасискусственныминтеллектом?
Искусственныйинтеллект - этоширокийтермин,Обозначашийимитациююеловеческогоинтеллекта。Системыискусственногоинтеллектамогутобладатьспособностямикобучению,которыесоответствуютпроцессу,происходящемувчеловеческоммозге:обучениенасобственномпримере,методпробиошибокирешениепроблем。Машинноеобучение - этоподвидии,КоторыйзанимаетсяприкладнымиАлгоритмами,Обучашимикомпьютеры,частонаосновебольшихданных。Машинноеобучение - этопроцесс:компьютеручитсяиулучшаетвыполнениезадачи,хотянебылявнозапрограммированнавыполнениеэтойзадачиопределеннымобразом。
ОбработкаестественногозыкаиспользуетМашинноеобучение,чтобынаучитькомпьштерыпониматьипереводитьчеловеческийязык。Чембольшеониузнают,темлучшеонимогутпониматьтекствустнойилиписьменнойформе,классифицироватьилипереупорядочиватьего,переводитьивзаимодействоватьсним。
Необходимолиуверенноевладениеязыкомдляработызаграницей?
КакМашиныизучаштзыкподобноуловеку
Таккакжеработаетобработкаестественногозыка?Машинноеобучениемалочемотличаетсяоттого,кактыизучаешьязык,затемисключением,чтокомпьютерымогутобрабатыватьипросматриватьгораздобольшепримеровиданныхзаболеекороткоевремя。
Современноемашинноеобучениеиспользуетнейронныесети,смоделированныепообразцучеловеческогомозга,которыезадействуютискусственныенейроныдляпередачисигналов。Прошеговоря,Нейроннаясетьсамообучается,чтобыповыситьточностьрезультатовзасчетминимизацииошибок。СамПроцессобучениясостоитизрассмотренияБольшогоКоличествапримеров。
Отдельныезадачи,которыенейронныесетимашинногообучениявыполняют,чтобысовершенствоватьсявобработкеестественногоязыка,оченьпохожинато,чтомыделаемприизученииновогоязыка。Другимисловами,КомпьютерследуетТемже«Трэкам»,чтоилюди,чтобылучшепониматьязык,хотяивдругомМасштабе。
СинтаксическийАнализвNLP
Синтаксис - этолингвистическийтермин,Обозначашийправилаипринципы,Касашиесяструктурыпредложенийипорядкасловвязыке。ПриобработкеЕстественногозыкапредложенияАнализуштсядляопределенияструктурыиотношенийслов。СледушиезадачиевляштсячастьюСинтаксическогоанализа:
Сегментация.:Разделениетекстанаотдельныефрагментыилитокены,поштомутакженазываетсятокенизацией。Упрошаетобработкутекста。этомогутбытьсловаилипредложения。Сегментациянаанглийскомидругихязыкахсразделениемсловпробелами - этопростаязадача,ностоитвзглянутьнаписьменныйкитайскийилияпонскийязыкитыпоймешь,чтодлясегментациипонадобятсядополнительныезнания。
Лемматизацияистемминг.:ОбапроцессаприводятсловакБазовойФорме,ЛеммеилиОснове,СПомошьюСловаряИлинабораПравил。Мыделаемтожесамое,когдапытаемсяраспознатьизвестныенамсловабезфлективныхокончанийилиопределитьосновуилиинфинитивглаголавпредложении。
Тегирование.:ВПредложенииидентификациячастейРечиназываетсятегированием。Когдамыизучаемновыйязык,ТообозначаемчастиречикакСушествительное,Глагол,Наречие,Прилагательноедополнениеит。д。штоможетбытьполезнымдлялучшегопониманияструктурыпредложенияиразбиванияначастисложныхструктур。
удалениеслов.:Такназываемыестоп-словавстречаштсячастоинедобавляютСемантическойценности,Например«Нравится»,«Ваше»Или«。Людитакжесклонныигнорироватьстоп-словавовремяобученияивместотогососредотачиватьсянаосновесложныхпредложений。
Весенниеидиомыванглийском,Испанском,Немецкомифранцузском
Семантическийанализв
влингвистикесемантическийанализсвязываетсинтаксическиеструктурысихзначением。ОнначинаетсясотношенияМеждуотдельнымисловами,Нотакжевключаетобщиесловосочетания,Идиоматичь,ФигурыРечиизначениявКонтексте。
КакМожнодогадаться,Семантическийанализ - эточастьобработкиестественногозыка,КоторуюСложнееосвоитьдляискусственногоинтеллекта。Основныеметодыопределениясмысла:
Лексическийанализ.:этоизучениезначенияОтдельныхсловвКонтексте。
УстранениенеоднозначностивСмыслеслова:БольшинствоСлов,Используемыхвязыке,Имештнесколькозначений。Путемустранениянеоднозначностимывыбираемто,КотороеимеетнаибольшийсмыслвданномКонтексте。чемлучшелюдизнаштилипонимаштязык,Теминтуитивнеетотпроцессс。
отношения.:Посредствомизвлеченияnlpпытаетсяпонятьзначениетекста,отслеживаяотношениямеждусушностями,Местами,людьмиитт。д。Иногдаэтотпроцессможетпоказатьсятесносвязаннымстегированием:вопрос«ктонакомженился»можетбытьрешенпутемправильнойидентификацииподлежащегоидополнениявпредложении,ноотношениямогутиметьиболеесложныеконнотации。
ДругиевариантыИспользованияNLP
Помимовышеупомянутыхинтеллектуальныхпомощников,инструментовперевода,распознаванияречииграмматики,уNLPестьещемноговариантовиспользования,такихкак:
Анализэмоций.:NLPМожетКласифицироватьшмоциивтекстекакположительные,Отрицательныеилинейтральные。FacebookДелаетэтоспользовательскимКонтентом,Нобрендытакжеиспользуштэтотметод,чтобыпонять,чтобыпонять,чтоклиентыдумаштобихпродуктах。
ИзвлечениеТекста.:NLPМожетнаходитьсоответствушиеТерминывтекстелюбогоразмераиизвлекатьилиобрабатыватьих。
КлассификацияТем.:текстможноразделитьнаотдельныечастипоразнымтемам。
Обработкадокументов:этопозволяетпользователям,незнакомымспрограммированиемилиобучениемискусственногоинтеллекта,сообщатькомпьютеру,чтоделатьсостопкойцифровыхиливиртуальныхдокументов,например,обрабатыватьформыилирассчитыватьзатраты,возвратыит。д。
ГенерацияТекста.:хотяискусство,созданноеспомощьюискусственногоинтеллекта,всеещесомнительногокачества,обработкаестественногоязыкаможетгенерироватьразборчивыйизначимыйтекст,например,сводкуспортивныхрезультатов。Придостаточнобольшомразмеревыборкиnlpможетимитироватьстильконкретногоавтораисоответственнопереписыватьтекст。
Естьлиулюдейпо-прежнемупреимушествоПередКомпьютерами,Когдаделодоходитдоизученияиобработкиязыка?Мырасскажем,Почемуизучениеязыканеобходимодлявыживаниявэпохуискусственногоинтеллекта!