Код документа: RU2639684C2
Область техники, к которой относится изобретение
Данная технология относится к способам обработки текстов, реализуемым на компьютере.
Уровень техники
Технологии преобразования текстовой информации в речевую принимают текстовые фразы в качестве входных данных и генерируют речевые фразы - аудиоданные, кодирующие звуковую речь и соответствующие текстовым фразам - которые могут затем быть «прочитаны вслух» посредством аудиоинтерфейса электронного устройства.
Обычно, текстовые фразы, которые должны быть прочитаны вслух этим способом, преобразовываются в речевые фразы пословно, так, чтобы каждое текстовое слово в текстовой фразе было преобразовано в речевое слово, а речевые слова располагались в таком же порядке, в каком располагаются соответствующие им текстовые слова в текстовой фразе. Таким образом, состав речевой фразы и состав текстовой фразы совпадают слово в слово. Например, текстовая фраза "There are 2000 jelly beans in the jar" (русск. «В банке - 2000 драже») может быть преобразована в речевую фразу, которая была бы произнесена "There are two thousand jelly beans in the jar" (русск. «В банке две тысячи драже»).
Однако в некоторых случаях контекст текстовой фразы является таковым, что речевая фраза, сгенерированная по пословному принципу, может звучать неестественно при произнесении вслух. Приведем простой пример: текстовая фраза "The Tate Modern opened in 2000" (русск. «Тейт Модерн открыт в 2000») может быть преобразована в речевую фразу, которая была бы произнесена как "The Tate Modern opened in two thousand" (русск. «Тейт Модерн открыт в две тысячи»), тогда как говорящий на английском языке сказал бы более естественно "The Tate Modern opened in the year two thousand" (русск. «Тейт Модерн открыт в двухтысячном году»). Следовательно, в некоторых случаях существующее пословное преобразование текстовых фраз приводит к неестественно звучащим речевым фразам, и может являться желательным модифицировать текстовые фразы, чтобы улучшить последующее преобразование текстовой информации в речевую в некоторых контекстах.
Таким образом, существует потребность в более совершенных способах обработки текстов.
Раскрытие изобретения
В данной технологии предложены реализуемые на компьютере способы генерации одного или нескольких правил трансформации фразы, которые могут затем быть применены к текстовой фразе для генерации трансформированной текстовой фразы. Правила трансформации фразы могут быть сгенерированы путем анализа признаков слов во фразе-источнике и признаков слов в целевой фразе для определения преобразования слов во фразе-источнике в слова в целевой фразе.
Возможно применение таких способов для генерации правил трансформации фразы, которые предварительно обрабатывают текстовые фразы в трансформированные текстовые фразы, которые могут затем быть преобразованы в речевые фразы при использовании существующих технологий преобразования текстовой информации в речевую. К примеру, одно или несколько правил трансформации фразы могут быть применены к текстовой фразе "The Tate Modern opened in 2000" {русск. «Тейт Модерн открыт в 2000») для трансформации ее в "The Tate Modern opened in the year two thousand" (русск. «Тейт Модерн открыт в двухтысячном году»). Преобразование трансформированной фразы может создать естественно звучащую речевую фразу.
Другим возможным применением таких способов является генерация правил трансформации фразы для уменьшения длины фраз при сохранении их основного смысла. Например, такие правила могут применяться к фразе "The proud eagle sailed high in the sky" (русск. «Гордый орел парил высоко в небе») для сокращения ее до "The bird flew in the sky" (русск. «Птица летела в небе»). При повторении этого процесса к фразам документа может быть создан автореферат документа.
Специалистам вполне понятно, что описанные выше возможные варианты применения - это лишь два примера среди многих других.
Таким образом, в одном из вариантов осуществления данной технологии предложен способ обработки текстов, выполняемый на компьютерном устройстве, который включает следующие этапы: понимание смысла фразы-источника, состоящей из слов источника; понимание смысла целевой фразы, состоящей из целевых слов; установление соответствия множества признаков слов источника для каждого слова источника; установление соответствия множества признаков целевых слов для каждого целевого слова; анализирование множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова; и на основании преобразования, генерация одного или нескольких правил трансформации фразы, применимых к фразе-источнику, для трансформации ее в целевую фразу.
Возможен вариант осуществления способа, в котором на этапе анализирования множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова определяют сходства между каждым множеством признаков слов источника и каждым множеством признаков целевых слов.
Возможен вариант осуществления способа, в котором: каждое из множеств признаков слов источника включает один или несколько грамматических признаков слова источника, к которому относится это множество признаков; каждое из множеств признаков целевых слов включает один или несколько грамматических признаков целевого слова, к которому относится это множество признаков; и при определении сходства каждого из множеств признаков слов источника с каждым из множеств признаков целевых слов выполняют сравнение соответствующих грамматических признаков каждого из слов источника с соответствующими грамматическими признаками каждого из целевых слов.
Возможен вариант осуществления способа, в котором: каждое из множеств признаков слов источника включает значение слова источника, к которому относится это множество признаков; каждое из множеств признаков целевых слов включает значение целевого слова, к которому относится это множество признаков; и при определении сходства каждого из множеств признаков слов источника с каждым из множеств признаков целевых слов выполняют определение сходства соответствующего значения каждого из слов источника с соответствующим значением каждого из целевых слов.
Возможен вариант осуществления способа, в котором: на этапе анализирования множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова дополнительно выполняют этап подбора одному из множеств признаков слова источника наиболее подобного множества признаков из множеств признаков целевого слова; и на этапе генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу, выполняют генерацию первого правила трансформации фразы, применимого к фразе-источнику, которое трансформирует слово источника, соотнесенное с одним из множеств признаков слова источника, в целевое слово, соотнесенное с наиболее подобным множеством признаков целевого слова.
Возможен вариант осуществления способа, в котором: слово источника, соотнесенное с одним из множеств признаков слова источника, и целевое слово, соотнесенное с наиболее подобным множеством признаков целевого слова, имеют одинаковый корень; и первое правило трансформации фразы применяют к фразе-источнику для видоизменения формы слова источника в форму целевого слова.
Возможен вариант осуществления способа, в котором на этапе генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу, выполняют генерацию второго правила трансформации фразы, применяемого к фразе-источнику, которое удаляет по меньшей мере одно слово из фразы-источника.
Возможен вариант осуществления способа, в котором на этапе генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу, выполняют генерацию третьего правила трансформации фразы, применяемого к фразе-источнику для добавления в нее по меньшей мере одного слова.
Возможен вариант осуществления способа, в котором дополнительно выполняют следующие этапы: понимание смысла текстовой фразы; и применение одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
Возможен вариант осуществления способа, в котором текстовая фраза отличается от фразы-источника, а до применения одного или нескольких правил трансформации фразы к текстовой фразе дополнительно выполняют этап определения того, что сходство между текстовой фразой и фразой-источником превышает пороговое значение.
Возможен вариант осуществления способа, в котором на этапе определения того, что сходство текстовой фразы с фразой-источником превышает пороговое значение, выполняют по меньшей мере грамматический, или по меньшей мере семантический анализ текстовой фразы и фразы-источника.
Некоторые варианты осуществления данной технологии просто применяют одно или несколько правил трансформации фразы, которые были ранее сгенерированы (напр. другим компьютерным устройством). Таким образом, в другом варианте осуществления данной технологии предложен способ обработки текстов, выполняемый на компьютерном устройстве, содержащем память, на которой хранятся одно или несколько правил трансформации фразы, которые были сгенерированы на основании анализа множеств признаков, в том числе множества признаков слова источника, сопоставленного с словом источника фразы-источника, и множества признаков целевого слова, сопоставленного с целевым словом целевой фразы, который включает следующие этапы:
понимание смысла текстовой фразы;
определение того, что сходство текстовой фразы с фразой-источником превышает пороговое значение; и
применение одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
Возможен вариант осуществления способа, в котором на этапе определения того, что сходство текстовой фразы с фразой-источником превышает пороговое значение, выполняют по меньшей мере грамматический, или по меньшей мере семантический анализ текстовой фразы и фразы-источника.
В другом варианте осуществления данной технологии предложен постоянный машиночитаемый носитель, на котором хранятся программные команды, при выполнении которых одним или несколькими процессорами одного или нескольких электронных устройств осуществляется один или несколько вышеописанных способов. Таким образом, в различных вариантах осуществления настоящей технологии предложен постоянный машиночитаемый носитель, хранящий программные команды для обработки текстов, обеспечивающие, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством:
понимания смысла фразы-источника, состоящей из слов источника;
понимания смысла целевой фразы, состоящей из целевых слов;
установления соответствия множества признаков слов источника для каждого слова источника;
установления соответствия множества признаков целевых слов для каждого целевого слова;
анализа множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова; и
генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику, для трансформации ее в целевую фразу, на основании преобразования.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: определения сходства между каждым множеством признаков слов источника и каждым множеством признаков целевых слов при анализе множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: определения сходства каждого из множеств признаков слов источника с каждым из множеств признаков целевых слов включает сравнение соответствующих грамматических признаков каждого из слов источника с соответствующими грамматическими признаками каждого из целевых слов.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: определения сходства соответствующего значения каждого из слов источника с соответствующим значением каждого из целевых слов при определении сходства каждого из множеств признаков слов источника с каждым из множеств признаков целевых слов.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: подбора одному из множеств признаков слова источника наиболее подобного множества признаков из множеств признаков целевого слова при анализе множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова; и генерации первого правила трансформации фразы, применимого к фразе-источнику, которое трансформирует слово источника, соотнесенное с одним из множеств признаков слова источника, в целевое слово, соотнесенное с наиболее подобным множеством признаков целевого слова при генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику, для трансформации ее в целевую фразу.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: применения первого правила трансформации фразы к фразе-источнику для видоизменения формы слова источника в форму целевого слова.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: генерации второго правила трансформации фразы, применяемого к фразе-источнику, которое удаляет по меньшей мере одно слово из фразы-источника при генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: генерации третьего правила трансформации фразы, применяемого к фразе-источнику для добавления в нее по меньшей мере одного слова при генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: понимания смысла текстовой фразы; и применения одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: определения того, что сходство между текстовой фразой и фразой-источником превышает пороговое значение до применения одного или нескольких правил трансформации фразы к текстовой фразе.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: по меньшей мере грамматического, или по меньшей мере семантического анализа текстовой фразы и фразы-источника при определении того, что сходство текстовой фразы с фразой-источником превышает пороговое значение.
В другом варианте осуществления данной технологии предложен постоянный машиночитаемый носитель, на котором хранятся одно или несколько правил трансформации фразы - сгенерированные на основе анализа множества признаков, в том числе множества признаков слова источника, сопоставленного со словом источника фразы-источника, и множества признаков целевого слова, сопоставленного с целевым словом целевой фразы, - и программные команды, обеспечивающие, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: понимания смысла текстовой фразы; определения того, что сходство между текстовой фразой и фразой-источником превышает пороговое значение; и применения одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: по меньшей мере грамматического, или по меньшей мере семантического анализа текстовой фразы и фразы-источника при определении того, что сходство текстовой фразы с фразой-источником превышает пороговое значение.
В контексте настоящего описания, если не указано иное, термин «компьютерное устройство» включает любое аппаратное и/или программное обеспечение, подходящее для решения соответствующей задачи. Таким образом, некоторыми примерами компьютерных устройств, не имеющими ограничительного характера, могут служить компьютерные процессоры, компьютерные системы (один или несколько серверов, настольные компьютеры, ноутбуки, нетбуки и т.п.), смартфоны, планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы.
В контексте настоящего описания, если не указано иное, следует понимать, что первое устройство «находится в связи» со вторым устройством, если каждое из устройств способно отправлять информацию другому устройству и получать информацию от него через любую физическую среду или комбинацию физических сред, на любое расстояние и с любой скоростью. В качестве примера, не имеющего ограничительного характера, два цифровых электронных устройства могут быть связаны по компьютерной сети, например, по сети Интернет. В качестве другого примера, не имеющего ограничительного характера, устройства могут работать на одном и том же цифровом электронном аппаратном обеспечении, в этом случае связь может осуществляться с помощью любых средств, доступных на подобном цифровом электронном аппаратном обеспечении, например, с помощью межпроцессного взаимодействия.
В контексте настоящего описания, если не указано иное, термин «машиночитаемый носитель» включает носители абсолютно любого типа и характера, например, помимо прочего, ОЗУ, ПЗУ, диски (компакт диски, DVD-диски, гибкие магнитные диски, жесткие диски и т.д.), USB флеш-накопители, карты памяти, твердотельные накопители и накопители на магнитной ленте.
В контексте настоящего описания, если не указано иное, «указание» информационного элемента может представлять собой сам информационный элемент или указатель, отсылку, ссылку или другой косвенный способ, позволяющий получателю указания определить местоположение сети, памяти, базы данных или местоположение другого машиночитаемого носителя, из которого может быть извлечен информационный элемент. Например, указание файла может включать в себя сам файл (т.е. его содержимое), или же оно может являться уникальным дескриптором файла, относящим файл к определенной файловой системе, или какими-либо другими средствами, которые направляют получателя указания к сетевой папке, адресу памяти, таблице в базе данных или в другое местоположение, в котором можно получить доступ к файлу. Специалистам в данной области техники вполне понятно, что степень точности, необходимая для такого указания, зависит от степени первоначального понимания того, как должна быть интерпретирована информация, которой обмениваются отправитель и получатель указания. Например, если до установления связи между отправителем и получателем понятно, что указание информационного элемента будет иметь вид ключа базы данных для элемента в определенной таблице заданной базы данных, содержащей информационный элемент, то отправка ключа базы данных - это все, что необходимо для эффективной передачи информационного элемента получателю, несмотря на то, что сам информационный элемент не передавался между отправителем и получателем указания.
В контексте настоящего описания, если не указано иное, слова «первый», «второй», «третий» и т.д. используются в качестве прилагательных исключительно для того, чтобы различать существительные, которые они определяют, а не с целью описания какой-либо конкретной связи между этими существительными. Так, например, следует иметь в виду, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо определенного порядка, типа события, хронологии, иерархии или ранжирования (например) серверов/между серверами, равно как и их использование (само по себе) не подразумевает, что некий «второй сервер» должен обязательно существовать в той или иной ситуации. Более того, как указано в этом документе в других контекстах, ссылка на «первый» элемент и «второй» элемент не исключает возможности того, что эти два элемента являются одним и тем же объектом реального мира. Так, например, в некоторых случаях, «первый» сервер и «второй» сервер могут являться одним и тем же программным и/или аппаратным обеспечением, а в других случаях они могут являться различным программным и/или аппаратным обеспечением.
Каждый вариант осуществления данной технологии включает по меньшей мере одну из вышеупомянутых целей. Следует иметь в виду, что некоторые варианты осуществления данной технологии, полученные в результате попыток достичь вышеупомянутой цели, могут удовлетворять и другим целям, отдельно не указанным здесь.
Дополнительные и/или альтернативные признаки, особенности и преимущества вариантов осуществления данной технологии станут очевидными из последующего описания, прилагаемых чертежей и прилагаемой формулы изобретения.
Краткое описание чертежей
Для лучшего понимания настоящей технологии, а также других ее особенностей и дополнительных признаков, дана ссылка на следующее описание, которое должно использоваться вместе с прилагаемыми чертежами, на которых:
на Фиг. 1 показана схема компьютерной системы, пригодной для осуществления данной технологии и/или использования в связи с вариантами осуществления данной технологии.
на Фиг. 2 показана структурная схема примера осуществления данной технологии.
на Фиг. 3 и 4 показаны схемы, иллюстрирующие фразу фразу-источник и целевую фразу, используемые с примером осуществления данной технологии.
на Фиг. 5, 6, 7, 8 показаны схемы, иллюстрирующие различные слова и множества признаков этих слов согласно примеру осуществления данной технологии.
на Фиг. 9 показана схема, иллюстрирующая преобразование фразу-источник и целевую фразу согласно примеру осуществления данной технологии.
на Фиг. 10 показана блок-схема, иллюстрирующая этапы способа, который является вариантом осуществления данной технологии.
Осуществление изобретения
Примеры и используемые здесь условные конструкции предназначены, главным образом, для того, чтобы облегчить понимание принципов данной технологии, а не для установления границ ее объема. Ясно, что специалисты могут разработать различные устройства, отдельно не описанные и не показанные здесь, но которые, тем не менее, воплощают собой принципы данной технологии и находятся в пределах ее объема.
Кроме того, для помощи в понимании, следующее описание может описывать относительно упрощенные варианты осуществления данной технологии. Как будет понятно специалистам, различные варианты осуществления данной технологии могут обладать большей сложностью.
В некоторых случаях могут быть также изложены примеры изменений данной технологии. Это делается лишь для того, чтобы облегчить понимание, а не для определения объема или границ настоящей технологии. Эти изменения не являются исчерпывающим списком, и специалисты могут вносить другие изменения, остающиеся в границах объема настоящей технологии. Кроме того, те случаи, где не были описаны примеры изменений элемента, не следует интерпретировать так, что изменения не возможны, или то, что описано, является единственным вариантом осуществления этого элемента настоящей технологии.
Более того, подразумевается, что все заявленные здесь варианты осуществления технологии, равно как и конкретные их примеры, охватывают ее структурные и функциональные эквиваленты, вне зависимости от того, известны ли они на данный момент или будут разработаны в будущем. Таким образом, специалистам вполне понятно, что представленные здесь блок-схемы представляют собой концептуальные иллюстративные схемы, воплощающие принципы данной технологии. Аналогично, любые блок-схемы, структурные схемы, диаграммы состояний, псевдокоды и т.п. представляют собой различные процессы, которые могут быть представлены на машиночитаемом носителе и, таким образом, выполняться компьютером или процессором, вне зависимости от того, показан ли явно подобный компьютер или процессор, или нет.
Функции различных элементов, показанных на фигурах, в том числе любого функционального блока, обозначенного как «процессор», могут быть обеспечены с помощью специализированного аппаратного обеспечения, а также аппаратного обеспечения, способного выполнять подходящее программное обеспечение. Когда речь идет о процессоре, функции могут обеспечиваться одним выделенным процессором, одним общим процессором или множеством индивидуальных процессоров, некоторые из которых могут быть общими. Более того, использование терминов «процессор» или «контроллер» не подразумевает исключительно аппаратное обеспечение, способное выполнять программное обеспечение, и может включать, помимо прочего, оборудование с цифровым сигнальным процессором (ЦСП), сетевой процессор, интегральную схему специального назначения {англ. ASIC), программируемую пользователем вентильную матрицу (ППВМ), постоянное запоминающее устройство (ПЗУ) для хранения программного обеспечения, оперативное запоминающее устройство (ОЗУ) и энергонезависимое запоминающее устройство. Также может быть включено другое аппаратное обеспечение, стандартное и/или заказное.
Программные модули, или просто, модули, представляющие собой программное обеспечение, могут быть представлены здесь в качестве любой комбинации элементов блок-схемы или других элементов, указывающих на выполнение этапов процесса и/или на текстовое описание. Подобные модули могут выполняться аппаратным обеспечением, показанным в явно выраженной или в неявной форме.
Принимая во внимание эти основные принципы, далее будут рассмотрены некоторые примеры, не имеющие ограничительного характера, которые иллюстрируют различные варианты осуществления данной технологии.
На Фиг. 1 изображена компьютерная система 100, пригодная для использования с некоторыми вариантами осуществления данной технологии, также система 100 содержит различные аппаратные компоненты, в том числе один или несколько одноядерных или многоядерных процессоров, собирательно обозначенных как «процессор 110», твердотельный накопитель 120, оперативное запоминающее устройство 130, интерфейс дисплея 140 и интерфейс ввода/вывода 150. Сообщение между различными компонентами компьютерной системы 100 может осуществляться при помощи одной или нескольких внутренних и/или внешних шин 160 (напр. шины PCI, универсальной последовательной шины, шины стандарта IEEE 1394 ("Firewire"), шины SCSI, шины стандарта Serial-ATA и т.д.), с которыми электронно соединены различные аппаратные компоненты.
Интерфейс дисплея 140 может быть соединен с монитором 142 (напр. при помощи HDMI-кабеля 144), который виден пользователю 170, а интерфейс ввода/вывода 150 может быть соединен с клавиатурой 151 (напр. при помощи USB-кабеля 153) и мышью 152 (напр. при помощи USB-кабеля 154); как клавиатура 151, так и мышь 152 используются пользователем 170.
Согласно вариантам осуществления данной технологии твердотельный накопитель 120 хранит программные команды, пригодные для загрузки в оперативное запоминающее устройство (ОЗУ) 130 и выполнения процессором 110 для обработки текста. Программные команды могут быть, к примеру, частью библиотеки или приложения.
На Фиг. 2 представлена структурная схема примера осуществления данной технологии, которая содержит модуль преобразования слов 230 и модуль генерации правил 250. Модуль преобразования слов 230 принимает фразу-источник 210 и целевую фразу 220 в качестве входных данных и устанавливает соответствие 240 слов источника фразы-источника 210 целевым словам целевой фразы 220. Модуль генерации правил получает преобразование 240 в качестве входной информации и генерирует одно или несколько правил трансформации фразы 260 в качестве выходной информации.
На Фиг. 3 показан пример фразы-источника 210, "The proud eagle sailed high in the sky" (русск. «Гордый орел парил высоко в небе»), которая состоит из слов источника 211-218.
На Фиг. 4 показан пример целевой фразы 220, "The bird flew in the sky" (русск. «Птица летела в небе»), которая состоит из целевых слов 221-226.
На Фиг. 5 показано множество признаков слова источника 213, "eagle" (русск. «орел»), из фразы-источника 210, включающее грамматические признаки 2131 и значение 2132 слова источника 213. Грамматические признаки 2131 включают часть речи 21311 слова источника 213 со значением «имя существительное» в этом случае. Значение 2132 содержит одно или несколько значений, кодирующих семантические признаки слова источника 213, например вектор слова, сгенерированный хорошо известным алгоритмом word2vec.
Подобным образом, на Фиг. 6 показано множество признаков целевого слова 222, "bird" (русск. «птица»), из целевой фразы 220, включающее грамматические признаки 2221 и значение 2222 целевого слова 222. Грамматические признаки 2221 включают часть речи 22211 слова источника 222, которая также имеет значение «имя существительное». Значение 2222 содержит одно или несколько значений, кодирующих семантические признаки слова источника 222, например вектор слова, сгенерированный хорошо известным алгоритмом word2vec. В тех вариантах осуществления, в которых значение 2132 слова источника 213 и значение 2222 целевого слова 222 представлены в виде векторов, может измеряться расстояние между этими векторами для определения семантического сходства между словом источника 213 и целевым словом 222.
Подобным образом, на Фиг. 7 показано множество признаков слова источника 214, "sailed" (русск. «
На Фиг. 8 показано множество признаков целевого слова 223, "flew" (русск. «летела»), из целевой фразы 220, включающее грамматические признаки 2231 и значение 2232 целевого слова 223. Грамматические признаки 2231 включают часть речи 22311 слова источника 223 (со значением «глагол») и время глагола 22312 (со значением «прошедшее»). Как сказано выше, в некоторых вариантах осуществления, значения 2142 и 2232 представлены в виде векторов, а расстояние между ними может измеряться для определения семантического сходства между словом источника 214 и целевым словом 223.
На Фиг. 9 показано преобразование 240 слов источника 211-218 фразы-источника 210 на целевые слова 221-226 целевой фразы 220. Слово источника 211 ("the" - определенный артикль) преобразуется в целевое слово 221 ("the"), слово источника 213 ("eagle" - «орел») преобразуется в целевое слово 222 ("bird" - «птица»), слово источника 214 ("sailed" - «
В противоположность этому в других вариантах осуществления (не показаны) преобразование 240 может указывать на то, что целевые слова должны быть добавлены во фразу-источник 210 для генерации целевой фразы 220. Это было бы верным, например, в случае, описанном выше в уровне техники, в котором фраза-источник "The Tate Modern opened in 2000" (русск. «Тейт Модерн открыт в 2000») преобразуется в целевую фразу "The Tate Modern opened in the year two thousand" (русск. «Тейт Модерн открыт в двухтысячном году») с добавлением слов "the year" (русск. «году») для генерации целевой фразы.
Фиг. 10 представляет собой блок-схему, иллюстрирующую этапы примера способа 300, который является вариантом осуществления данной технологии. Способ 300 может выполняться, например, процессором 110 компьютерной системы 100, изображенной на Фиг. 1.
На шаге 310 выполняется понимание смысла фразы-источника 210, состоящей из слов источника 211-218. В качестве примеров, не имеющих ограничительного характера, фраза-источник 210 может быть получена от пользователя 170 на Фиг. 1, который может набрать входную фразу 210 на клавиатуре 151, или же фраза-источник 210 может быть получена через сетевой интерфейс компьютерной системы 100 (не показан).
На шаге 320 выполняется понимание смысла целевой фразы 220, состоящей из целевых слов 221-226. В качестве примеров, не имеющих ограничительного характера, целевая фраза 220 может быть опять-таки получена от пользователя 170 через клавиатуру 151, или через сетевой интерфейс компьютерной системы 100 (не показан).
На шаге 330 выполняется установление соответствия множества признаков для каждого из слов источника 211-218. Множество признаков каждого из слов источника 211-218 может включать один или несколько грамматических признаков (напр. 2131 на Фиг. 5) этого слова источника, значение (напр. 2132 на Фиг. 5) этого слова источника и/или один или несколько других признаков (не указаны) этого слова источника.
Шаг 330 может включать определение грамматических признаков слов источника 211-218 посредством грамматического анализа слов источника 211-218, который может дополнительно включать анализ контекста, в котором используются слова источника 211-218 (т.е. сама фраза-источник 210 и, дополнительно, какой-либо дополнительный контекстуальный текст, находящийся перед и/или после фразы-источника 210 в более объемном тексте, например документе).
Шаг 330 может включать определение значений слов источника 211-218 посредством семантического анализа слов источника 211-218 (напр. при помощи существующего алгоритма, например word2vec).
На шаге 340 выполняется установление соответствия множества признаков для каждого из целевых слов 221-226. Множество признаков каждого из целевых слов 221-226 может включать один или несколько грамматических признаков (напр. 2221 на Фиг. 6) этого целевого слова, значение (напр. 2222 на Фиг. 6) этого целевого слова и/или один или несколько других признаков (не указаны) этого целевого слова.
Шаг 340 может включать определение грамматических признаков целевых слов 221-226 посредством грамматического анализа целевых слов 221-226, который может дополнительно включать анализ контекста, в котором используются слова источника 221-226 (т.е. сама целевая фраза 210 и, дополнительно, какой-либо дополнительный контекстуальный текст, находящийся перед и/или после целевой фразы 210 в более объемном тексте, например документе).
Шаг 340 может включать определение значений целевых слов 221-226 посредством семантического анализа целевых слов 221-226 (напр. при помощи существующего алгоритма, например word2vec).
На шаге 350 выполняется анализ множеств признаков слов источника и множеств признаков целевых слов для определения преобразования 240 слов источника (напр. 211-218) фразы-источника 210 на целевые слова (напр. 221-228) целевой фразы 220. Это может включать определение сходства между каждым из множеств слов источника и каждым из множеств целевых слов. В тех вариантах осуществления, в которых множества признаков одного или нескольких слов источника (напр. 211-218) содержат грамматические признаки слов источника, определение сходства множеств признаков слов источника с множествами признаков целевых слов может включать сравнение соответствующих грамматических признаков каждого из слов источника с соответствующими грамматическими признаками каждого из целевых слов. В тех вариантах осуществления, в которых множества признаков одного или нескольких слов источника (напр. 211-218) содержат значения слов источника, определение сходства множеств признаков слов источника с множествами признаков целевых слов может включать определение сходства соответствующего значения каждого из слов источника с соответствующим значением каждого из целевых слов.
Шаг 350 может включать осуществление выбора наиболее подобного множества признаков целевого слова, относящегося к целевым словам (напр. 221-226) целевой фразы 220, для одного из множеств признаков слова источника, относящегося к словам-источникам (напр. к одному из 211-218) фразы-источника 210. Самое подобное из множеств признаков целевых слов может являться множеством, которое имеет грамматические признаки, наиболее подобные грамматическим признакам слов источника, или множеством, которое имеет значение, наиболее подобное значению слов источника, или множеством, которое имеет другой признак, наиболее подобный этому признаку слов источника, или множеством, которое имеет самое высокое средневзвешенное значение сходства различных признаков с различными признаками множества слов источника.
На шаге 360 выполняется генерация одного или нескольких правил трансформации фразы 260, применимых к фразе-источнику 210, для трансформации фразы-источника 210 в целевую фразу 220 на основании преобразования 240. Например, может быть проанализировано преобразование 240, изображенное на Фиг. 9, для определения того, что, т.к. слово источника 212 ("proud", русск. «гордый») не преобразуется в какое-либо из целевых слов 221-226, должно генерироваться правило трансформации фразы для удаления второго слова (напр. 212) фразы-источника 210. В других случаях, как в примере с «Тейт Модерн», может генерироваться правило трансформации фразы для добавления одного или нескольких слов (напр. "the year", русск. «году») к фразе.
В других случаях (не показаны) одно или несколько сгенерированных правил трансформации фразы 260 могут использоваться для трансформации слова источника, относящегося к одному из множеств признаков целевого слова, в целевое слово, относящегося к наиболее подобному из множеств признаков целевого слова. В некоторых таких случаях слово источника и целевое слово, в которое должно быть трансформировано слово источника, имеют одинаковый корень, и правило трансформации фразы изменяет лишь форму слова источника в форму целевого слова. Например, время глагола слова источника "flying" (русск. «летает») может быть изменено на время глагола целевого слова "flew" (русск. «летал»). В некоторых языках, например русском, имена существительные подвергаются трансформациям формы в зависимости от контекста, в котором они используются (напр. в зависимости от того, является ли существительное субъектом или объектом действия). Таким образом, правила трансформации фразы 260, которые изменяют формы слов источника в формы целевых слов, могут использоваться для осуществления структурных изменений фразы-источника 210 для трансформации ее в целевую фразу 220.
В некоторых вариантах осуществления после того, как были сгенерированы одно или несколько правил трансформации фразы 260, они могут применяться к текстовой фразе, которая может быть или может не быть идентичной фразе-источнику 210, на основании которой были сгенерированы одно или несколько правил трансформации фразы 260. Следовательно, различные дополнительные варианты осуществления способа 300 могут включать этапы понимания смысла текстовой фразы (напр. получения текстовой фразы от пользователя 170 через клавиатуру 151 или сетевой интерфейс компьютерной системы 100), а затем применения одного или нескольких правил трансформации фразы 160 к текстовой фразе для генерации трансформированной текстовой фразы.
В тех вариантах осуществления, в которых текстовая фраза не идентична фразе-источнику 210, способ 300 может дополнительно включать этап определения того, что сходство между текстовой фразой и фразой-источником превышает пороговое значение. Например, на основании семантического анализа фраза "The Tate Modern was opened to the public in 2000" (русск. «Тейт Модерн был открыт для публики в 2000») может считаться в достаточной степени подобной фразе-источнику "The Tate Modern opened in 2000" {русск. «Тейт Модерн открыт в 2000»), чтобы применялось правило трансформации фразы для добавления "the year" (русск. «году») перед «2000», с тем чтобы сгенерировать трансформированную текстовую фразу "The Tate Modern was opened to the public in the year 2000" (русск. «Тейт Модерн был открыт для публики в 2000 году»).
Специалистам вполне понятно, что возможны изменения и улучшения описанных выше вариантов осуществления данной технологии. Предшествующее описание имеет иллюстративный, а не ограничительный характер. Соответственно, объем данной технологии ограничивается только объемом прилагаемой формулы изобретения.
Изобретение относится к области обработки текстов. Технический результат заключается в обеспечении более точной обработки текста. Такой результат достигается за счет того, что способ обработки текстов, выполняемый на компьютерном устройстве, содержащем память, на которой хранятся одно или несколько правил трансформации фразы, которые были сгенерированы на основании анализа множеств признаков, в том числе множества признаков слова источника, сопоставленного со словом источника фразы-источника, и множества признаков целевого слова, сопоставленного с целевым словом целевой фразы, включает следующие этапы: получение текстовой фразы; определение того, что сходство текстовой фразы с фразой-источником превышает пороговое значение на основании по меньшей мере грамматического, или по меньшей мере семантического анализа текстовой фразы и фразы-источника; и применение одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы. 4 н. и 23 з.п. ф-лы, 10 ил.
Система для идентификации перефразирования с использованием технологии машинного перевода