Система для идентификации перефразирования с использованием технологии машинного перевода - RU2004129675A

Код документа: RU2004129675A

Реферат

1. Способ обучения системы обработки перефразирования, содержащий этапы, на которых принимают кластер родственных текстов, выбирают набор текстовых сегментов из кластера и используют текстовое совмещение для идентификации отношений перефразирования между текстом в текстовых сегментах в наборе.

2. Способ по п.1, в котором использование текстового совмещения содержит этапы, на которых используют статистическое текстовое совмещение для совмещения слов в текстовых сегментах в наборе и идентифицируют отношения перефразирования на основе совмещенных слов.

3. Способ по п.2, в котором использование текстового совмещения содержит этапы, на которых используют статистическое текстовое совмещение для совмещения фраз, состоящих из множества слов, в текстовых сегментах в наборе и идентифицируют отношения перефразирования на основе совмещенных фраз, состоящих из множества слов.

4. Способ по п.1, в котором использование текстового совмещения содержит этапы, на которых используют эвристическое совмещение слов для совмещения слов в текстовых сегментах в наборе и идентифицируют отношения перефразирования на основе совмещенных слов.

5. Способ по п.4, в котором использование текстового совмещения содержит этапы, на которых используют эвристическое текстовое совмещение для совмещения фраз, состоящих из множества слов, в текстовых сегментах в наборе и идентифицируют отношения перефразирования на основе совмещенных фраз, состоящих из множества слов.

6. Способ по п.1, дополнительно содержащий этап, на котором вычисляют модели совмещения на основе идентифицированных отношений перефразирования.

7. Способ по п.6, дополнительно содержащий этапы, на которых принимают входной текст и генерируют перефразирование входного текста на основе модели совмещения.

8. Способ по п.1, в котором выбор набора текстовых сегментов содержит этап, на котором выбирают текстовые сегменты для набора на основе ряда общих слов в текстовых сегментах.

9. Способ по п.1, дополнительно содержащий этап, на котором перед приемом кластера идентифицируют кластер родственных текстов.

10. Способ по п.9, в котором идентификация кластера дополнительно содержит этапы, на которых осуществляют доступ к множеству документов и идентифицируют документы, написанные различными авторами по общей теме, в качестве кластеров родственных документов.

11. Способ по п.10, в котором выбор набора текстовых сегментов содержит этап, на котором группируют желаемые текстовые сегменты родственных документов в каждом кластере в набор родственных текстовых сегментов.

12. Способ по п.11, в котором идентификация документов содержит этап, на котором идентифицируют документы, написанные в пределах заранее определенного времени друг по отношению к другу.

13. Способ по п.11, в котором осуществление доступа к множеству документов содержит этап, на котором осуществляют доступ к множеству различных новостных статей, написанных об общем событии.

14. Способ по п.13, в котором осуществление доступа к множеству документов содержит этап, на котором осуществляют доступ к множеству различных новостных статей, написанных различными агентствами новостей.

15. Способ по п.14, в котором группирование желаемых текстовых сегментов содержит этап, на котором группируют первое заранее определенное число предложений каждой новостной статьи в каждом кластере в набор родственных текстовых сегментов.

16. Способ по п.15, в котором выбор набора текстовых сегментов содержит этап, на котором формируют пару каждого предложения в заданном наборе родственных текстовых сегментов с каждым другим предложением в этом заданном наборе.

17. Система обработкии перефразирования, содержащая компоненту текстового совмещения, выполненную с возможностью приема набора текстовых сегментов и идентификации отношений перефразирования между словами в наборе текстовых сегментов на основе совмещения слов.

18. Система обработки перефразирования по п.17, в которой компонента текстового совмещения выполнена с возможностью генерации модели совмещения на основе статистического или эвристического совмещения слов.

19. Система обработки перефразирования по п.18, в которой компонента текстового совмещения выполнена с возможностью идентификации отношений перефразирования на основе совмещений фраз, состоящих из множества слов, в наборе текстовых сегментов.

20. Система обработки перефразирования по п.17, дополнительно содержащая компоненту кластеризации, выполненную с возможностью осуществления доступа к множеству документов и кластеризации документов на основе темы документов.

21. Система обработки перефразирования по п.20, в которой компонента кластеризации выполнена с возможностью кластеризации документов, написанных об одной и той же теме.

22. Система обработки перефразирования по п.20, в которой компонента кластеризации выполнена с возможностью извлечения заранее определенных текстовых сегментов из кластеризованных документов для формирования набора текстовых сегментов.

23. Система обработки перефразирования по п.22, дополнительно содержащая компоненту формирования пар, выполненную с возможностью идентификации множества пар текстовых сегментов на основе набора текстовых сегментов.

24. Система обработки перефразирования по п.23, в которой компонента формирования пар выполнена с возможностью идентификации множества пар текстовых сегментов посредством формирования пары каждого текстового сегмента в заданном наборе текстовых сегментов с каждым другим текстовым сегментом в этом заданном наборе текстовых сегментов.

25. Система обработки перефразирования по п.20, дополнительно содержащая хранилище данных, в котором хранится множество документов.

26. Система обработки перефразирования по п.25, в которой в хранилище данных хранится множество различных новостных статей, написанных различными агентствами новостей об общем событии.

27. Система обработки перефразирования по п.26, в которой компонента кластеризации выполнена с возможностью кластеризации новостных статей на основе времени, в которое эти новостные статьи были написаны.

28. Система обработки перефразирования по п.27, в которой хранилище данных реализовано в виде одного или более хранилищ данных.

29. Система обработки перефразирования по п.17, дополнительно содержащая средство генерации перефразирования, принимающее текстовые входные данные и генерирующее перефразирование этих текстовых входных данных на основе отношений перефразирования.

30. Система обработки перефразирования, содержащая средство генерации перефразирования, принимающее текстовые входные данные и генерирующее перефразирование этих текстовых входных данных на основе отношений перефразирования, полученных от компоненты текстового совмещения, выполненной с возможностью приема множества текстовых сегментов и идентификации отношений перефразирования между словами в текстовых сегментах на основе совмещения слов.

Авторы

Заявители

СПК: G06F40/253 G06F40/279 G06F40/44 G06F40/58

Публикация: 2006-03-20

Дата подачи заявки: 2004-10-12

0
0
0
0
Невозможно загрузить содержимое всплывающей подсказки.
Поиск по товарам