Формула
1. Система (100) для перефразирования произвольного текста в клинических документах, содержащая
механизм (124) извлечения информации, выполненный с возможностью извлечения выбранного предложения (118) из клинического документа (112) в ответ на входной сигнал; и
блок (140) перефразирования, выполненный с возможностью перефразирования извлеченного предложения с использованием модели (142) статистического машинного перевода, обученной с использованием пар (212) выравнивания предложений по выражениям, построенных из корпуса текста клинических документов, и выведения построенного перефразированного предложения (320, 330, 410, 420, 430),
причем пары выравнивания предложений по выражениям содержат выражение в контексте предложения, подвергнутое выравниванию с установлением пар с другим выражением в контексте другого предложения.
2. Система (100) по п. 1, в которой перефразирование включает установление логического следования из значения извлеченного предложения, логически следующего из перефразированного предложения, с использованием других слов.
3. Система (100) по одному из пп. 1 и 2, в которой корпус текста клинических документов содержит документы с произвольными предложениями (202).
4. Система (100) по п. 3, в которой корпус текста клинических документов содержит аннотированный корпус (204) текста клинических документов с произвольным текстом, кластеризованным по записям, которые содержат диагноз, исследование и лечение.
5. Система (100) по любому из пп. 1-4, в которой модель статистического машинного перевода обучена на основе по меньшей мере одной из объединенной базы (144) знаний, лексической базы (146) данных английского языка или словаря (148) эмотиконов.
6. Система (100) по любому из пп. 1-5, в которой
блок (140) перефразирования дополнительно выполнен с возможностью:
повторного перефразирования извлеченного предложения с использованием модели статистического машинного перевода, которая использует альтернативный перевод, в ответ на второй входной сигнал.
7. Система (100) по любому из пп. 1-6, в которой
блок (140) перефразирования дополнительно выполнен с возможностью
приема обратной связи при одобрении перефразирования и модификации по меньшей мере одного из правила логического вывода или взвешенного показателя, используемых моделью статистического машинного перевода.
8. Система (100) по любому из пп. 1-7, в которой перефразированное предложение отличается от извлеченного предложения по меньшей мере одним из перестройки, сжатия или упрощения предложения.
9. Система (100) по любому из пп. 1-8, в которой перефразированное предложение содержит эмотиконы.
10. Система (100) по любому из пп. 1-9, которая дополнительно содержит
блок (130) семантической связи, выполненный с возможностью сопоставления терминов в извлеченном предложении с целевым понятием на основе по меньшей мере одного из медицинской онтологии (132) или медицинского тезауруса (134);
причем блок перефразирования, в ответ на обнаружение нового термина в извлеченном предложении, использует сопоставленное целевое понятие для перефразирования нового термина.
11. Способ перефразирования произвольного текста в клинических документах, включающий
извлечение (225) выбранного предложения (118) из клинического документа (112) в ответ на входной сигнал и
перефразирование (230) извлеченного предложения с использованием модели (142) статистического машинного перевода, обученной с использованием пар (212) выравнивания предложений по выражениям, построенных из корпуса текста клинических документов, которая выводит перефразированное предложение (320, 330, 410, 420, 430),
причем пары выравнивания предложений по выражениям содержат выражение в контексте предложения, подвергнутое выравниванию с установлением пар с другим выражением в контексте другого предложения.
12. Способ по п. 11, в котором перефразирование включает установление логического следования из значения выбранного предложения в перефразированном предложении в однонаправленном переводе.
13. Способ по любому из пп. 11 и 12, который дополнительно включает
применение (200) алгоритма кластеризации к корпусу (202) текста клинических документов с произвольными предложениями, по записям, которые содержат диагноз, исследование и лечение;
аннотирование (210) кластеризованного корпуса (204) текста клинических документов для получения пар выравнивания предложений по выражениям и
обучение (220) модели статистического машинного перевода с использованием пар выравнивания предложений по выражениям.
14. Способ по п. 13, в котором обучение включает обучение с использованием по меньшей мере одного из объединенной базы (144) знаний, лексической базы (146) данных английского языка или словаря (148) эмотиконов.
15. Компьютерочитаемый носитель данных, содержащий инструкции для перефразирования текста в клинических документах, которые при их исполнении обуславливают выполнение процессором:
извлечения (225) выбранного предложения (118) из клинического документа (112) в ответ на входной сигнал и
перефразирования (230) извлеченного предложения с использованием модели (142) статистического машинного перевода, обученной с использованием пар (212) выравнивания предложений по выражениям, построенных из корпуса текста клинических документов, которая выводит перефразированное предложение (320, 330, 410, 420, 430),
причем пары выравнивания предложений по выражениям содержат выражение в контексте предложения, подвергнутое выравниванию с установлением пар с другим выражением в контексте другого предложения.