Механизм управления фактами (событиями) в репозитарии
Google получил новый патент на метод и систему обработки фактов. Алгоритм применим и в том числе, если данные для обработки берутся из Интернет. Данными могут быть текст, графические изображения, мультимедиа контент. Для обработки используется программное обеспечение «дворник» («janitor»), которое перерабатывает данные для извлечения, очистки и подтверждения фактов.
Например, веб-документ может иметь следующую таблицу. В одной колонке – имена и фамилии президентов, в другой – даты их рождения. На первом этапе данные извлекаются из веб-документа. Затем один или несколько «дворников» преобразовывают извлеченные данные согласно их представлению в веб-документе для улучшения качества получаемых фактов.
Таким образом вся работа алгоритма делится на два этапа:
- Извлечение данных из документа в репозитарий
- Обработка данных в репозитарии «дворниками» для получения фактов
Источник: Mechanism for managing facts in a fact repository
Поиск по внешним документам:
|