Как автоматизировать извлечение данных из сложных документов
Бизнес-процессы, питаемые сложными документами, — это медведь.
НЕТ!! Не что тип медведя…. Это тип медведя!
Почему?
Комплексные документы .
Там, где сложное может замедлить работу до минимума, сложные документы высасывают жизнь из продуктивности.
Конечно, у вас может быть OCR система на месте, которая обрабатывает ваши документы.
И OCR — хорошая технология… для структурированных документов. Но как насчет этих сложных, неструктурированных документов?
Или, черт возьми, может быть, вы все еще вручную обрабатываете свои документы. Старые добрые человеческие усилия — это проверенный и верный способ ввести документ в систему, управляющую вашим бизнес-процессом. Человек может даже найти нужные данные в море сложных данных. В итоге.
Но люди медлительны, склонны к ошибкам, непоследовательны и затратны. (А в некоторых случаях, возможно, все-таки не так уж и превосходно!)
Далее идут все испытания.
Сложные документы:
• Могут иметь несколько форматов
• Не могут быть принудительно включены в шаблон
• Возможно, свободно распространяемые
• Могут иметь таблицы… или хуже! Вложенные таблицы!
• Может содержать изображения
• Может включать рукописный текст… или хуже! Грязный почерк!
• [УКАЖИТЕ ЗДЕСЬ СВОЕ ЛЮБИМОЕ ИЗВЛЕЧЕНИЕ БОЛИ!]
Худшая часть? Системы OCR определенно упираются в стену, когда документы становятся слишком сложными.
Слишком много для автоматизации, верно?
(Увы, прекрасный читатель… есть надежда.)
Что такое ориентированный на документы рабочий процесс ?
В своей простейшей форме рабочий процесс, ориентированный на документы, — это процесс, который выполняет бизнес-процесс. Почти во всех случаях документы подпитывают процесс, который включает захват контента, извлечение информации из контента и выполнение некоторых действий на основе этой информации.
Например, вот процесс подачи документов, который, вероятно, звучит знакомо….
Я отправляю расходы на лечение в свою медицинскую страховку, чтобы получить компенсацию. Я должен:
• Скопировать квитанцию
• Распечатать формы
• Заполнить формы
• Получить конверт и поставить печать
• Вычислить адрес
• Отправить по почте
И это только мой конец.
В сценариях использования рабочих процессов, ориентированных на процессы, контент содержит данные и информацию, контекстуально релевантные процессу и бизнесу.
Контент, который мы все используем, содержит в себе ценность… ценность, которую трудно высвободить.
Классификация документов
Документы можно классифицировать по различным формам и типам. Документы могут быть изображениями, текстом, числами, видео или смесью типов.
Классификация может быть основана на любом количестве вещей, включая:
• Изображения
• Электронные письма
• Текст
• SMS
• Годовые отчеты
• Поступления
• Счета
• Банковские выписки
• Печати
• Формы АКОРД
• Претензии
• Рукописные формы
• Счета за коммунальные услуги
• Электрощит
• И многое другое!
Извлечение данных
Информацию, хранящуюся в документах, можно извлечь с помощью ручного процесса, оптического распознавания символов или какой-либо другой технологии. При принятии решения о том, какой из них использовать, важно знать, можем ли мы извлечь всю информацию из документа и насколько точна эта информация.
Затем извлеченные данные и информация передаются в процесс. Подумайте об обработке ипотеки, обработке маршрута, обработке ссуды, обработке претензий, обработке ответов на запросы предложений, финансовом соблюдении, аудите, управлении расходами, обработке счетов и т. д.
Скорее всего, вы какое-то время выполняли процессы, требующие извлечения данных. Если вы похожи на большинство, вы столкнулись с препятствиями. И из-за этих препятствий ваши планы по автоматизации застопорились.
Виновник? Вероятно, это сложные данные.
Как узнать, блокируют ли ваши сложные данные ваши цели автоматизации?
Есть веская причина для большей автоматизации процессов, где это возможно. 10-кратное повышение эффективности, производительности и/или экономии затрат звучит невероятно, правда?!
Если ваша цель состоит в том, чтобы автоматизировать больше этих процессов обработки документов, которые теперь требуют людей для ввода данных . .. или тех, которые, как доказывает OCR, не могут быть обработаны, как вы диагностируете проблему, чтобы вы могли достичь своих целей. ?
И как узнать, когда сложные данные создают узкое место процесса?
Сложность ваших данных, вероятно, указывает на уровень сложности, с которой вы столкнетесь при попытке извлечь данные и извлечь из них ценную информацию.
Какие факторы усложняют обработку документов?
• Содержимое является свободным
• Документ неструктурирован
• Он содержит рукописный текст
• Он состоит из нескольких типов документов
• Форматы меняются в одном и том же документе
• Шрифты меняются в том же документе
• Документ имеет сложные таблицы
• Таблицы находятся в разных местах
• Отсутствует информация
• Присутствуют картинки и изображения
Это типы документов, в которых не удается выполнить распознавание символов, а ручная обработка становится слишком сложной.
Каков деловой результат сложных документов?
Когда у вас есть сложные документы, которые невозможно автоматизировать, ваш бизнес страдает.
Как это выглядит?
• Высокие эксплуатационные расходы
• Низкая эффективность процесса
• Длительное время завершения процесса
• Точность извлечения слишком низкая, чтобы быть полезной
Я думаю, что эти клиенты попали в точку, когда сказали…
«Как финансовая компания, наши сотрудники тратят много времени на переписывание счетов».
И…
«Мы хотим извлечь всю информацию из документов, чтобы мы могли автоматизировать больше процессов и использовать всю информацию для получения информации. Но наши аналитики используют только 10-20% данных в документах, потому что остальное мы не можем извлечь».
Решения для комплексной обработки данных
Отрасль прошла путь от оптического распознавания символов до решений, использующих несколько технологий искусственного интеллекта для устранения узких мест. Эти решения классифицируются по:
Подход старой школы: OCR
Современный подход: различные названия, в том числе:
• Интеллектуальная обработка данных
• Интеллектуальный сбор данных
• Машинное обучение OCR
• Когнитивный захват
• AI OCR
• AI RPA
Где угодно прочитает, как технология искусственного интеллекта применяется для решения проблем с неструктурированными данными. Будьте осторожны здесь; ИИ стал модным словом, которое некоторые поставщики используют, чтобы затуманить воду, когда дело доходит до описания того, как ИИ играет в их решениях.
На данный момент ключевым моментом является следующее:
Интеллектуальная обработка данных (IDP) может извлекать практически всю информацию, понимать данные и создавать дополнительную ценность из сложных документов.
Три наиболее распространенные проблемы сложных документов
Компания Infrrd работала рука об руку с сотнями предприятий и компаний для решения сложных проблем с данными. У нас есть много историй, которыми мы можем поделиться. А пока давайте рассмотрим три основных варианта использования, с которыми мы сталкиваемся чаще всего.
Задача 1. Извлечение данных из годовых отчетов
Финансовая компания предоставляет бизнес-кредиты.
Банк выдает и обслуживает кредит. Фирмы, которым они кредитуют, должны представлять финансовые отчеты, чтобы банк мог гарантировать финансовую устойчивость и соответствие требованиям.
Довольно просто, правда? Так в чем проблема?
Финансовые отчеты (в данном случае годовые отчеты) не имеют универсального стандарта; Обычно они бывают разных форматов, имеют нестандартную таксономию и могут меняться от года к году. Эти отчеты включают графики, диаграммы и таблицы, которые также несовместимы.
Сложность этих документов требует ручной обработки, поскольку OCR не может обрабатывать документ с такой небольшой структурой. Это хуже? Этот ручной процесс всегда является более дорогостоящим, медленным и непоследовательным. Даже самая маленькая ошибка может поставить под сомнение всю финансовую оценку банка.
Но без информации, заключенной в этих документах, банк не может определить, насколько хорошо работают фирмы в его кредитном портфеле и почему. А когда информация не доставляется своевременно? Именно тогда банк вводит в свою систему ненужные операционные риски.
Infrrd работал с этим банком над извлечением данных из их сложных документов. В настоящее время банк использует решение Intelligent Data Processing от Infrrd, в котором применяется многоуровневая последовательность моделей искусственного интеллекта. Результат? У этого банка больше нет проблем с обработкой годового отчета.
Проблема 2. Извлечение данных из чертежей панели
Чертеж панели — это изображение, описывающее компоновку и компоненты панели управления, распределительной панели или электрической панели.
В приведенном ниже образце также показаны номера деталей и спецификации компонентов.
Так как же извлечь полезные данные из этих панелей? Они слишком сложны для этого?
Представьте это.
Поставщик получает пакет предложений от застройщика, который включает документы и чертежи панелей. Поставщик должен прочитать чертежи, составить предложение и отправить его строителю. Если у поставщика лучшая цена, он выигрывает бизнес.
Но когда пакет RFP (документы и множество чертежей панелей) обрабатывается вручную, на составление сметы уходят недели.
Можно ли использовать автоматическое извлечение данных для этих чертежей панелей?
Работая с этим поставщиком, мы узнали, что они пробовали OCR… и потерпели неудачу.
OCR не может обрабатывать чертежи панели, поскольку он не может:
• Определить стиль и толщину линии
• Понять ориентацию текста (сверху, снизу, сбоку рисунка)
• Отличить символы от цифр и букв
Поставщик — после партнерства с Infrrd — научился использовать платформу извлечения информации с искусственным интеллектом для решения уникальных задач даже самых сложных чертежей панелей. В результате поставщик автоматизировал процесс запроса предложений. Сегодня они отвечают строителям, которых обслуживают, в 20 раз быстрее и точнее.
Вопреки распространенному мнению, ДА. Вы можете автоматизировать извлечение данных из чертежей панелей.
Задача 3. Извлечение данных из таблиц
Столы повсюду. Вы найдете их в годовых отчетах, финансовых отчетах, счетах-фактурах, счетах-фактурах, квитанциях и управленческих отчетах.
Таблицы помогают структурировать информацию, чтобы нам, людям, было легче ее понять.
И… столы действительно повсюду. Скорее всего, они находятся в тех самых документах, которые содержат информацию, которую вы хотите извлечь!
Самая большая проблема с таблицами проявляется по мере увеличения сложности. Вот как это выглядит:
• Таблицы не появляются в одном и том же месте в отчетах
• Шрифты различаются в одной и той же таблице
• В таблице есть цифры и буквы
• Таблицы отображаются с границами и без них
• Вы найдете таблицы внутри таблиц (вложенные таблицы)
• Таблицы продолжаются на десятки или даже сотни— страниц
Ручная обработка таблиц может работать в случае простой таблицы с ограниченным числом строк и столбцов. Но когда таблицы занимают много страниц, любой, кто читает данные, может ошибаться.
Как вы уже догадались, распознаванию символов также мешают таблицы. Когда таблица не имеет границ, как показано ниже, OCR не может идентифицировать информацию как таблицу. .. и, конечно же, тип таблицы.
OCR также дает сбой, когда необходимо определить, является ли запись нулем или «0».
Infrrd и наши клиенты уже давно успешно извлекают данные из таблиц. Требуется другое мышление и подход, полностью отличающийся от оптического распознавания символов, чтобы постоянно делать это правильно.
Сбрасывание бомб знаний на извлечение информации
В этом блоге вы узнали некоторые основы извлечения данных из сложных документов.
Помните три сложных варианта использования (Годовые отчеты, Панели и Таблицы)? Большинство людей, столкнувшихся с этим, разочарованно вскидывают руки… и уходят. Они никогда не используют истинную ценность, которая заключена в их документах!
Можете ли вы извлечь полную ценность данных и информации из сложных документов?
ДА. ТЫ. МОЖНО.
Ознакомьтесь с сообщениями в нашем блоге, чтобы узнать, как решить каждую из этих проблем с неструктурированными данными.
Обсудим все подробнее.
И вы увидите, как заставить технологии ИИ работать на вас.
Вы станете мастером комплексного извлечения данных в своей организации. И ангелы автоматизации будут петь ваше имя в унисон.
Но берегитесь! Будут викторины, и вам придется надеть кепку мышления!
А пока подумайте вот о чем: чего еще мы могли бы достичь, если бы могли извлекать все данные и информацию из всех наших сложных документов?
Ответ на этот вопрос, скорее всего, вас поразит.
До следующего раза… если вы не хотите пообщаться со специалистом сейчас:
6 неожиданных способов заражения образцов теста на отцовство
«Ой-ой. Я испортил свой тест на отцовство?»
Сделать тест на отцовство сегодня намного проще и доступнее, чем когда-либо, благодаря высококачественным домашним наборам, которые можно легко и недорого приобрести в местном магазине. Поскольку ответы имеют решающее значение для жизни ребенка и семьи, важно, чтобы вы выбрали лабораторию ДНК с высокой аккредитацией для проведения тестирования. Когда заказывается тест на отцовство, вы и лаборатория формируете партнерство, и каждая сторона несет ответственность за надлежащее обращение с образцами ДНК.
Как участник теста, ваша задача состоит в том, чтобы убедиться, что образцы доставлены в лабораторию в хорошем состоянии. Чтобы получить образцы, участники собирают ДНК с помощью щечных мазков. Это безболезненно и быстро, и сам процесс совсем не сложный, но вы должны делать это осторожно, чтобы сохранить целостность ДНК. Вот пять неожиданных способов заражения образцов для теста на отцовство.
Тест на отцовство Проблема #1: Еда, питье, курение и т. д. .
Избегайте попадания чего-либо в рот как минимум за час до взятия образцов щечных клеток. Инородные частицы из пищи, жидкостей, зубной пасты и побочных продуктов табака не изменяют ДНК, но они могут маскировать ее. Следствием этого является то, что образец становится деградированным и, следовательно, непригодным для тестирования на отцовство. Даже младенцы, проходящие тестирование, не должны сосать грудь или пить из бутылочки перед тестированием.
Хорошие новости: Эта ошибка не повлияет отрицательно на ваши результаты, потому что лаборатория всегда выявляет эту проблему и немедленно приостанавливает тестирование. Вас просто попросят сделать повторный сбор бесплатно, после чего тестирование можно будет возобновить.
Плохая новость: Вам придется дольше ждать результатов из-за необходимости повторного сбора.
Как это предотвратить : Точно следуйте этим указаниям. Если участник ест или пьет в течение часа до сбора, просто подождите немного дольше перед тестированием.
Тест на отцовство Задача № 2: Плевание на мазки вместо взятия мазков из щек
С новой популярностью некоторых тестов на отцовство клиентам легко запутаться между сбором щечных клеток и сбором слюны или слюны. Два типа образцов определенно не взаимозаменяемы. Роботы для тестирования родства предназначены для извлечения ДНК из клеток щеки, а клетки щеки обеспечивают более концентрированное количество высококачественной ДНК.
Хорошие новости: Есть шанс, что роботы и лаборанты смогут извлечь ДНК для тестирования.
Плохая новость: Если образцы загрязнены или если лаборатория не может извлечь достаточное количество ДНК, вам придется ждать результатов дольше из-за необходимости повторного сбора.
Как это предотвратить : Внимательно прочитайте инструкции и обязательно собирайте клетки только с внутренней стороны щек, по возможности избегая области десен. И не плюй на тампоны!
Тест на отцовство Проблема №3: перекрестное загрязнение
При работе с мазками очень важно поддерживать целостность каждого мазка от начала до конца. Что это значит?
Убедитесь, что , а не по адресу:
- Обращайтесь с кончиками тампона, особенно если вы делаете тампон другому человеку 904:00
- Бросить тампон
- Случайно положить мазки от двух разных людей в один конверт
Хорошие новости: Такие ошибки выявляются на лабораторном уровне и не влияют на ваши результаты.
Плохая новость: Возможно, вам придется дольше ждать результатов, если потребуется повторное получение.
Как это предотвратить: Бережно обращайтесь с мазками и обязательно используйте отдельные конверты для образцов для каждого участника.
Проблема теста на отцовство № 4: Некоторые медицинские процедуры
Следующие сценарии могут определенно повлиять на результаты теста на отцовство:
- Участнику недавно сделали переливание крови
- У участника было когда-либо пересадок костного мозга
В обоих сценариях чужая ДНК была введена в тело участника и может оставаться там либо временно, либо в течение длительного периода времени. Когда в лаборатории амплифицируется образец ДНК для проверки на отцовство от этого участника, технические специалисты могут увидеть два отдельных профиля этого одного человека.
Хорошие новости: Даже если вы или другой участник прошли одну из этих процедур, все равно можно получить убедительные результаты.
Плохая новость: Получить окончательные результаты может быть невозможно.
Как это предотвратить: Вы, конечно, не можете изменить пройденную вами медицинскую процедуру, но вы можете сообщить об этом в лабораторию в форме подачи. Таким образом, если лаборатория определит, что история болезни может повлиять на результаты, вы можете быть уведомлены об этом.
Тест на отцовство Проблема № 5: Повторное использование упаковки
Щечные мазки специально созданы для сбора ДНК и упакованы в пластиковую упаковку для обеспечения стерильности. Хотя эта упаковка идеально подходит для неиспользованных буккальных мазков, она создает проблемы для мазков после того, как они использовались для сбора ДНК. И вот почему:
Образец ДНК содержит клетки щеки, которые неизбежно смешиваются со слюной. Когда вы кладете влажный тампон обратно в пластиковую упаковку, образец больше не может «дышать», и плесень почти сразу начинает расти. Эта плесень может испортить или разрушить ДНК на мазке настолько, что ДНК нельзя будет извлечь и протестировать.
Хорошие новости: Лаборатория обнаружит эту проблему и запросит повторный сбор, так что это не повлияет на ваши результаты.
Плохая новость: Вам придется ждать результатов дольше из-за необходимости повторного сбора.
Как это предотвратить: При сборе образцов обязательно помещайте тампоны в прилагаемые бумажные конверты, как указано в инструкциях к набору, а не обратно в пластиковую упаковку. Легкий!
Тест на отцовство Задача №6: Отправка мокрых конвертов
Как упоминалось ранее, тампоны собирают щечные клетки, а также некоторое количество слюны. В результате бумажные конверты с образцами нередко немного намокают. Если конверты отправляются по почте еще влажными, они могут порваться по пути в лабораторию. К сожалению, это загрязняет все образцы.
Хорошая новость: образцов ДНК можно собрать снова, используя новые материалы.
Плохая новость: Вам придется дольше ждать результатов.
Как это предотвратить: Лучше всего высушить тампоны на воздухе, подержав их некоторое время за ручки, прежде чем поместить их в бумажные конверты. Но если конверт все равно немного намокнет, просто положите его на чистый стол и дайте высохнуть на воздухе при комнатной температуре перед отправкой по почте.
Bottom Line
Наши клиенты часто обращаются к нам после получения результатов и спрашивают: «Тампоны были мокрыми, и я все равно положил их в конверт. Повлияло ли это на результаты?» Или: «Мой ребенок кормился грудью прямо перед тем, как я взяла у него тампон. Может ли это изменить результаты?» Без проблем! Загрязненные пробы не могут «изменить» результаты, потому что лаборатория всегда выявляет проблему и запрашивает новые пробы до выдачи результатов. Но это неудобство для вы , потому что вам нужно ждать дольше, чтобы получить результаты.