[Транскрипт веб-трансляции] TAR в реальном мире: от обещания к практичности

en flag
nl flag
fr flag
de flag
pt flag
ru flag
es flag

Примечание редактора: 13 января 2021 года HaystacKid опубликовал образовательную веб-трансляцию, предназначенную для информирования и обновления юристов и специалистов по обнаружению данных о самых передовых в отрасли технологиях аналитики, а также о рекомендуемых рабочих процессах и подходящих сценариях использования для достижения количественно влиятельного увеличения эффективность и точность анализа документов при использовании технологических обзоров. Хотя полная записанная презентация доступна для просмотра по запросу на веб-сайте HaystacKid, ниже приведена стенограмма презентации, а также PDF-версия сопутствующих слайдов для вашего обзора и использования.

TAR в реальном мире: от обещаний к практичности

Эксперты и комментаторы eDiscovery отстаивали обещание технологической проверки (TAR) после решения судьи Эндрю Пека Да Сильва Мур в феврале 2012 года. Но как именно TAR продвигается в реальном мире сложных открытий? Что еще важнее, как используются инструменты структурированной и концептуальной аналитики последнего поколения для повышения эффективности и достижения положительных результатов, преобразуя обещания TAR в практические результаты?

В этой практической презентации эксперты по аналитике и юридическому анализу eDiscovery расскажут о самых передовых в отрасли аналитических технологий и расскажут о рекомендуемых рабочих процессах и подходящих сценариях использования для достижения количественно влиятельного повышения эффективности и точности проверки документов.

Основные моменты веб-трансляции

+ Структурированная аналитика: поточность иглы электронной почты

+ Концептуальная аналитика: от выбора (TAR 1.0 v. 2.0) к кластерам

+ Мозг и мозг: учитывая пространство мозга и относительность

+ Хорошая точка остановки: почему и когда принимаются решения о рабочих процессах при непрерывном активном обучении

Представление экспертов

+ Майкл Сарло (Michael Sarlo), ENCE, CBE, CCLO, RCA, CCPA - Майкл является партнером и старшим вице-президентом по раскрытию электронных данных и цифровой криминалистике HaystacKid.

+ Адам Рубингер, JD. — Будучи вице-президентом компании HaystacKid, Адам обладает более чем 20-летним опытом и прикладными знаниями в области консультирования, консалтинга и управления крупномасштабными проектами по раскрытию электронных данных.

+ Аня Королев, Esq. — Являясь директором по управлению проектами компании HaystacKid, Аня имеет 12-летний опыт работы в eDiscovery с обширным опытом работы со вторыми запросами в качестве адвоката и консультанта.

+ Сет Курт Шехтман (Seth Curt Schchtman) — Будучи старшим управляющим директором по обзорным услугам HaystacKid, Сет обладает обширным опытом проверки, включая коллективные действия, MDL и вторые запросы.

+ Young Yu - Янг как директор по обслуживанию клиентов HaystacKid, является главным стратегическим и операционным консультантом для клиентов в вопросах раскрытия электронных данных.

Стенограмма презентации

Введение

Здравствуйте, и я надеюсь, что у вас отличная неделя. Меня зовут Роб Робинсон, и от имени всей команды HaystacKid я хотел бы поблагодарить вас за участие в сегодняшней презентации «TAR in the Real World: от обещания к практичности». Сегодняшняя веб-трансляция является частью ежемесячной серии образовательных презентаций HaystacKid, проводимых в сети BrightTalk и предназначенных для обеспечения того, чтобы слушатели были заранее подготовлены к выполнению своих задач компьютерной криминалистики, раскрытия электронных данных и юридических обзоров во время расследований и судебных разбирательств. Наши экспертные докладчики для сегодняшней веб-трансляции включают пять ведущих отраслевых экспертов и органы правовой экспертизы с большим опытом поддержки технологических обзоров.

Первое введение, которое я хотел бы сделать, это Майкла Сарло. Майк — главный директор по инновациям и президент по глобальным расследованиям HaystacKid. В этой роли Майкл содействует всем операциям и инновациям, связанным с раскрытием электронных данных, цифровой криминалистикой и стратегией судебных разбирательств как в США, так и за рубежом.

Во-вторых, я хотел бы представить Адама Рубингера. Адам является главным сотрудником по работе с клиентами компании HaystacKid. Он обладает более чем 20-летним опытом и прикладными знаниями в области консультирования, консалтинга и управления крупномасштабными проектами eDiscovery в этой роли.

Далее я хотел бы поприветствовать Аню Королева, которая является директором по управлению проектами компании HaystacKid. Аня имеет 12-летний опыт работы в eDiscovery с большим опытом работы в области вторых запросов в качестве адвоката и консультанта.

Я также хотел бы выделить Сета Шехтмана в качестве старшего управляющего директора службы обзора HaystacKid. Сет обладает обширным опытом проверки, включая групповые действия, MDL и вторые запросы.

Наконец, я хотел бы представить вам сегодня Young Yu. Янг является директором по работе с клиентами компании HaystacKid. В своей роли Янг является главным стратегическим и операционным консультантом клиентов по вопросам электронного обнаружения.

HaystacKid записывает сегодняшнюю презентацию для будущего просмотра, а копия презентационных материалов будет доступна всем участникам. Доступ к этим материалам можно получить непосредственно под окном просмотра презентации на экране, выбрав вкладку «Вложения» в крайнем левом положении панели инструментов под окном просмотра. Кроме того, сегодня у нас есть несколько вопросов для опросов. Эти вопросы отобразятся на вкладке «Голосование».

Сейчас я хотел бы передать микрофон нашим экспертным докладчикам под руководством Майка Сарло для их комментариев и соображений по технологическому обзору и практическому использованию в реальном мире. Майк?

Майкл Сарло

Большое спасибо, Роб, и всем спасибо за участие в веб-трансляции этого месяца. Мы очень рады видеть вас. У нас есть несколько новых динамиков на схеме. Аня и Янг, в частности, с операционной точки зрения тратят много времени на аналитику, как с точки зрения анализа технологических систем, с точки зрения непрерывного активного обучения, структурированной аналитики по некоторым из самых сложных вопросов. Адам Рубингер также уже много лет консультирует клиентов по вопросам эффективного использования этих технологий, которые мы все так узнали и любим, и я сам занимаюсь аналитикой данных уже много лет. Поэтому мы часто обнаруживаем дезинформацию или разрывы относительно того, как следует использовать различные функции, инструменты и рабочие процессы, когда вы начинаете слышать слово аналитики или слово обзора технологической системы, и, как поставщик, мы уникальны в своем положении, чтобы работать со многими разными клиентами через их ожидания в отношении рабочих процессов, а затем на стороне доставки.

Итак, мы начнем с обсуждения структурированной аналитики, перейдем к концептуальной аналитике и действительно разберем различия между TAR 1.0, TAR 2.0, выделим некоторые различия между Brainspace и релятивиями и сходства, а затем мы собираемся действительно погрузитесь в то, чтобы взглянуть на то, когда вы действительно останавливаетесь с точки зрения CAL, используя эту технологию, чтобы сократить обзор.

Таким образом, принципиально электронное обнаружение трансформировалось и трансформируется каждый день, благодаря практическому применению аналитики и, с моей точки зрения, за исключением экономии средств, реальная цель здесь заключается в том, чтобы оперативно и раньше довести актуальные факты до конкретных дел, и я знаю, что у Адама есть довольно много немного обратной связи здесь, просто из его опыта работы с очень крупными корпорациями, которые используют эти инструменты.

Адам Рубингер

Спасибо, Майк, и по мере того как eDiscovery созрела на протяжении многих лет, объемы дошли до такой степени, что практически невозможно сделать eDiscovery без использования аналитики и технического анализа. Мы наблюдаем рост и усыновление довольно быстрыми темпами. С точки зрения клиента, мы видим, что теперь клиенты начинают использовать TAR, в частности, непрерывное активное обучение, чтобы помочь как сэкономить средства, так и быстрее получить информацию, как сказал Майк. С нашей точки зрения, мы видим клиентов, которые используют аналитику таким образом, что, хотя они предназначены для этого, они используют их для того, чтобы действительно получить огромные объемы данных и сделать их более доступными, сделать их доступными для участников тяжбы, чтобы они могли построить свое дело главным образом, чтобы группы по обзору могли получить доступ к ним. к самой важной информации, а затем, в конечном счете, конечной целью является экономия средств, которая с точки зрения общей стоимости проведения обзоров и анализа документов и просеивания данных, наличия этих инструментов мы видим очень, очень измеримую и обширную экономию средств и повышение эффективности с его использованием. Таким образом, с нашей точки зрения, eDiscovery трансформируется с помощью аналитики и становится частью заявления или части рабочего процесса, который происходит ежедневно. Почти все наши клиенты так или иначе используют аналитику практически в каждом конкретном случае.

Аня, почему бы нам не начать говорить о структурированной аналитике дальше.

Аня Королев

Спасибо, Адам. Итак, как упоминали Адам и Майк, дни линейного обзора, просто линейного обзора, уже давно прошли. Все кейсы используют, по крайней мере, структурированную аналитику, и просто чтобы быстро просмотреть некоторые из основных, идентификаторы языка, я знаю, что это кажется определенным, но даже в тех случаях, когда клиент приходит к нам и говорит, что все хранители — это США, нет никаких шансов, что у нас будет другой иностранный язык, мы все еще хотели бы запустить его, чтобы дать нам более полную картину, и знать, что как только мы доберемся до части машинного обучения, с чем мы имеем дело, нужен ли нам специалист по тематике, который может говорить на иностранном языке, нужно ли нам делать переводы, очень быстро, убирать это с пути. Для почти дублирующегося анализа мы, конечно, используем его для того, чтобы просто идентифицировать почти дубликаты, чтобы убедиться, что они кодируются одинаково, все хорошее, но мы также используем ее для обучения модели, когда мы переходим к машинному обучению. Иногда мы получаем кейсы и просто не знаем, с чего начать. Все, что у нас есть, это умоляние, у нас есть несколько экспонатов, поэтому мы создаем документы и направляем их населению, а также используем почти дублирующий анализ, чтобы помочь нам идентифицировать ключевые документы раньше и получить более четкую картину и, возможно, взять нас от идентификации аналогичных документов к названию нормализации и коммуникационного инструмента в Brainspace, и с этим, как только мы запустим его, мы получаем гораздо более четкую картину, чем у нас есть, просто используя метаданные в верхней части письма, от/до. Мы получаем полный спектр тех, кто с кем общается, по каким вопросам, а также сочетание почти дублирующегося анализа и нормализации имен действительно делает нас на шаг ближе к машинному обучению и к тому, чтобы получить ключевые документы, которые мы можем использовать для обучения системы, и, конечно, мы доберемся до всех знакомы с резьбовыми сообщениями по электронной почте. Я уверен, что все, по крайней мере, видели это, и поточность по электронной почте — это когда у нас есть группа, казалось бы, не связанных с ними писем, и мы запускаем их, и мы получаем все электронные письма с инклюзивным содержанием, поэтому любое уникальное вложение или последнее электронное письмо в цепочке, и абсолютно, мы его используем для целей, как это было задумано, и у нас есть случаи, когда мы сразу же заключили соглашения о том, что мы собираемся просматривать только прилагаемые электронные письма, но есть много других способов, которые мы научились использовать потоки электронной почты и интегрировать ее в наш рабочий процесс с аналитикой по всему миру, и с этим я бы хотел передать его Сету и нашему первому опросу.

Сет Курт Шехтман

Спасибо, Аня, я это ценю. Итак, в первом опросе за прошедший год вопрос о том, как часто вы использовали резьбонарезку для организации обзора и оказания помощи в контроле качества? Теперь Роб откроет для нас опрос. По мере того как будут получены результаты, я немного расскажу, как уже упоминала Аня, у вас могут быть соглашения ESI, которые позволяют подавлять неинклюзивные сообщения, поэтому документируйте электронные письма, которые являются частью других электронных писем, что означает, что их количество включено меньше. Таким образом, если вы исключите их из обзора, содержимое в них не будет исключено из производства. Это не значит, что вы всегда это получите. Это может иметь дело с правительством, они могут не допускать этого, они могут разрешить это только в определенных ситуациях. Один из них, в частности, мы видели во втором запросе, заключается в том, что вам, возможно, не придется регистрировать неинклюзивные данные, если все их включенные кодируются как привилегированные, что сэкономит некоторое время на логирование привилегий.

Я скажу несколько предостережений о том, когда вы можете не захотеть подавлять. Так что, как я уже упоминал, подавляйте производство, то есть. Мы видели аргументы адвокатов, в частности, по поводу, может быть, сложных дел, может быть, во время показаний, когда вы не хотите показывать ответы на определенные электронные письма, поэтому все, что вы хотите показать, это меньшее, и если вы подавили их из обзора в производстве, вы, возможно, не сможете сделать это. Кроме того, вы можете потерять определенный контекст в журнале привилегий. Конечно, есть некоторые способы, которые мы разработали, разработал HaystacKid, но если вы не вырезаете документ и не регистрируете его как привилегированный, вы можете потерять информацию «Кому», «От», «CC», но если вы сможете свернуть эту информацию из этих групп потоков, в меньшей степени, в которых у нас есть системы и процессы, инструменты для этого, вы не теряете этот контент.

Итак, глядя на результаты опроса, похоже, у нас есть множество отзывов с использованием поточности, каждый отзыв составляет 30%, так что это хорошо видеть, а затем 12% не используются регулярно. Мы используем его в каждом отдельном вопросе, даже если вы не отменяете эти документы из рецензирования, но вы хотите, чтобы документы были как минимум отсортированы, когда они поступают в группу рецензирования по этим группам потоков. Многие наши обзоры, и мы поговорим об этом позже, включает TAR или CAL или отрезает рецензирование, что означает, что мы не рассматриваем каждый документ, каждый готовый документ или потенциально готовый документ. Вы будете откладывать некоторые документы, которые можно сразу же перейти к производству. Теперь есть некоторые электронные письма, в которых вы можете потерять определенные поисковые запросы или неопубликованные поисковые запросы, в частности, данные Gmail, но мы также видели это и в Microsoft, где вы теряете информацию о заголовках о тех из них, которые меньше включены, и поэтому, если вы просматриваете только документы с привилегиями, вы, безусловно, хотите убедиться, что вы вносите полные потоки, если в этом письме есть привилегия, чтобы вы не потеряли потенциально... создать привилегированный документ, думая, что у него нет унаследованных привилегированных [неразборчиво].

Другое, что мы используем и разрабатываем скрипты и инструменты, для целей контроля качества. Мы видели, как регуляторы и другие, противоположная сторона, исправления атак являются несоответствиями по группам потоков. Очевидно, мы видели, что в течение многих лет в MD5 отдельные копии документов, которые отличаются друг от друга или похожи, но с точки зрения группы потоков мы наблюдаем это все больше и больше. Трудно заметить их традиционно состоит в том, что у вас есть только группа потоков, и, как мы все знаем, разговоры могут разветваться в разных направлениях, и, казалось бы, непривилегированный документ может превратиться в частично привилегированный документ, который был передан адвокату. Наши инструменты способны определить, где эти расхождения происходят в отдельном стержне в потоке, и узнать, где у вас нет привилегированного документа или нет привилегированной части стебля, которая будет полностью привилегирована, но, скорее всего, что полностью priv или priv sithold должны были быть закодированы как priv redact, или у вас будет частичное прив или полное прив, прив удержание, попадающее в непривилегированные в пределах стебля, и, скорее всего, эти базовые привилегированные документы были выпущены и считаются не привилегированными. Итак, здесь есть отличные инструменты. Я, конечно, рекомендую поточность как минимум по каждому отдельному делу по этим причинам, и одно, о чем я не упоминал, мы говорим для сортировки, это ускоряет рассмотрение, следит за тем, чтобы одни и те же адвокаты пересматривали одни и те же разговоры снова и снова и снова, знакомы с контекстом и не должны переучите его или заучите нового человека.

Визуализация потоков, некоторые отличные инструменты. Для тех, кто изучает визуальный вид, это помогает определить, где эти консистенции видны, но опять же, несогласованность на его лице может быть не без возможности нити и убрать вниз, чтобы увидеть, где происходит эта непоследовательность по всему

Аня Королев

Спасибо, Сет, и опять же, мы не будем использовать всю эту структурированную аналитику — аналитику, основанную исключительно на задачах без каких-либо концепций, только то, что нам доступно. Мы используем их все, чтобы помочь нам добраться до того момента, когда мы начинаем машинное обучение, а также в конце процесса контроля качества, все они в совокупности действительно превращают в отличный инструмент для контроля качества. С этим мы перейдем к машинному обучению, и я хочу передать это Янга, чтобы познакомить нас с нами.

Янг Ю

Спасибо, Аня. Когда речь заходит о машинном обучении или концептуальной аналитике, существует два типа. Обучение осуществляется под наблюдением и без присмотра. Вы хотите рассматривать их как объективные и субъективные методы, которые система использует для классификации схожих пулов документов, неконтролируемое обучение будет охватывать кластеризацию и поиск концепций. Эти инструменты позволяют получить представление о концептуальном виде коллекции документов без участия рецензентов. Это очень хороший способ взглянуть на неизвестные в вашем наборе данных на высшем уровне или подтвердить любые предположения, которые вы, возможно, имели в начале проекта, потому что для этого не требуются человеческие ресурсы.

Обучение под контролем, которое охватывает ваши модели TAR и требует человеческого вклада. Решения, которые вы принимаете для быстрого реагирования, система будет классифицировать документы и оценивать их. В зависимости от выбранной модели оценки будут выложены в камень или постоянно обновляются, но баллы указывают на близость концептуального сходства с принятыми вами решениями. Как правило, более высокие баллы будут более концептуально похожи на отзывчивый документ, а более низкие баллы будут дальше от ответных решений, которые вы там приняли.

Аня, ты хочешь поговорить с кластеризацией?

Аня Королев

Да, спасибо, Янг. Итак, для изучения некоторых концепций неконтролируемого обучения, кластеризация — отличный инструмент, и я знаю, что некоторым людям не повезло с этим, но я думаю, как это было задумано и чем отличается его реальное использование. Поэтому нам нравится кластеризовать все сразу же, потому что мы обнаружили, что это помогает нам узнать наши данные, и даже если это так же базовый шаг, как и у нас есть, это целая куча назначений Outlook, и тогда нам нужно разобраться с ними, просто чтобы узнать даже понятия, а данные само по себе и, конечно же, концепции, чтобы определить схожие понятия, если у нас есть ключевые документы, если мы определили, используя структурированную аналитику, где находятся ключевые документы, что они представляют, и это помогает нам понять, где они находятся в поиске концепций, и узнать, кто такие коммуникаторы, что они о чём говорят. Это действительно помогает нам визуализировать все сразу же с летучей мыши. Это также помогает нам использовать его для сокращения объема данных, о которых нам нужно беспокоиться. Выполнив простой поиск спама по концепции спама, это пример, который мы имеем здесь, является частью данных [конечного запуска]. Таким образом, если вы просто запустите простой концептуальный поиск спама, вы получите 62 000 документов, а затем, используя возможности Brainspace, вы получите все схожие понятия, перечисленные в кластере, и вы можете просмотреть их, и вы можете очень быстро принять решение о вырезании 62 000 документов из вашего обзора и никогда не нужно беспокоиться о них, больше не смотреть на них, и это отличный инструмент для того, чтобы получить более узкую совокупность документов.

Кроме того, вернемся к использованию концептуального поиска Brainspace, который немного отличается от поиска концепции Relativity, где вы просто получаете схожие концептуальные документы. Brainspace действительно предоставляет аналогичные концепции. Итак, опять же, это восходит к всем любимым [конечным запуску] данных. Поиск миноритарного инвестора очень быстро, вы можете увидеть схожие понятия в документах, которые возвращаются для миноритарного инвестора, и любой, кто проводит какое-либо расследование, знает, что языковой друг чего-либо обычно требуется. Таким образом, мы можем выбрать его, перейти к этим документам, посмотреть, о чем они говорят, и дойти до того момента, когда мы определили ключевых людей, ключевых понятий, очень быстро используя Brainspace.

И это приводит нас к реальному обучению под контролем, но прежде чем мы доберемся до этого, мы хотим быстро узнать, что не все данные попадают в машинное обучение. Поэтому мы хотели бы поговорить о данных, которые не могут быть получены, а также о том, какие проблемы и решения у нас есть для них.

Янг Ю

Верно, и когда вы анализируете наборы данных для TAR, будь то TAR 1.0, TAR 2.0, ваши рекомендации будут очень похожи и типичные типы документов, которые рекомендуется исключить из аналитического индекса. К ним относятся документы со слишком небольшим или слишком большим количеством текста. У вас есть файлы CSV, календарь Outlook, ответы или даже приглашения, в которых нет содержимого текста сообщения; аудио, видео- или изображения, CAD-файлы относятся к этой категории. Исходный код и электронные таблицы, а при изучении этих пулов документов есть способы их включения, есть способы проверить эти документы. Если мы хотим поговорить с электронными таблицами, обычно обычная электронная таблица будет основываться на числах. Мы видели случаи, когда он очень насыщается текстом, и мы можем провести анализ, чтобы увидеть, какое соотношение альфа-символов отличается от числовых символов. Я имею в виду, что это все, что можно сделать, чтобы включить или исключить различные карманы документов. При перекодировке или расшифровке аудиофайлов этот текст может входить в него.

Здесь есть еще одна корзина, с которой мы сталкиваемся очень часто, и это будет формат коротких сообщений. И, Майк, я думаю, у вас здесь отличное решение, и вы хотите поговорить с этим немного здесь.

Майкл Сарло

Рад это сделать, Янг, и спасибо. Таким образом, альтернативные типы данных — новый любимый предмет. В eDiscovery я думаю, что нас бомбит новыми источниками данных, которые выходят за рамки типичных парадигм электронной почты, и просто типичные электронные документы из общих сетевых ресурсов и компьютеров. Такие типы платформ, как Slack и Teams, и просто приложения для чата, и просто другие типы данных, которые не обязательно поддаются содержанию приятной, упакованной границы вокруг идей внутри них, очень похожих на документ Word или строку электронной почты, стали гораздо более распространенными на самом деле с самого начала пандемии, и сейчас, когда мы закончили ее около года, почти каждая организация, большая или маленькая, использует эти инструменты для повышения способности своих удаленных команд работать вместе. Одна из больших проблем здесь заключается в коротком типе данных формата сообщений, таких как чаты и тексты. Обычно мы пишем не так, как для электронной почты. Они короткие, иногда мы не используем существительное, иногда есть смайлики. Основная проблема здесь заключается в том, что недостаточно того, что я называю концептуальной плотностью в одном текстовом файле, чтобы аналитические движки могли понять и учиться у отдельных лиц, например текстовой строки.

Поэтому с точки зрения сбора и производства мы обычно рекомендуем нашим клиентам использовать Slack или Teams пытаться объединить каналы и контент на круглосуточной основе. Однако мы начинаем думать о том, как добраться до таких типов коммуникаций через любую аналитическую платформу, которой иногда бывает недостаточно текста. Итак, у нас есть некоторые проприетарные инструменты и код, которые мы разработали для измерения и проверки эффективности создания того, что я бы назвал готовыми к аналитике в моих тестовых файлах, используя отдельные поля реляционного характера, где у нас может быть текстовый файл, специфичный для загрузки в Brainspace или Relativity, NexLP, любой инструмент это будет читать текст, который служит второстепенной ориентиром для этих движков, чтобы иметь немного больше концептуальной плотности, а затем они могут пройти процесс TAR, и мы получим довольно хорошие результаты здесь. Когда мы идем на производство, мы можем начать производить продукцию на любой частоте, которую хотели бы наши клиенты, поскольку мы используем это вторичное реляционное поле для отпор этим решениям.

Здесь нужно быть осторожным. Очевидно, что каждый раз, когда вы вводите сложность процесса проверки с помощью технологий, вы должны быть готовы подтвердить качество этого фактического рабочего процесса. Таким образом, у нас есть много возможностей использовать статистическую выборку чувствительных и нереагирующих групп населения после TAR по этим типам данных, чтобы затем иметь возможность работать с сторонними консультантами, чтобы я мог утешить, что этот процесс работает так, как они ожидали.

Точно так же, для мобильных телефонных чатов это очень похоже, и мы всегда стараемся убедиться, что они готовы к анализу и текстовые файлы совпадают с конкретными участниками, и то же самое для чатов, таких как Bloomberg или что-то еще, будет обрабатываться аналогичным образом. Это было огромным в некоторых вопросах для нас, где у нас было [точечное] население, составляющее десятки миллионов 24-часовых коммуникационных строк, мультитерабайты становятся все более распространенными на крупных предприятиях, что позволяет работать с данными через технологический процесс проверки во втором запросе, что было довольно беспрецедентный. Министерство юстиции действительно работало с нами над этими рабочими процессами, и они были довольны этим, что, как я понимаю, впервые. Таким образом, мы делаем это больше в гражданских судебных разбирательствах, мы делаем это в целом, и у нас есть только много документации, готовой для того, чтобы наши клиенты могли, на самом деле, предоставить им отчет об обороне и на повторяемой основе, когда наборы данных перемещаются и расширяются на протяжении всей жизни дела, а это важно, потому что иногда вы начинаете с одной популяции, и в конечном итоге вы добавляете больше, и я уверен, что Аня и Янг действительно будут копаться, как только мы начнем разрушать рабочие процессы в TAR 1.0 и TAR 2.0.

Аня Королев

Спасибо, Майк. Я думаю, что формат коротких сообщений сейчас очень интересный, как вы сказали: МЮ участвует в принятии решений, что приемлемо, а что нет, и использование TAR в коротких сообщениях, это очень интересное время для этого. Я хочу вернуться на секунду к кластеризации и сказать, что мы использовали кластеризацию, и это немного помогло нам с краткосрочными сообщениями из-за того, как они структурированы, и так много для Teams, для Slack, так много людей, которые входят в комнату и выходят из комнаты, что во многих случаях имена люди становятся концепциями. Итак, это отличная... кластеризация, это отличный инструмент, помогающий нам определить это.

А теперь давайте перейдем к другой интересной части этой презентации — это обучение под наблюдением и наш следующий опрос. За последний год какой процент вопросов потребовал пересмотра, для которого вы использовали TAR 1.0 или TAR 2.0? У каждого есть свои предпочтения. Я просто начну разбираться в том, что такое TAR 1.0 и TAR 2.0 для тех людей, которые присоединились к нам, которые не знают, и некоторые проблемы, с которыми мы сталкиваемся в обоих рабочих процессах.

И при этом наша самая первая задача всегда заключается в определении актуальности, и Янг возьмет на себя эту задачу.

Янг Ю

Таким образом, когда вы начинаете любой TAR проект, будь то TAR 1.0 с обучением на основе образцов или TAR 2.0 с активным обучением, вы должны определить актуальность. Это должно быть бинарное решение, то есть выбор «да» или «нет». Вы не хотите быть слишком узкими, потому что вы пропустите периферийную или часть... документов, которые частично реагируют на них, а затем они меняются аналогичным образом. Если вы слишком широки в своем определении отзывчивости, система будет полностью инклюзивной и вернет почти все, что касается принимаемых вами решений. По мере прохождения процесса, когда вы определяете быстродействие, вам действительно нужно думать о концептуальных связях между документами, и это отклонение от линейного обзора, когда вы не рассматриваете целое семейство документов. Каждый документ должен считаться отдельной записью, и решение об отзывчивости должно приниматься по номиналу в четырех углах соответствующего документа, который вы рассматриваете. И по мере того, как вы проходите этот процесс, это определение оперативности или релевантности является огромным, потому что это показатель процесса TAR. В TAR 1.0 точность будет измеряться с вашим определением быстродействия. Все баллы напрямую коррелируют с этим определением отзывчивости. К сожалению, если у вас есть сдвиг в области охвата этого определения отзывчивости, скажем, вы узнаете что-то позже, или вы завершили свой проект, и теперь они спрашивают, что отличается от регулятора или позирования, вам нужно научиться менять или изменить это определение отзывчивости. Иногда вы можете просто взять с того места, где остановились, и расширить сферу охвата, и иногда вам придется начинать весь проект заново. Это действительно зависит от того, насколько хорошо вы определяете актуальность и оперативность на раннем этапе.

Аня Королев

Я согласен с вами в том, что это одно из самых важных решений, и даже после того, как вы приняли решение, с каким из них идти, я думаю, что это по-прежнему [неразборчиво] в том, где вы находитесь в вашем проекте.

Спасибо всем за то, что присоединились к призыву, и, похоже, половина воспользовалась им. Я все еще буду переходить к определению и только общему рабочему процессу. Итак, у нас есть блок-схема TAR 1.0, и опять же, я хочу коснуться базы, что будут документы, которые Янг обсуждал и которые не будут частью всего рабочего процесса; документы исключения, JPG, потенциально электронные таблицы, подобные тому. Итак, как только у нас будет индекс без исключающих документов, которые все еще могут быть рассмотрены, у нас есть предметный эксперт, которому нужно будет проверить набор управления, и как только набор управления будет рассмотрен, мы дойдем до того момента, когда уровень погрешности был достигнут или нет, и это где определение актуальности действительно вступает в силу. Потому что если у вас очень низкое богатство данных, предметный эксперт потратит много времени в этом цикле, где нам придется просмотреть дополнительные документы, чтобы контрольный набор был закрыт.

Итак, это очень важно, и на самом деле, я думаю, именно здесь, даже здесь вы можете сказать, знаете что, может быть, TAR 1.0 был для меня не лучшим вариантом. Мне нужно перейти в TAR 2.0. Но как только вы достигли этого уровня погрешности и переходите к тренировочным раундам, обычно мы видим от одного до пяти тренировочных раундов, и обычно они варьируются от 300 до 500 документов. Опять же, все это зависит от данных. Если мы начнем с 10 миллионов документов, то учебные туры будут немного другими. И вы продолжаете тренировочные раунды до тех пор, пока не достигните желаемой точности и стабильности, и это означает, что это зависит от конкретного случая. Возможно, есть противоположный адвокат, который хочет посмотреть отчеты и посмотреть, где вы находитесь. Возможно, есть Министерство юстиции, и они хотят знать, где вы находитесь, и вы никогда не доберетесь до того, что все рекомендуют. Относительность, Brainspace, все эксперты рекомендуют добираться до 65, 70%. Возможно, вы никогда не доберетесь туда. У вас может быть 40% или что-то в этом роде, но вы просто не двигаетесь, у вас будет постоянно около 40%, и именно там вы находитесь, и тогда вы принимаете решение остановиться и продолжить, кодируете ваши документы как отзывчивые, неотзывчивые и переходите к проверке привилегий. Таким образом, вам нужно убедиться, что вы просматриваете данные, просматриваете отчеты и принимаете обоснованные решения с помощью TAR 1.0.

Что касается учебных туров, то мы в HaystacKid используем Relativity и Brainspace, которые, по нашему мнению, являются одними из лучших продуктов для рабочего процесса TAR 1.0, а с Relativity у вас есть некоторые варианты. У вас есть базовая статистика, которая обычно составляет около 300 документов; у вас есть свой процент, где вы указываете системе процент документов, которые вы хотите использовать в учебных раундах; и, конечно, у вас есть фиксированная выборка. У вас стратифицированный, вероятно, один из лучших, потому что он будет делать, так это будет идентифицировать документы. Он определит документы, которые в основном связаны в концепциях с документами, которые вы уже закодировали в ходе предыдущих учебных раундов, а также позаботится о том, чтобы они охватывали самую большую совокупность документов. Таким образом, каждый учебный тур будет предоставлять документы, которые будут выполнять концепции в самые большие пулы документов, которые у вас еще остались.

На наш взгляд, то, что сделал Brainspace, это сделал еще один шаг вперед. Он имеет три разных вида тренировочных раундов для стратифицированной относительности. Таким образом, у вас есть свой влиятельный, который вы больше всего используете, и самый похожий на него слишком стратифицированный. То же самое; он просто выберет наиболее близкие документы и попытается охватить как можно больше людей, которых вы оставили. А затем вы быстро активны и разнообразны, и, по нашему опыту, мы обнаружили, что чем больше наборов данных, тем больше результатов мы получаем благодаря быстрому активному и разнообразному активному. Мы несколько раз пользовались влиятельными и не видели абсолютно никаких движений, а затем переключились и получили огромные прыжки. Опять же, это всегда данные, которые говорят с вами, всегда то, что находится перед вами. Вы должны действительно прочитать эти отчеты и проанализировать их, а не просто сказать: хорошо, это рекомендуемый подход, и я пойду с ним.

Есть также случайный, который опять же является фиксированным образцом и случайным, с Brainspace позволяет создать блокнот, и он может... при создании блокнота вы можете вставить документы, которые, по вашему мнению, являются наиболее важными в вашем случае. Таким образом, если вы что-то обнаружили, вы можете разместить их туда, самые неотзывчивые, наиболее отзывчивые, но вы должны быть очень осторожны, потому что, особенно когда вы имеете дело с государственным учреждением, будет проходить сертификация процесса. Таким образом, вы должны быть очень осторожны в том, как сформулированы сертификаты и какую именно вы используете.

Очень быстро просто переходить между Brainspace и Relativity, что может помочь вам решить, какой из них вы хотите попробовать. Отчеты в Brainspace — я не хочу говорить слово «базовый», но он просто дает вам информацию о том, где вы находитесь в процессе. Таким образом, вы получите электронную таблицу Excel, в которой будут перечислены контрольные раунды, тренировочные площадки, и с каждым раундом вы просто вытягиваете отчет за этот раунд. Отчеты по относительности немного причудливее. Это всего лишь две вещи, которые он предоставляет, и вы можете немного поправиться, особенно если вы являетесь юридическим лицом, и у вас есть юридическая команда, спрашивающая вас, где мы находимся? Сколько еще документов? Сколько из них не относится к категории? Немного проще просто получить эту информацию с помощью Relativity.

Опять же, многое зависит от того, будете ли вы передавать отчеты противоборствующей стороне или правительству, поэтому вам придется принять такое решение. Я думаю, что оба инструмента отлично подходят. По нашему опыту, мы использовали как TAR 1.0 с большими наборами данных, и мы считаем, что мы получили довольно хорошие результаты, даже когда мы перешли к привилегированному обзору и провели немного контроля качества того, что считалось неотзывчивым. Мы добились очень хороших результатов, используя оба инструмента.

Янг Ю

Аня, один из вопросов, которые мы получили от аудитории, заключается в том, есть ли случаи, когда вы рекомендуете TAR 1.0 по сравнению с TAR 2.0?

Я могу придумать пару, о которой я хотел бы упомянуть, и любой другой, безусловно, может перезвонить.

Аня Королев

Я просто хотел осветить рабочий процесс TAR 2.0, и тогда мы определенно перейдем к этому и расскажем о плюсах и минусах, а когда мы порекомендуем один или другой чуть позже.

Так что, очень быстро, непрерывное активное обучение TAR 2.0. Опять же, у вас всегда будут документы, которые являются исключениями. Вам все равно придется их просмотреть, имейте это в виду. Но вместо того, чтобы иметь контрольный набор, тренировочные раунды, в идеале, вы хотели бы иметь эксперта по предмету или кого-то или иметь ключевые документы, которые начнут это делать. Желательно, чтобы 100-500 документов в зависимости от вашего населения. А затем у вас есть команда по обзору, которая начинает обучать модель, что является отзывчивым, что не реагирует. Таким образом, он постоянно учится на каждом принятом решении.

А затем вы доходите до того момента, когда вы либо видите явный разрыв между отзывчивым и неотзывчивым, либо вы доходите до того момента, когда вы больше не видите никаких отзывчивых документов, и вы говорите: «Хорошо, я думаю, я закончил, и я собираюсь выполнить тест на улабление контроля качества и посмотреть, есть ли что-то отзывчивое, а затем вы закрываете из проекта, и вы либо перешли на привилегированное рецензирование, либо проект завершён.

Опять же, по нашему опыту работы с CAL, Relativity была лучшей платформой, потому что все это в Relativity, но мы также видели очень хорошие результаты с Brainspace, немного больше работы над продавцом, и мы действительно не возражаем. И мы использовали TAR 2.0 в традиционном смысле в рабочем процессе, который вы видите перед собой (рекомендуемый рабочий процесс), что означает обзор до тех пор, пока вы не доберетесь до того момента, когда вы больше не видите никаких адаптивных документов.

И тогда я хотел бы перейти к следующему вопросу опроса, который является нашим последним опросом: «Какой процент вопросов, использующих TAR 2.0, используют рабочий процесс, в котором обучается алгоритм обучения, и обзор отрезается перед тем, как смотреть на все готовые отвечающие документы?»

То есть, что означает — вернуться к моему слайду — это ваш традиционный вариант... если были какие-либо обзоры, где вы использовали альтернативное решение, вы начали искать то, что, по мнению системы, не реагирует, или вы просто продолжали работать с рекомендуемым рабочим процессом.

Сет Курт Шехтман

Я думаю, что главное, Аня, заключается в том, что когда у вас большие объемы данных и вы выполняете их через CAL, хотите ли вы продолжать проверять, был ли алгоритм обучен. Возникает вопрос, хотите ли вы просмотреть миллион документов, даже если он низкий [неразборчиво], потому что для начала у вас такой большой набор. Зачем продолжать, если документы не нужно выпускать в коде или проверке по [неразборчиво] или по другим причинам. Почему бы не остановиться?

Аня Королев

Конечно, определенно. Существует множество соображений, связанных с TAR 2.0, которые вы должны держать в заднем уме, и они перечислены здесь. Некоторые из них — семьи и привилегии, которые идут рука об руку. Озабочены ли мы о том, что привилегии должны осуществляться всей семьей? Собираемся ли мы провести отдельную привилегированную проверку или просто верим, что привилегия основана на четырех углах документа? Это, безусловно, соображение.

Еще один, о котором Сет только что поднял, — сколько документов мы начинаем. По нашему опыту и всему, что я там читаю, все технические документы, написанные с CAL, обычно в конечном итоге пересматриваются примерно 15-20% вашего населения, конечно, в зависимости от богатства, чтобы вернуться к тому, что Янг сказал об актуальности. Но что, если вы начинаете с 10 миллионов документов? 15-20% этого числа все еще достаточно велики. У вас есть время для прохождения всех этих документов? Есть ли у вас ресурсы для проверки всех этих документов? Или вы посмотрите на данные в какой-то момент и говорите, что это мои факты, вот где я нахожусь, у меня есть столько документов, которые система уже считает отзывчивыми, у меня есть столько денег, которые мой клиент готов заплатить, и какое решение я принимаю на данный момент? Продолжаю ли я или отрежу его?

Эта часть отрезания или начала переходить к тому, что система считает неотзывчивыми документами, является разговором, который мы часто проводим с нашими клиентами, потому что они хотят этого сделать. Они хотят закрыть это. Они готовы к работе. Это некая борьба за то, чтобы рекомендовать то или иное, потому что мы можем представить им факты, но они должны принять это решение для себя и в том, где они находятся в судебном процессе.

Янг, Сет, я знаю, что вы, ребята, много опыта здесь рекомендуете отсечки и решаете, что мы здесь будем делать.

Янг Ю

Здесь вы можете использовать различные методологии. С любой активной моделью обучения вы увидите резкое падение или, скажем, в идеальном случае, верно. Но эта презентация называется TAR в реальном мире, вы, возможно, никогда не увидите такого резкого падения. У вас может быть устойчивый балл, нет пробелов в середине, нет четкого отрыва от отзывчивости и нет. Итак, чем ты занимаешься?

Скажем... я просто выкину цифры. Допустим, у вас 65 баллов, и мы считаем, что адаптивная граница, рекомендация от нас будет: «Эй, почему бы вам не сделать выборку от 55 до 64 и не посмотреть, какова скорость отклика, мы сделаем случайную выборку из этого пула, или это не обязательно должно быть случайным, вы можете использовать любую своего рода методология, при условии, что она документирована и повторяется». Вы делаете выборку, и если все цифры имеют смысл и вы можете сказать: ОК, это 65 - хорошее число, мы просмотрели это, мы просмотрели это, и все это имеет смысл, нет причин, почему вы не могли остановиться на 65.

Скажем, все наоборот, и вы взяли выборку из 55-64, и ваша скорость отклика выше, чем должно быть, вам придется просто продолжать обзор или сказать: «Хорошо, мы не можем использовать 65 в качестве отсечки, что произойдет, если мы снизимся до 60?» Все эти решения должны быть учтены и взвешены. Вы должны учитывать, какое количество или богатство вы оцениваете в процентном соотношении адаптивных документов в наборе данных. Его оценка... потому что если бы мы знали, что это такое... все это было бы, вы нажимаете кнопку и все готово.

Аня Королев

Я смотрю на результаты опроса и вижу, что немногие люди отрезают его, прежде чем они положили глаза и все такое. Это здорово знать. Спасибо, Янг.

Это всего лишь обзор TAR 1.0/TAR 2.0, и теперь, когда вы проделали всю эту работу, в вашем случае она закончила, что вы делаете с результатами и сохраняете ли вы их для будущего использования. И это приводит нас к портативным моделям.

Янг Ю

Верно, так что в зависимости от используемого приложения вы сможете повторно использовать весь рабочий продукт, который был введён в этот процесс. Но здесь есть некоторые предостережения. Как правило, мы хотели бы сделать или что мы рекомендуем здесь, — это создать модель, которая, если вы собираетесь построить многоразовую модель, вы хотите создать ее по конкретным темам. Если у вас есть серийные тяжбы, которые всегда участвуют в одном и том же типе судебных разбирательств. Если речь идет о конкретном типе судебных разбирательств, таких как трудоустройство или FCPA, антимонопольное право или создание модели для выявления нежелательных сообщений или автоответов, потенциально привилегированные. Все это очень и очень специфично для того, что вы хотите построить. Но если вы построите тот, который работает, вы можете применять его снова и снова.

Теперь каждый набор данных отличается, и все эти факторы должны взвешиваться, но если у вас есть клиент, и вы близки к его данным, и привилегии всегда будут одинаковыми, нежелательная связь всегда будет одинаковой. Или вот пять типов судебных разбирательств, с которыми каждый клиент сталкивается каждый день, и вы сможете построить модель вокруг этого. И когда у вас есть эта модель, это отличное место для начала. Вы уже проделали работу за кулисами; вы можете применить эту модель к этому набору данных, и это дает вам возможность начать. Это не означает, что процесс будет завершен на 100%, но он дает вам прекрасную информацию, а также по мере совершенствования модели, поскольку вы собираетесь продолжать работать там, вы сможете доработать эту модель и действительно создать что-то, что даст вам 60-70% пути туда с первого дня.

Сет Курт Шехтман

Эй, Адам, почему бы тебе не проникнуть сюда и не поговорить о том, как клиенты обращаются к этому, спрашивая о наших способностях здесь.

Адам Рубингер

Да, и я думаю, что клиенты, безусловно, ищут способы повторного использования рабочего продукта от хэш-баз данных MD5 до использования портативных моделей, когда у вас есть такие повторные хранители, повторяющиеся проблемы. Я думаю, что есть прекрасная возможность добиться дальнейшей экономии за счет повторного использования этих типов информации, в частности классификаторов, и мы начинаем видеть, что это происходит. Это вроде как только начинается. Я думаю, что технология развивается до такой степени, что она становится полезной и способной, поэтому я верю, что мы увидим гораздо больше использования повторного использования данных и тому подобное.

Аня Королев

Спасибо, Адам и Янг. И теперь это подводит нас к разнице между TAR 1.0 и TAR 2.0 и тем, какие из них мы обычно рекомендуем, что, на мой взгляд, является одним из вопросов, которые нам задают.

И я как-то осветил некоторые различия. Опять же, TAR 1.0, у вас есть один или два эксперта по тематике, которые кодируют документы. Стоимость в одной точке минимальна. С другой стороны, предметный эксперт стоит немного дороже, чем решение для управляемого анализа.

Существует непрерывное активное обучение. У вас много людей, которые принимают решения, и это не всегда самое лучшее. Чем больше людей у вас, тем больше интерпретации того, что реагирует на этот проект. Но в то же время это позволяет научиться новому отзывчивости. Документы появляются во время проверки, и это может измениться. То, что не считалось отзывчивым, вы находите электронное письмо и говорите: «О, это то, о чем они говорят, о да, это определенно отзывчиво», и вы обновляете систему, и она позволяет учиться.

Итак, опять же, все зависит от того, с каким делом вы имеете дело и с какими сроками вы имеете дело. Какой у вас бюджет? Все эти вопросы нужно задавать, и мы всегда задаем их нашим клиентам, потому что это и будет стимулировать решение. Если у вас есть Второй запрос эпических масштабов и у вас есть три месяца [неразборчиво], если у вас есть даже три месяца, чтобы просмотреть миллионы документов, и вы должны рассмотреть вопрос не только для того, чтобы ответить, но и учитывать привилегии, и вы должны рассмотреть вопрос о поиске ключевых документов о слияние, вы как бы собираетесь пойти с TAR 1.0, потому что вы просто хотите туда попасть, вы хотите его запрограммировать, вы хотите сказать: «Это население, которое отзывчиво, я существенно соблюдаю, я ясно, я хорош, я не хочу постоянно учиться, я не хочу знать, я смываю руки от это».

В другом случае у вас есть дело, которое не спешит и немного ниже на стороне данных, и вы не представляете, что вы ищете, у вас очень мало ключевых документов, и вы хотите знать, что будут показывать данные, и вы ожидаете, что реакция изменится, и это следственный вопрос. В этом случае мы обязательно порекомендуем TAR 2.0.

Мы не говорим, что один лучше другого. У нас были случаи, и Сет и Янг могут говорить об этом, где мы начали с TAR 1.0, потому что именно это предпочитал клиент, а затем мы дошли до того, что мы не добились абсолютно никакого прогресса в версии 1.0, потому что богатство было очень низким. И мы сказали, что на данный момент мы чувствуем, что вы просто тратите деньги без причины, рассматривая эти документы, давайте переместим это в обзор, когда все будет сказано и сделано, мы думаем, что мы действительно сэкономим вам деньги, перейдя на TAR 2.0 и фактически создав гибридную модель между двумя».

Янг Ю

Просто вернемся к вопросу, когда мы рекомендуем TAR 1.0 по сравнению с TAR 2.0, каждый случай отличается, временная шкала, определенно, любые сроки сильно повлияют на принятое решение, но я думаю, что более важно, это будет богатство этого набора данных. Если вы говорите, что 40-50% этого набора данных будут адаптивными, действительно ли вы хотите перейти к активной модели обучения и попытаться выяснить, где можно сократить или получить этот процент.

Если насыщенность очень низкая, скажем, она меньше 10%, есть вероятность, что во время набора управления вы не найдете адаптивных документов, поэтому вам придется продолжать вытягивать дополнительные документы в свой набор управления. Этот набор управления может продолжаться очень долго, пока у вас не будет достаточного количества адаптивных документов.

Это относится к другому вопросу. «В чем разница между контрольным набором и тренировочными раундами?»

Набор управления будет случайным вытягиванием документов, и это показатель, с которым сравниваются учебные раунды. Это случайный набор документов. Количество документов будет зависеть от вашей уверенности и погрешности. В некоторых приложениях подразумевается, что богатство влияет на это. Brainspace, безусловно, учитывает это. Есть и другие приложения, которые этого не делают. Но если говорить о рекомендациях между TAR 1.0 и TAR 2.0, это действительно знакомство с вашими данными. Скорость отклика, концептуальное разнообразие, сроки, бюджет — все это будет учитывать в этом решении.

Сет Курт Шехтман

И одно, Янг, что я добавлю с точки зрения рецензирования, нужны ли все документы [проверки на выдачу]? Если вы так и есть, то вы должны просмотреть их все так, как вы посмотрите на это. Мы не часто это видим. Вторые запросы и более крупные вопросы, которые у нас есть, они просто выйдут прямо за дверь, не приглядывая на них, что-то [неразборчивое] для привилегий, PII или горячих терминов, но вы должны выдать метку, вы должны взглянуть на все из них. Таким образом, вы используете TAR 1.0 или пытаетесь использовать 2.0, чтобы отрезать обзор до того, как вы изучите все потенциально воспроизводимые, этого не произойдет.

Аня Королев

Спасибо вам обоим. И с этим я хотел бы узнать, что интересует многих людей, и одним из главных решений, которое играет роль, является стоимость. Сколько вы экономите, используя каждый из этих инструментов? Я передам их Майку и Адаму, чтобы поговорить об этом.

Майкл Сарло

Стоимость проверки. Например, у нас есть случай, когда у нас было почти 2,9 миллиона документов, которые были в обзорной группе. В состоянии рассмотреть только 12 000 из тех, кто хочет обучить модель, определить быстроту реагирования, экономия средств в миллионах на высоком уровне, а в некоторых случаях — 8 миллионов долларов США на более сложные вопросы.

Почти во всех случаях вы всегда сможете добиться экономии средств с помощью TAR или CAL, и эти презентации будут доступны для загрузки, все записывается, если вас интересуют хорошие показатели, и мы с радостью рассмотрим детализированность любого из этих тематических исследований.

В частности, дело № 1 является одним из тех случаев, когда нам удалось запустить данные Slack через модель TAR в согласованный протокол с Министерством юстиции. Таким образом, многие из этих документов содержат много, много и гораздо более мелких сообщений, потому что опять же, мы работали с объединенными текстовыми файлами, готовыми к вторичной аналитике, которые мы создаем с помощью наших пользовательских алгоритмов.

Я всегда призываю своих клиентов рассмотреть возможность использования TAR или использования CAL и просто вернуться к действительно просто, в общем... вы можете использовать эти инструменты, безусловно, для контроля качества. Эти инструменты можно использовать для поиска других интересующих вас документов. Вы можете делать фиды. Пакетные документы можно выполнять на разных уровнях интервала [конференции, например]. Существует множество различных способов использования обзоров с помощью технологий для улучшения любого обзора как с точки зрения качества, контроля качества, так и снижения рисков, а также для того, чтобы помочь вам найти эти документы типа «иглы в хайстакиде».

И даже возвращаться к классификаторам и тому подобное, возможность вынимать их из дела в конкретный случай на уровне отдельных клиентов — это здорово, но теперь нас также просят использовать эти типы инструментов с точки зрения соответствия нормативным требованиям для организаций, которые пытаются определить риски как таковы. происходит. Мы действительно используем базовый текст для содействия более полному соответствию нормативным требованиям, еженедельно анализируя электронную почту или находим ключевые концепции.

Я призываю всех мыслить нестандартно и здесь, потому что вы можете предоставить своим клиентам большую ценность, когда начинаете думать о расширенных приложениях Technology Assisted Review.

Аня Королев

Спасибо, Майк. И я просто хочу вернуть его Адаму, чтобы покрыть расходы на CAL.

Адам Рубингер

И одним из интересных отличий между этими двумя таблицами является теоретический курс TAR 1.0, а затем своего рода стоп-обзор и прогнозирование системы. С помощью CAL, как описали Аня, Янг и Сет, вы ставите группу рецензентов по этому вопросу, и они начинают анализировать, и по мере того, как система учится, вы переходите от очень отзывчивых документов к очень неотзывчивым документам. Эти реальные примеры иллюстрируют, как мы начинаем с довольно большого массива данных, и есть несколько интересных выбросов. Поскольку цифры ниже, можно заметить, что для стабилизации системы и поиска точки, где можно отрезать обзор, требуется больше времени. Как показывают большие цифры, вы можете увидеть значительную экономию, используя эту стратегию, особенно когда у вас действительно мало богатства, и вам все еще нужно провести анализ веществ, чтобы построить свое дело и классифицировать документы и посмотреть на них во время создания своего производства наборы и тому подобное.

Во всех случаях мы видим, как TAR 1.0 и TAR 2.0 экономят значительные суммы денег, что делает ее абсолютно достойной даже в самых маленьких случаях.

Аня Королев

Спасибо, Адам. Только с этим, и я думаю, что следующий слайд также будет отвечать на некоторые вопросы. Что дальше в аналитике?

Теперь, когда мы здесь, что будет дальше? И я думаю, первое, что

гибридной модели переходит к тому, что такое TAR 3.0, и я думаю, что Brainspace действительно делает большие волны там, поэтому Янг, если вы хотите взять на себя любимую тему.

Янг Ю

Итак, Brainspace в последней версии представила реализацию набора управления независимо от того, идет ли речь о активном обучении или TAR 1.0. Что на самом деле означает активное обучение, так это то, что вы можете легко получить... Вы можете легко измерить точность отзыва. Как правило, это немного сложнее, математика определенно может быть проработана, она немного ручная, но она дает вам такой же вид и ощущение, как если бы вы выполняли прогнозное кодирование или проект TAR 1.0.

Что это означает для TAR 1.0? Если у вас произошел сдвиг в отзывчивости или скорость отклика изменяется со временем, вы можете добавить другой набор управления, который будет использоваться в качестве второй меры. Он позволяет гибко перейти от TAR 1.0 к TAR 2.0 или в любом нечетном сценарии перейти от TAR 2.0 до TAR 1.0, но это дает вам больше видимости метрик.

Есть несколько вопросов, которые касаются этого. Аня, ты не возражаешь, если я просто пройду их очень быстро?

Аня Королев

Конечно, продолжайте.

Янг Ю

Итак, первый из них: «Принятый отзыв около 80% является оправданным».

80% — это как бы высокий уровень. Как правило, мы рекомендуем отозвать около 75%. Это качели, чем выше отзыв, вы имеете компромисс с точностью. Обычно принято 75%. Если это выше, с большим запасом погрешности или, скажем, более высоким уровнем доверия и меньшим запасом погрешности, это не способствует TAR 1.0. Это означает, что вам придется просмотреть гораздо больше документов.

Для предложенных размеров данных, сколько документов необходимо обучить, это пропорционально. Когда вы смотрите на эти цифры, богатство, безусловно, вступает в игру. В той мере, в какой у вас есть соглашение с противоположными или регулирующими органами, это пропорциональность. Если у вас есть 3 миллиона документов, сколько решений нужно принять, чтобы можно было сказать, что мы обучили модель. В сценарии TAR 1.0 вы хотите достичь стабилизации. Стабилизация — это место, где вы больше не видите огромных изменений в точности и глубине. То есть, что вы принимаете решения, являются последовательными, вы не видите, что точность достигает 55-60% до 70%, у вас почти как среднелинейное среднее значение.

В активном обучении отрасль вроде как читает это примерно от 10 до 15% вашего населения, прежде чем вы достаточно обучили модель. Предусмотренным здесь всегда будет концептуальное разнообразие. Таким образом, вы знаете только то, что знаете. Когда вы оцениваете отзывчивость на концепцию, с которой вы раньше не сталкивались, сколько из этих понятий существует. Поэтому кластеризация и поиск концепций, которые мы рекомендуем заранее, играют важную роль в этом. Если вы можете сказать, что вы сделали свой спред, вы сделали свой охват, и мы знаем 90-95% понятий в нашей совокупности данных, 10% это может работать. Опять же, каждый набор данных отличается, и я ненавижу давать ответ «это зависит», но есть несколько факторов, которые вам нужно принять. Это также причина, по которой, когда вы проходите процесс, имеете эксперта по предмету, который может подтвердить процесс, задокументировать процесс и представить его, это очень важно иметь.

Аня, я не хотела выходить за пределы темы, продолжайте.

Аня Королев

Нет, нет, все в порядке. Поскольку мы уже задали вопросы, я просто хочу сказать: «Это почти дубликат такой же, как найти похожий?»

Это не одно и то же. Близлежащие дубликаты основаны только на тексте документа. В ходе анализа будет взят фактический текст документа и сравнение фактических слов по всему документу. Он найдет документ, в котором больше всего текста, а затем ранжируют все остальные документы на процент, аналогичный тем. Поиск похожих — это скорее концепция «аналитики», где он найдет концептуально схожие документы, а не обязательно похожие на текст документы.

Я думаю, что Сет отлично ответит на актуальный и отзывчивый вопрос.

Сет Курт Шехтман

Я добеюсь до этого. Только на один вопрос, на который ответил Янг, так что, я думаю, был вопрос между обзором руководства человеком и компьютерным обзором.

Если предположить, что люди [неразборчивы] для любого обзора, каждого документа и независимо от того, выполняли ли вы поисковые термины или нет, и они нашли 100%, тогда вы скажете, что алгоритмы найдут 80%, а может быть, в лучшем случае, 90% — лучшее, что вы когда-либо видели. Сколько стоит найти другие документы? Это то, что и сводится к этому. Это сводится к пропорциональности. Вы тратите кучу и кучу денег, проливаясь через 95, 98, 99 не отвечающие требованиям документы, чтобы найти другие отзывчивые документы? Это то, к чему на самом деле сводится. Ответ заключается в том, что вы должны найти все, потому что — я скажу, что это дело «сделай или перерыв» или потому, что это, я не знаю, может быть, внутреннее расследование и один документ могут изменить ситуацию, тогда, возможно, вы захотите просмотреть каждый из них. Возможно, вы хотите найти все. Это зависит от того, какова стоимость и сможете ли вы заставить другую сторону правительства согласиться на эти вещи. TAR хорошо признается в прецедентном праве. Вы хотите использовать его для экономии денег, но в некоторых случаях, когда вы не захотите использовать его.

Обращаясь к вопросу о актуальности и быстроте реагирования. Один из моих любимых вопросов в обзоре. Я скажу, что это зависит от этого. Актуальность более широка. Реагируемость узкая. Когда вы получаете запрос на производство, они запрашивают вещи, которые отвечают требованиям. Это не значит, что они оставили целую кучу вещей, которые могут иметь отношение к делу, относящиеся к делу, имеющие отношение к делу, но они просто не просили об этом. Когда вы тренируете алгоритм, если закончится, мы создаем этот набор, независимо от того, отрезаем ли мы обзор или нет, вы хотите работать с отзывчивостью, верно, потому что это то, на что они имели право. Вы не хотите давать другой стороне все другие вещи, которые могут быть связаны с делом, но могут быть неотзывчивыми. В частности, вы не хотите быть слишком широкими в своих постановках, но отличный вопрос, и я надеюсь, что я ответил на него.

Янг Ю

Итак, на другой вопрос, связанный с переговорами с протоколами TAR ESI. Точность и отзыв. Мой ответ здесь будет неответом. Я ничего не обещаю. Напомним, 75% — это приемлемый допуск. Для точности это более трудный вопрос. На самом деле, это будет зависеть от того, сколько отзывов вы хотите сделать. Кроме того, определение отзывчивости будет играть там тяжелую. Допустимая точность. В целом, мне бы хотелось видеть точность выше 65%, именно это я и ищу. Не все корпуса построены одинаково. Не все наборы данных построены одинаково. Мы видели как минимум 20 лет, высокие подростки, и мы все еще можем получить одобрение на этот процесс. Так что, с точки зрения переговоров, я бы не стал цементировать точность в камне.

TAR 3.0, мы можем подождать, пока Майк поговорит с некоторыми другими «Что дальше в аналитике».

Аня Королев

И просто вернуться к тому, что приемлемо, а что нет. Конечно, у нас были случаи, когда, как сказал Янг, мы всегда в HaystacKid рекомендуем 65, но у нас были дела, которые никогда не превышали 23, 24, но мы достигли стабилизации, и мы... адвокаты смогли взять данные, взять отчеты, вернуться и сказать: «Послушайте, я знаю, что мы начали хотеть 65, но вот где мы находимся, давайте согласимся отрезать его, согласимся закончить обзор здесь и просто перейти к производству». Так что, опять же, это всегда... вы всегда хотите посмотреть на имеющиеся у вас данные, и я знаю, что, как юристы, данные огромны, отчеты и все такое, но вы все равно хотите убедиться, что вы посмотрите, что находится перед вами, учтите все, включая стоимость и где вам нужно быть в конце, что делает самый здравый смысл для клиента.

Если у кого-то нет большего вклада, я хочу вернуть Майку, чтобы рассказать об интересных вещах, таких как анализ настроений, эмодзи, финансовые данные, PII, PHI и все это хорошее.

Майкл Сарло

Конечно, большое спасибо, Аня, и у нас будет короткое время, так что я сделаю это довольно быстро. Ключевые моменты, и я всегда говорю об этом людям, аналитика с точки зрения eDiscovery, а механизмы, инструменты и базовые технологии и их применение не так продвинуты, как другие отрасли, которые могут полагаться на аналитику данных. Нам просто не нужны многие приложения или множество настраиваемых библиотек и инструментов, более детальный подход, специфичный для организации и их данных или проблемы, которую вы пытаетесь решить. Мы потратили довольно много времени на работу с такими инструментами аналитики вне рынка, будь то с открытым исходным кодом, например, графовыми базами данных, такими как Neo4j, которые позволяют вам делать действительно интересные вещи.

Там, где мы видим вещи и действительно, где вы получаете гораздо лучшие аналитические возможности с точки зрения выборки, а возможность делать больше с данными — это просто больший доступ к аппаратному обеспечению. Расчет озера больших данных в облаке очень дешево с точки зрения вычислений и, в конечном счете, с точки зрения затрат. Иногда я думаю о том, сколько времени это заняло бы три, четыре, пять лет назад, когда вы переходите к более продвинутым функциям для анализа данных. Мы используем графовые базы данных для анализа гораздо больших наборов финансовых данных, таких как журналы вызовов. Мы связываем действия пользователей по широкому спектру систем с фактическими документами, создаваемыми в установленные сроки, и еще больше следственных услуг.

И на самом деле, для всех здесь тоже, имея дело со всеми PHI, PII, GDPR, конфиденциальностью данных и возможностью идентифицировать это как... на самом деле мы работаем с собственными собственными движками, а затем полагаемся на API от Google и Microsoft и Amazon, которые делают разные части PII головоломка обнаружения, так что это то, что мы предлагаем клиентам и сегодня. На самом деле, в нашем обнаружении после взлома, например, в киберпространстве, как рецензирование, но все наши многонациональные вопросы, в которых мы имеем дело с данными, которые могут быть в APAC или Европе, а также с проблемами GDPR, очень важно определить PII на раннем этапе. Поиск по ключевым словам работает очень хорошо, поэтому я бы посоветовал всем провести здесь некоторые исследования. В этих доменах много инструментов с открытым исходным кодом и просто отличные ресурсы в Интернете.

Адам Рубингер

Спасибо, Майк. Я знаю, что у нас здесь заканчивается время, но я хотел ответить на вопрос TAR 3.0. TAR 3.0, я не хочу говорить, что это отброс к TAR 1.0, но он принимает аналогичный подход. Здесь есть дополнительные слои, поэтому традиционно в кластеризации вы получаете центральный слой или кластер, а затем он выходит на внешние руки. Таким образом, с TAR 3.0 это скорее диаграмма Венна, где документ может жить в нескольких диаграммах Венна, просто сидящих друг на друга. У вас может быть документ, который на самом деле живет в 40 000 кластеров.

То, что он делает, это брать ядра кластера и отправлять их вам. Когда вы принимаете решение об отзывчивости, это сверление слоя вниз, а затем запрашивает код следующего базового слоя. Это очень сложно визуализировать. Об этом есть очень хороший блог. Если вы просто напечатаете «TAR 3.0", вы сможете сделать немного легкого чтения. Кроме того, вы можете связаться с нами, и мы предоставим вам консультацию.

Майкл Сарло

Да, и я хотел бы сказать, что это очень рабочий процесс. Эффекты TAR 3.0 можно смоделировать с помощью тактильного использования различных возможностей тренировочных раундов в Brainspace. Кроме того, в сочетании с предварительной стратегической выборкой, анализом поисковых терминов и последующей загрузкой некоторых из этих результатов в модель почти как предварительное обучение и каналы, но затем их использование для получения документов, которые, как вы знаете, являются горячими или актуальными на раннем этапе процесса TAR 2.0. Таким образом, мы можем запустить модели таким образом, и вы часто получаете такие же эффекты. Я думаю, что TAR 3.0 — это действительно гибридный рабочий процесс, зависящий от того, с кем вы говорите. Есть и другие платформы, которые начали пытаться сделать это более алгоритмически. Это совершенно другой процесс, но я бы сказал, что все основные аналитические платформы предлагают некоторые возможности в этой области.

Хорошо, хорошо, большое спасибо. Я собираюсь начать его Роба Робинсона, чтобы закрыть это. Мы очень благодарны всем, что вы присоединились к нам сегодня. Не стесняйтесь обращаться к любым вопросам. Мы будем рады ответить на них. Мы всегда готовы. Просто отправьте электронное письмо или напишите нам на нашем сайте.

Закрытие

Большое спасибо, Майк. И спасибо всей команде за отличную информацию и понимание сегодня. Мы также хотим потратить время, чтобы поблагодарить каждого из вас, кто посетил сегодняшнюю веб-трансляцию. Мы действительно знаем, насколько ценно ваше время, и ценим, что вы делитесь им с нами сегодня.

Наконец, я хочу подчеркнуть тот факт, что мы надеемся, что у вас будет возможность посетить нашу ежемесячную веб-трансляцию, запланированную на 17 февраля в 12 часов по восточному времени, и она будет посвящена теме утечки, обнаружения и проверки данных. В этой предстоящей презентации мы расскажем о том, как организации могут подготовиться к реагированию на инциденты, связанные с кибербезопасностью, и надеемся, что вы сможете принять участие в этом мероприятии.

Еще раз благодарю вас за участие в сегодняшнем заседании. Будьте в безопасности и здоровы. На этом сегодняшняя веб-трансляция завершается.

НАЖМИТЕ ЗДЕСЬ, ЧТОБЫ ЗАГРУЗИТЬ СЛАЙДЫ ПРЕЗЕНТАЦИИ

Веб-трансляция - TAR в реальном мире — 011321 - Обновление

НАЖМИТЕ ЗДЕСЬ, ЧТОБЫ ПОСМОТРЕТЬ ПРЕЗЕНТАЦИЮ ПО ТРЕБОВАНИЮ