[Transcripción de webcast] TAR en el mundo real: de la promesa a la practicidad

en flag
nl flag
fr flag
de flag
pt flag
ru flag
es flag

Nota del editor: El 13 de enero de 2021, HayStackID compartió un webcast educativo diseñado para informar y actualizar a los profesionales legales y de descubrimiento de datos sobre las tecnologías analíticas más avanzadas del sector y resaltar los flujos de trabajo recomendados y los casos de uso adecuados para lograr aumentos cuantificables y impactantes en la eficacia y exactitud del examen de documentos durante el uso de las revisiones asistidas por tecnología. Si bien la presentación grabada completa está disponible para su visualización bajo demanda a través del sitio web de HayStackID, a continuación se proporciona una transcripción de la presentación, así como una versión en PDF de las diapositivas que lo acompañan para su revisión y uso.

TAR en el mundo real: de la promesa a la practicidad

Los expertos y comentaristas de eDiscovery han defendido la promesa de la revisión asistida por tecnología (TAR) desde la decisión Da Silva Moore del juez Andrew Peck en febrero de 2012. Pero, ¿cómo va exactamente el TAR en el mundo real del descubrimiento complejo? Más importante aún, ¿cómo se utilizan la última generación de herramientas analíticas estructuradas y conceptuales para aumentar la eficiencia e impulsar resultados positivos, lo que traduce la promesa de TAR en resultados prácticos?

En esta presentación práctica, los expertos en análisis y revisión legal de eDiscovery compartirán una visión general de las tecnologías analíticas más avanzadas del sector y destacarán los flujos de trabajo recomendados y los casos de uso adecuados para lograr aumentos cuantificables y impactantes en la eficiencia y precisión de las revisiones de documentos.

Destacados del webcast

+ Análisis estructurado: enhebrado de la aguja de correo electrónico

+ Análisis conceptual: de opciones (TAR 1.0 v. 2.0) a clústeres

+ Brains and Brawn: Considerando el espacio cerebral y la relatividad

+ Un buen punto de parada: el porqué y el cuándo de las decisiones de flujo de trabajo con aprendizaje activo continuo

Presentando expertos

+ Michael Sarlo, EnCE, CBE, CCLO, RCA, CCPA - Michael es socio y vicepresidente ejecutivo sénior de eDiscovery y Digital Forense de HayStackID.

+ Adam Rubinger, JD. - Como vicepresidente ejecutivo de HayStackID, Adam aporta más de 20 años de experiencia y experiencia aplicada en asesoría, consultoría y gestión de proyectos de eDiscovery a gran escala.

+ Anya Korolyov, Esq. - Como directora de gestión de proyectos de HayStackID, Anya tiene 12 años de experiencia en eDiscovery con amplia experiencia con Second Requests como abogada y consultora.

+ Seth Curt Schechtman, Esq. - Como director general sénior de Servicios de Revisión de HayStackID, Seth tiene una amplia experiencia en revisión, incluidas acciones colectivas, MDL y segundas solicitudes.

+ Young Yu - Como director de Servicio al Cliente de HayStackID, Young es el principal asesor estratégico y operativo de los clientes en asuntos de eDiscovery.

Transcripción de presentación

Introducción

Hola, y espero que estés teniendo una semana estupenda. Me llamo Rob Robinson y, en nombre de todo el equipo de HayStackID, me gustaría darle las gracias por asistir a la presentación de hoy titulada TAR en el mundo real: de la promesa a la práctica. El webcast de hoy forma parte de la serie mensual de presentaciones educativas de HayStackID realizadas en la red BrightTalk y diseñadas para garantizar que los oyentes estén preparados de forma proactiva para lograr sus objetivos de análisis forense informático, eDiscovery y revisión legal durante las investigaciones y los litigios. Nuestros presentadores expertos para el webcast de hoy incluyen a cinco de los principales expertos en materia de la industria y autoridades de revisión legal con amplia experiencia en apoyo de revisiones asistidas por tecnología.

La primera introducción que me gustaría hacer es la de Michael Sarlo. Mike es el director de innovación y presidente de Investigaciones Globales de HayStackID. En este puesto, Michael facilita todas las operaciones e innovación relacionadas con la eDiscovery, el análisis forense digital y la estrategia de litigios tanto en EE. UU. como en el extranjero.

En segundo lugar, me gustaría presentarle a Adam Rubinger. Adam se desempeña como director de experiencia del cliente de HayStackID. Aporta más de 20 años de experiencia y experiencia aplicada en asesoría, consultoría y gestión de proyectos de eDiscovery a gran escala en este puesto.

A continuación, me gustaría dar la bienvenida a Anya Korolyov, directora de gestión de proyectos de HayStackID. Anya tiene 12 años de experiencia en eDiscovery con amplia experiencia en Second Requests como abogada y consultora.

También me gustaría destacar a Seth Schechtman como director gerente sénior de Servicios de Revisión de HayStackID. Seth tiene una amplia experiencia en revisiones, incluidas acciones de clase, MDL y segundas solicitudes.

Por último, me gustaría presentarles hoy a Young Yu. Young es el director de Servicios al Cliente de HayStackID. En su función, Young es el principal asesor estratégico y operativo de los clientes en asuntos de eDiscovery.

HayStackID grabará la presentación de hoy para su futura visualización y habrá disponible una copia de los materiales de presentación para todos los asistentes. Puede acceder a estos materiales directamente debajo de la ventana de visualización de la presentación de la pantalla seleccionando la pestaña Adjuntos en la posición del extremo izquierdo de la barra de herramientas debajo de la ventana de visualización. Además, hoy tenemos varias preguntas de encuestas. Estas preguntas aparecerán en la pestaña Voto.

En este momento, me gustaría entregar el micrófono a nuestros presentadores expertos, dirigidos por Mike Sarlo, para sus comentarios y consideraciones sobre la revisión asistida por tecnología y su uso práctico en el mundo real. ¿Mike?

Michael Sarlo

Muchas gracias, Rob, y gracias a todos por unirse al webcast de este mes. Estamos muy contentos de tenerte. Tenemos algunos altavoces nuevos en el circuito. Anya y Young, en particular, desde un punto de vista operativo, dedican mucho tiempo a la analítica, tanto desde el punto de vista de la revisión del sistema tecnológico, desde un punto de vista de aprendizaje activo continuo, análisis estructurado para algunos de nuestros asuntos más complejos. Adam Rubinger también ha estado asesorando a los clientes durante años sobre el uso efectivo de estas tecnologías, que todos conocemos y nos encantan tanto, y yo mismo, también he estado tratando con el análisis de datos durante muchos años. Por lo tanto, a menudo encontramos que a veces hay información errónea o desconexiones acerca de cómo se deben utilizar las diferentes funciones, herramientas y flujos de trabajo cuando empiezas a escuchar la palabra analítica o la palabra de revisión del sistema tecnológico, y como proveedor, somos únicos desde nuestra posición para trabajar con muchos clientes diferentes a través de sus expectativas de flujo de trabajo y, a continuación, en el lado de la entrega.

Por lo tanto, vamos a empezar con una discusión sobre el análisis estructurado, vamos a pasar a la analítica conceptual y desglosar realmente las diferencias entre TAR 1.0, TAR 2.0, vamos a destacar algunas de las diferencias entre Brainspace y relatividades, y similitudes, y luego vamos a realmente se sumerge en echar un vistazo cuando realmente se detiene desde el punto de vista más de la CAL, utilizando esa tecnología para acortar una revisión.

Por lo tanto, fundamentalmente el eDiscovery se ha transformado y se está transformando todos los días, mediante la aplicación práctica de los análisis y desde mi punto de vista, aparte de todo el ahorro de costos, el verdadero objetivo aquí es llevar los hechos relevantes a los equipos de casos más rápido y más temprano en cualquier asunto, y sé que Adam tiene bastante un poco de comentarios aquí también, solo por su experiencia tratando con grandes corporaciones que están aprovechando estas herramientas.

Adam Rubinger

Gracias, Mike, y a medida que eDiscovery ha madurado a lo largo de los años, los volúmenes han llegado al punto en que es casi imposible realizar realmente eDiscovery sin el uso de análisis y revisión asistida por tecnología. Estamos viendo el aumento y la adopción a un ritmo bastante rápido. Desde el punto de vista del cliente, vemos que ahora casi se está volviendo rudioso que los clientes utilicen TAR, el aprendizaje activo continuo en particular, para ayudar tanto a ahorrar costes como a acceder a la información antes, como dijo Mike. Desde nuestra perspectiva, vemos a los clientes que utilizan los análisis de una manera que, si bien están destinados a ese uso, los utilizan de manera de tomar enormes cantidades de datos y hacerlos más accesibles, ponerlo a disposición de los litigantes para que elabore su caso en primer lugar, para que los equipos de revisión puedan obtener a la información más importante más rápida y, en última instancia, el ahorro de costes es el objetivo final, que desde la perspectiva del costo total de hacer revisiones, examinar documentos y examinar los datos, tener estas herramientas disponibles, vemos ahorros de costes muy, muy medibles y extensos y mejora la eficiencia al utilizarlo. Por lo tanto, desde nuestra perspectiva, el eDiscovery se está transformando mediante el uso de análisis y se está convirtiendo en parte de la declaración o parte del flujo de trabajo que se está produciendo día a día. Casi todos nuestros clientes utilizan los análisis de una forma u otra en casi todos los casos.

Anya, ¿por qué no empezamos a hablar de análisis estructurados a continuación?

Anya Korolyov

Gracias, Adam. Así que, como mencionaron Adam y Mike, los días de revisión lineal, solo una revisión lineal recta, han desaparecido casi hace tiempo. Todos los casos utilizan, por lo menos, el análisis estructurado, y solo para repasar rápidamente algunos de los básicos, el ID de idioma, sé que parece un hecho, pero incluso aquellos casos en los que el cliente viene a nosotros y dice que todos los custodios son estadounidenses, no hay posibilidad de que tengamos otro idioma extranjero, seguimos me gusta publicarlo solo para darnos una imagen más completa y saber que una vez que lleguemos a la parte del aprendizaje automático, de lo que estamos tratando, necesitamos un experto en la materia que pueda hablar en el idioma extranjero, necesitamos hacer traducciones, muy rápido, quitarlo del camino. Para el análisis casi duplicado, por supuesto, lo usamos para el propósito que pretendía identificar casi duplicados, para asegurarnos de que estén codificados de la misma manera, todas las cosas buenas, pero también lo usamos para ayudarnos a entrenar el modelo cuando llegamos al aprendizaje automático. A veces tenemos casos y simplemente no sabemos por dónde empezar. Todo lo que tenemos es una súplica, tenemos algunas pruebas, así que creamos documentos y los suministramos a nuestra población, y usamos el análisis casi duplicado para ayudarnos a identificar documentos clave antes, ayudarnos a obtener una imagen más clara y tal vez sacarnos de identificar documentos similares a también entrar en nombre la normalización y la herramienta de comunicación en Brainspace, y con eso, una vez que la ejecutamos, obtenemos una imagen mucho más clara que la que tenemos con solo usar los metadatos de la parte superior del correo electrónico, desde/hacia. Conseguimos toda la gama de quiénes se comunican con quién, sobre qué temas y la combinación del análisis casi duplicado y la normalización de nombres realmente nos llevan un paso más cerca del aprendizaje automático y a conseguir que tengamos nuestros documentos clave que podemos usar para entrenar el sistema y, por supuesto, llegamos a todos está familiarizado con el subproceso de correo electrónico. Estoy seguro de que todo el mundo lo ha visto al menos y el subproceso de correo electrónico es cuando tenemos un grupo de correos electrónicos aparentemente no relacionados y lo ejecutamos, y llegamos a nuestros correos electrónicos inclusivos, y nuestros correos electrónicos inclusivos son cualquier correo electrónico con un contenido único, por lo que cualquier archivo adjunto único o el último correo electrónico de la cadena, y absolutamente, lo usamos para el propósito previsto y tenemos casos en los que tenemos acuerdos de inmediato de que solo vamos a revisar los correos electrónicos adjuntos, pero hay muchas otras formas en las que hemos aprendido a utilizar el subproceso de correo electrónico e incorporarlo a nuestro flujo de trabajo con análisis en general, y con eso, me gustaría para entregársela a Seth y a nuestra primera encuesta.

Seth Curt Schechtman

Gracias, Anya, te lo agradezco. Entonces, la primera pregunta de la encuesta del día, del año pasado, ¿con qué frecuencia ha utilizado el subproceso para organizar la revisión y ayudar con el control de calidad? Ahora, Rob abrirá la encuesta para nosotros. A medida que lleguen los resultados, hablaré un poco sobre, como ya mencionó Anya, es posible que tenga acuerdos de ESI vigentes que permitan la supresión de los no inclusivos, por lo que documenta correos electrónicos que forman parte de otros correos electrónicos, lo que significa que se incluyen menos. Por lo tanto, si los excluyes de una reseña, no excluirás el contenido de ellos de la producción. Eso no quiere decir que siempre lo consigas. Puede ser el caso del gobierno, puede que no lo permitan, solo lo permiten en determinadas situaciones. Una en particular que hemos visto en algunas segundas solicitudes es que es posible que no tenga que registrar los no inclusivos si todos sus inclusivos están codificados como privilegiados, lo que ahorra algo de tiempo en el sentido de registro de privilegios.

Diré un par de advertencias sobre las que tal vez no quieras suprimir. Así que, como he mencionado, suprimir de la producción, es decir. Hemos visto argumentos de abogados, en particular, para casos quizás complicados, tal vez durante las declaraciones, en los que no quieres mostrar al deponente las respuestas a ciertos correos electrónicos, así que todo lo que quieres mostrar es el menor incluido, y si los has suprimido de la revisión en producción, es posible que no puedas hacer eso. Además, puede perder algún contexto en el registro de privilegios. Ciertamente hay algunas formas de evitarlo que hemos desarrollado, HayStackID ha desarrollado, pero si no cortas un documento y lo registras como privilegiado, puedes perder información de A, From, CC, pero si puedes recopilar esa información de esos grupos de hilos, menos incluidos, que tenemos sistemas y procesos, herramientas para hacerlo, no pierdes ese contenido.

Por lo tanto, mirando los resultados de la encuesta, parece que tenemos pluralidad en la mayoría de las revisiones usando subprocesos, cada revisión es del 30%, por lo tanto, eso es bueno ver, y luego el 12% no se usa regularmente. Lo usamos en todos los asuntos, incluso si no está suprimiendo esos documentos de la revisión, pero desea que los documentos se ordenen como mínimo cuando vayan al equipo de revisión por esos grupos de subprocesos. Muchas de nuestras revisiones, y hablaremos de esto más adelante, implican TAR o CAL, o cortar la revisión, lo que significa que no revisaremos todos los documentos, todos los documentos producibles o documentos potencialmente producibles. Dejará de lado algunos documentos que van directamente a producción. Ahora, hay ciertos correos electrónicos en los que puede perder ciertos resultados de términos de búsqueda o de términos de búsqueda inéditos, en particular para los datos de Gmail, pero también lo hemos visto con Microsoft, donde pierde información de encabezado sobre los menos incluidos, por lo que si solo está revisando documentos con privilegios, sin duda Quiero asegurarme de que estás introduciendo hilos completos si hay un privilegio en ese correo electrónico solo para no perder potencialmente... produce un documento privilegiado pensando que no tenía un privilegiado heredado [inaudible].

La otra cosa para la que lo usamos y desarrollamos scripts y herramientas es para fines de control de calidad. Hemos visto a reguladores y otros, el lado contrario, las redacciones de ataque son incoherencias entre los grupos de hilos. Obviamente, lo hemos visto durante años en los MD5, copias individuales de documentos diferentes o similares, pero en términos de grupo de hilos, lo vemos cada vez más. La parte difícil de detectar esas personas tradicionalmente ha sido que solo tienes un grupo de hilos y, como todos sabemos, las conversaciones pueden ramificarse en varias direcciones diferentes, y un documento aparentemente no privilegiado puede transformarse en un documento parcialmente privilegiado, que se ha remitido a un abogado. Lo que hacen nuestras herramientas es capaz de determinar dónde ocurren esas discrepancias a través de una raíz individual a través de un hilo y averiguar dónde tiene un documento no privilegiado o una parte no privilegiada de la raíz va a ser totalmente privilegiada, pero lo más probable es que la retención total de priv o priv deba haber sido codificada como priv redact, o tendrías un priv parcial o una retención de priv total, priv que no sea privilegiado dentro del sistema y lo más probable es que esos documentos privilegiados subyacentes hayan sido publicados y considerados no privilegiados. Por lo tanto, algunas herramientas geniales ahí fuera. Ciertamente recomiendo enhebrar al mínimo cada caso por esas razones, y una cosa que no mencioné, decimos para ordenar, acelera la revisión, se asegura de que los mismos abogados estén revisando las mismas conversaciones una y otra vez, y estén familiarizados con el contexto y no tengan que hacerlo. reaprenderlo o hacer que una nueva persona lo esté aprendiendo.

Visualización de hilos, algunas herramientas geniales también por ahí. Para esos alumnos visuales, te ayuda a determinar dónde se ven esas consistencias, pero una vez más, una incoherencia en su rostro puede no ser sin poder desaparecer y disminuir para ver dónde está ocurriendo esa incoherencia a través de

Anya Korolyov

Gracias, Seth, y de nuevo, no usaríamos todos estos análisis estructurados, los análisis que se basan estrictamente en tareas sin ningún concepto, justo lo que tenemos a nuestro alcance. Los usamos todos para ayudarnos a llegar al punto en que comenzamos el aprendizaje automático y, al final, como control de calidad, todos ellos combinados hacen realmente una gran herramienta para el control de calidad. Y con eso, vamos a pasar al aprendizaje automático, y me gustaría entregarle esto a Young para que nos presente.

Young Yu

Gracias, Anya. Cuando se trata de aprendizaje automático o análisis conceptual, hay dos tipos. Hay aprendizaje supervisado y sin supervisión. Desea considerar estos métodos objetivos y subjetivos que el sistema utiliza para categorizar grupos de documentos similares, el aprendizaje sin supervisión cubrirá la agrupación en clústeres y la búsqueda de conceptos. Estas herramientas proporcionan información sobre la composición conceptual de la colección de documentos sin ninguna aportación de revisores humanos. Es una muy buena manera de echar un vistazo de alto nivel a las incógnitas de su conjunto de datos, o de confirmar cualquier suposición que haya tenido en el inicio del proyecto, porque no requiere ninguna aportación humana.

Aprendizaje supervisado, que cubre sus modelos TAR y requiere aportaciones humanas. Las decisiones que esté tomando para responder, el sistema clasificará los documentos y los calificará. Según el modelo que elijas, las puntuaciones se pondrán en piedra o se actualizan constantemente, pero las puntuaciones indican una proximidad de similitud conceptual con las decisiones que has tomado. Por lo general, las puntuaciones más altas serán más similares conceptualmente a las de un documento receptivo, y las puntuaciones más bajas estarán más alejadas de las decisiones de respuesta que hayas tomado allí.

Anya, ¿quieres hablar de agrupamiento?

Anya Korolyov

Sí, gracias, Young. Por lo tanto, repasar algunos de los conceptos de aprendizaje sin supervisión, la agrupación es una gran herramienta, y sé que algunas personas no han tenido mucha suerte con él, pero creo que la forma en que se pretendía y cuál es su uso en el mundo real difiere. Por lo tanto, nos gusta agrupar todo de inmediato, porque hemos descubierto que nos ayuda a conocer nuestros datos, e incluso si es tan básico como lo que tenemos es un montón de citas de Outlook, y luego tenemos que lidiar con ellos, solo para conocer ni siquiera los conceptos, sino los datos y, por supuesto, los conceptos también, para identificar conceptos similares a si tenemos documentos clave, si hemos identificado mediante el análisis estructurado dónde están los documentos clave, qué son, y nos ayuda a saber dónde están en la búsqueda de conceptos y a conocer quiénes son los comunicadores, qué son de lo que estoy hablando. Realmente nos ayuda a visualizar todo desde el principio. También nos ayuda a usarlo para reducir los datos de los que debemos preocuparnos. Al ejecutar una simple búsqueda de spam por concepto de spam, este es un ejemplo que tenemos aquí forma parte de los datos [de ejecución final]. Por lo tanto, si solo ejecuta una simple búsqueda conceptual de spam, obtendrá con claridad 62.000 documentos, y luego, con las capacidades de Brainspace, obtendrá todos los conceptos similares enumerados como parte del clúster, y puede revisarlos y tomar rápidamente la decisión de eliminar 62.000 documentos de su revisión. y nunca tienes que preocuparte por ellos, no tendrás que volver a mirarlos nunca más, y es una gran herramienta para llevarnos a una población más limitada de documentos.

Además, para volver al uso de la búsqueda conceptual de Brainspace, que es un poco diferente de la búsqueda conceptual de Relativity, donde solo obtienes documentos conceptuales similares. Brainspace proporciona conceptos similares reales. Así que, de nuevo, esto se remonta a los datos favoritos de todos [final corrida]. Al buscar un inversor minoritario muy rápidamente, puede ver cuáles son los conceptos similares en los documentos que regresan para inversores minoritarios, y cualquiera que haya realizado una investigación conoce el idioma amigo de cualquier cosa suele ser llamado por algo. Por lo tanto, podemos seleccionar ese, e ir a esos documentos y ver de qué están hablando y llegar al punto en que identificamos a las personas clave, los conceptos clave que utilizan muy rápidamente Brainspace.

Y eso nos lleva al aprendizaje supervisado real, pero antes de llegar allí, queremos cubrir rápidamente que no todos los datos entran en el aprendizaje automático. Por lo tanto, nos gustaría hablar de datos que no se encuentran y qué problemas y soluciones tenemos para ellos.

Young Yu

Correcto, y cuando analizas conjuntos de datos para TAR, ya sea TAR 1.0, TAR 2.0, tus directrices van a ser bastante similares y son tipos de documentos típicos que se recomienda excluir del índice analítico. Estos incluirán documentos con demasiado poco o demasiado texto. Tiene archivos CSV, su calendario de Outlook, las respuestas o incluso las invitaciones que no tienen contenido del cuerpo del mensaje; archivos de audio, vídeo o imágenes, archivos CAD entran en esa categoría. Código fuente y hojas de cálculo, y cuando exploras estos grupos de documentos, hay formas de incluirlos, hay formas de revisar estos documentos. Si queremos hablar con las hojas de cálculo aquí, normalmente, la hoja de cálculo normal se basará en números. Hemos visto casos en los que tiene mucho texto y podemos hacer un análisis para ver cuál es la proporción de caracteres alfa frente a los caracteres numéricos. Quiero decir, estas son todas las cosas que puedes hacer para incluir o excluir varios bolsillos de documentos. Con archivos de audio, si los has transcodificado o transcrito, ese texto puede entrar.

Aquí hay otro bucket, que nos encontramos con mucha frecuencia, y que sería un formato de mensaje corto. Y, Mike, creo que tienes una gran solución aquí, y quieres hablar de eso un poco aquí.

Michael Sarlo

Me alegra hacerlo, Young, y gracias. Así que, tipos de datos alternativos, el nuevo tema favorito de todos. En eDiscovery, creo que estamos siendo bombardeados por nuevas fuentes de datos que quedan fuera de sus paradigmas típicos en lo que respecta al correo electrónico, y solo los documentos electrónicos típicos de recursos compartidos de red y computadoras. Este tipo de plataformas como Slack y Teams, y solo aplicaciones de chat, y otros tipos de datos que no necesariamente se prestan a contener un bonito borde empaquetado alrededor de las ideas que contiene, al igual que un documento de Word o una cadena de correo electrónico, se han vuelto mucho más parecido a prevalecer en realidad. desde el inicio de la pandemia también, y ahora que ya hemos pasado casi un año, casi todas las organizaciones grandes o pequeñas utilizan estas herramientas para mejorar su capacidad para que sus equipos remotos trabajen juntos. Bueno, uno de los grandes problemas aquí es el tipo corto de datos de formato de mensaje, como chats y textos como, por lo general, no escribimos de la misma manera que lo hacemos para un correo electrónico. Son cortos, a veces no usamos el sustantivo, a veces hay emoticonos. El problema fundamental aquí es no tener suficiente lo que me gusta llamar densidad conceptual en un solo archivo de texto para que los motores de análisis lo entiendan y aprendan de un individuo, como una cadena de texto.

Por lo tanto, desde el punto de vista de la colección y el punto de vista de la producción, normalmente siempre recomendamos a nuestros clientes que utilizan Slack o Teams que intenten agrupar canales y contenido de canales las 24 horas. Sin embargo, empezamos a pensar: llegar a este tipo de comunicaciones a través de cualquier tipo de plataforma analítica, que a veces puede no ser suficiente texto. Por lo tanto, tenemos algunas herramientas y código patentados que diseñamos para medir y probar básicamente la eficacia de crear lo que yo llamaría listo para analítica en mis archivos de prueba, utilizando campos relacionales separados, donde podemos tener un archivo de texto específico para cargar en Brainspace o Relativity, NexLP, cualquier herramienta que va a leer texto que sirve como punto de referencia secundario para que estos motores tengan un poco más de densidad conceptual, y luego pueden pasar por un proceso TAR, y obtenemos resultados bastante buenos aquí. Cuando vamos a producir, podemos empezar a producir con cualquier frecuencia que deseen nuestros clientes, en la medida en que usamos ese campo relacional secundario para dar marcha atrás a esas decisiones.

Tienes que tener cuidado aquí. Obviamente, cada vez que introduce complejidad en el proceso de revisión asistida por tecnología, debe estar preparado para dar fe de la calidad de ese flujo de trabajo real. Por lo tanto, tenemos mucho aquí para utilizar el muestreo estadístico en poblaciones receptivas y no responsivas después de TAR en este tipo de tipos de datos, para poder trabajar con asesores externos para establecer mi comodidad de que el proceso funciona de la manera que esperarían.

Del mismo modo, para los chats de teléfonos móviles, es muy similar, y siempre intentamos asegurarnos de que estén listos para la analítica y que los archivos de texto estén siguiendo la línea de participantes específicos, y lo mismo para chats como Bloomberg, o cualquier otra cosa, se manejará de la misma manera. Esto ha sido enorme en algunos asuntos para nosotros, donde hemos tenido poblaciones [puntuales] que suman decenas de millones de cadenas de comunicación las 24 horas, los múltiples terabytes son cada vez más comunes en las grandes empresas, pudiendo trabajar con estos datos a través de un flujo de trabajo de revisión asistida por tecnología en una segunda solicitud, lo que fue bastante sin precedentes. El Departamento de Justicia ha trabajado con nosotros en estos flujos de trabajo, y han estado contentos con ello, lo que tengo entendido es la primera vez. Por lo tanto, lo estamos haciendo más en litigios civiles, lo hacemos de forma más general, y solo tenemos una gran parte de la documentación prediseñada para que nuestros clientes tengan, en realidad, un informe de defensibilidad entregado fluidamente y de forma repetible a medida que los conjuntos de datos se mueven y se expanden a lo largo de la vida útil de un asunto, que es importante porque a veces empiezas con una población, y terminas agregando más, y eso es algo que estoy seguro de que Anya y Young realmente van a profundizar una vez que empecemos a desglosar los flujos de trabajo en TAR 1.0 y TAR 2.0.

Anya Korolyov

Gracias, Mike. Creo que el formato de mensajes cortos es un área muy emocionante en este momento, como dijiste; el Departamento de Justicia se involucra en la toma de decisiones, lo que es aceptable, lo que no, y el uso de TAR en mensajes cortos, es un momento muy emocionante para eso. Quiero volver un segundo a la agrupación y decir que hemos utilizado la agrupación, y eso nos ha ayudado bastante con los mensajes a corto plazo, por la forma en que están estructurados, y tantos para Teams, para Slack, tanta gente que entra a la sala y sale de la sala, que muchas veces los nombres de la gente se convierte en conceptos. Por lo tanto, es una gran... agrupación en clústeres, realmente es una gran herramienta para ayudarnos a identificarlo.

Y con eso, pasemos a la otra parte emocionante de esta presentación, es el aprendizaje supervisado y nuestra próxima encuesta. Durante el último año, ¿qué porcentaje de asuntos ha requerido revisión para el que ha utilizado TAR 1.0 o TAR 2.0? Todo el mundo tiene sus propias preferencias. Voy a empezar a repasar lo que es TAR 1.0 y TAR 2.0 para aquellas personas que se han unido a nosotros que no lo saben, y algunos de los desafíos que enfrentamos con ambos flujos de trabajo.

Y con eso, nuestro primer desafío es siempre definir la relevancia y Young nos va a hacer cargo de ese.

Young Yu

Por lo tanto, al iniciar cualquier proyecto TAR, ya sea TAR 1.0 con aprendizaje basado en muestras o TAR 2.0 con aprendizaje activo, debe definir la relevancia. Tiene que ser una decisión binaria, lo que significa que es una opción sí o no. No querrás ser demasiado estrecho porque perderás periféricamente o parte... de documentos que responden parcialmente allí, y luego cambia igual al revés. Si eres demasiado amplio en tu definición de capacidad de respuesta, el sistema será demasiado inclusivo y recuperará casi cualquier cosa que afecte a las decisiones que estás tomando. A medida que va pasando por el proceso, cuando define la capacidad de respuesta, realmente tiene que pensar en las relaciones conceptuales entre los documentos, y es una desviación de la revisión lineal, en la que no se busca una familia de documentos completa. Cada documento debe considerarse un registro independiente y esa decisión de respuesta debe tomarse a su valor nominal en las cuatro esquinas del documento respectivo que está examinando. Y a medida que avanza también en el proceso, esa definición de capacidad de respuesta o relevancia, es enorme, porque es la medida del proceso TAR. En TAR 1.0, la precisión se medirá en función de su definición de capacidad de respuesta. Todas las puntuaciones se correlacionan directamente con esa definición de capacidad de respuesta. Lamentablemente, si tienes un cambio en el alcance de esa definición de capacidad de respuesta, supongamos que aprendes algo más adelante o has completado tu proyecto, y ahora te preguntan que es diferente de un regulador o de posar, tienes que aprender a cambiar o transformar esa definición de capacidad de respuesta. A veces puedes continuar desde donde lo dejaste y ampliar el alcance, y habrá momentos en los que tendrás que empezar todo el proyecto de nuevo. Depende realmente de qué tan bien defina la relevancia y la capacidad de respuesta desde el principio.

Anya Korolyov

Estoy de acuerdo con usted en que esa es una de las decisiones más importantes, e incluso una vez que ha tomado la decisión con cuál ir, creo que eso sigue siendo [inaudible] sobre dónde se encuentra en su proyecto.

Gracias a todos por unirse a la llamada, y parece que la mitad la ha usado. Seguiré revisando la definición y solo el flujo de trabajo general. Por lo tanto, tenemos aquí nuestro diagrama de flujo TAR 1.0, y de nuevo, quiero tocar la base, de nuevo, que habrá documentos que Young discutió que no formarán parte de todo el flujo de trabajo; los documentos de exclusión, los JPG, potencialmente las hojas de cálculo, cosas por el estilo. Por lo tanto, una vez que tengamos el índice sin exclusión de documentos que aún necesitarán ser revisados, tenemos un experto en la materia que tendrá que revisar el conjunto de controles, y una vez revisado el conjunto de controles, llegaremos al punto en que se ha alcanzado o no el nivel de margen de error, y eso es donde realmente entra en vigor la definición de relevancia. Porque si tienes datos de riqueza súper bajos, el experto en la materia pasará mucho tiempo en este bucle, donde tendremos que revisar documentos adicionales para que se cierre el conjunto de controles.

Por lo tanto, esto es muy importante, y en realidad esta, creo, es la parte en la que, incluso aquí se podría decir, ya sabes qué, tal vez TAR 1.0 no era la mejor opción para mí. Necesito pasar a TAR 2.0. Pero una vez que has alcanzado ese margen de error y pasas a las rondas de entrenamiento, normalmente vemos entre una y cinco rondas de entrenamiento, y normalmente oscilan entre 300 y 500 documentos. De nuevo, todo esto depende de los datos. Si empezamos con 10 millones de documentos, las rondas de formación van a ser un poco diferentes. Y sigues adelante con las rondas de entrenamiento hasta que obtengas la precisión y estabilidad deseadas, y lo que significa es que depende de un caso por caso. Puede que haya un abogado contrario que quiera ver los informes y quiera ver dónde se encuentra. Puede que esté el Departamento de Justicia y quieran saber dónde está, y es posible que nunca llegue al punto que todo el mundo recomienda. Relatividad, Brainspace, todos los expertos recomiendan llegar al 65, 70%. Puede que nunca llegues allí. Puede que esté en el 40% o algo así, pero simplemente no se mueve, tendrá potencialmente alrededor del 40%, y ahí es donde está, y entonces ese momento es cuando toma la decisión de detenerse y seguir adelante, y codificar sus documentos como responsivos, no receptivos, y pasar a la revisión de privilegios. Por lo tanto, realmente tienes que asegurarte de que estás viendo los datos, de mirar tus informes y de tomar decisiones fundamentadas con TAR 1.0.

En lo que respecta a las rondas de formación, en HayStackID utilizamos Relativity y Brainspace, que en nuestra opinión son algunos de los mejores productos disponibles para el flujo de trabajo TAR 1.0, y con Relativity, tienes algunas opciones. Tiene su estadística básica, que normalmente extraerá unos 300 documentos; tiene su porcentaje, donde le indica al sistema cuál es el porcentaje de documentos que desea utilizar para las rondas de formación; y, por supuesto, tiene su muestra fija. Tienes el estratificado, que probablemente sea uno de los mejores, porque lo que hará es identificar documentos. Identificará los documentos que se relacionan principalmente en conceptos con los documentos que ya ha codificado como parte de las rondas de formación anteriores, y también se asegurará de que cubra la mayor población de documentos. Por lo tanto, con cada ronda de formación, te dará los documentos que llevarán a cabo los conceptos a los grupos más grandes de documentos que aún te quedan.

En nuestra opinión, lo que Brainspace ha hecho es que lo llevó un paso más allá. Cuenta con tres tipos diferentes de rondas de entrenamiento para la Relatividad estratificada. Por lo tanto, tienes tu influencia, que va a ser la que más usas, y es la más similar demasiado estratificada. Lo mismo; va a elegir la mayoría de los documentos que están más cerca, y va a tratar de cubrir lo más posible a la población que te queda. Y luego tiene su activo rápido y su activo diverso, y en nuestra experiencia, hemos descubierto que cuanto más grandes obtengan los conjuntos de datos, más resultados obtenemos con activos activos rápidos y diversos. Hemos usado influyentes varias veces y no hemos visto absolutamente ningún movimiento, y luego hemos cambiado y hemos conseguido enormes saltos. Así que, de nuevo, siempre son los datos los que te hablan, siempre es lo que tienes delante. Tienes que leer estos informes y analizarlos, y no solo decir, OK, bueno, este es el enfoque recomendado y voy a seguir con él.

También está el aleatorio, que de nuevo es la muestra fija y la aleatoria, con Brainspace, te permite crear un cuaderno, y puede... con la creación de un cuaderno, puedes poner los documentos que crees que son más importantes en tu caso. Por lo tanto, si descubres algo, puedes ponerlo allí, el más no responsivo, más receptivo, pero tienes que tener mucho cuidado porque especialmente cuando tratas con una entidad gubernamental, habrá una certificación en el proceso. Por lo tanto, debe ser muy cuidadoso en la forma en que se expresa la certificación y cuál está utilizando.

Muy rápido para volver a pasar entre Brainspace y Relativity, lo que podría ayudarte a decidir cuál quieres probar. El informe en Brainspace es algo así: no quiero decir la palabra «básico», pero solo te da la información de dónde te encuentras en el proceso. Por lo tanto, le dará una hoja de cálculo de Excel que mostrará una lista de las rondas de control, los campos de entrenamiento y, con cada ronda que ejecute, simplemente sacará el informe de esa ronda. Los informes de la relatividad son un poco más elegantes. Estas son solo dos de las cosas que proporciona, y puedes mejorar un poco, especialmente si eres una persona de apoyo legal y tienes al equipo legal preguntándote, ¿dónde estamos? ¿Cuántos documentos más? ¿Cuántos hay sin categoría? Es un poco más fácil obtener esa información de inmediato con Relativity.

Una vez más, mucho depende de si vas a pasar informes a la parte opuesta o a la entidad gubernamental, por lo que tienes que tomar esa decisión. Creo que ambas herramientas son geniales. En nuestra experiencia, hemos utilizado ambos para TAR 1.0 con grandes conjuntos de datos, y creemos que tenemos resultados bastante buenos incluso cuando pasamos a la revisión privilegiada e hicimos un poco de control de calidad de lo que se consideraba no responsivo. Hemos obtenido muy buenos resultados utilizando ambas herramientas.

Young Yu

Anya, una de las preguntas que recibimos de la audiencia es, ¿hay casos en los que recomendaría TAR 1.0 sobre TAR 2.0?

Se me ocurre una pareja que me gustaría mencionar, y cualquier otra persona puede intercambiar.

Anya Korolyov

Solo quería cubrir el flujo de trabajo TAR 2.0, y luego definitivamente vamos a repasar eso y decir los pros y los contras y cuando recomendamos uno u otro un poco más tarde.

Así que, muy rápido, el aprendizaje activo continuo TAR 2.0. De nuevo, siempre tendrás tus documentos que son las exclusiones. Tendrás que revisarlos, tenlo en cuenta. Pero en lugar de tener un conjunto de control, rondas de entrenamiento, idealmente, te gustaría tener un experto en la materia o alguien o tener documentos clave que lo inicien. Preferiblemente, entre 100 y 500 documentos según su población. Y luego tienes tu equipo de revisión que empieza a enseñar el modelo, qué es receptivo, qué no responde. Así, aprende continuamente de cada decisión que se toma.

Y luego llegas al punto en que ves una clara ruptura entre receptivo y no responsivo, o llegas al punto en que ya no ves ningún documento responsivo y dices: 'OK, creo que he terminado y voy a realizar mi prueba de elusión de control de calidad y ver si hay algo que responda y luego cierras fuera del proyecto y pasaste a la revisión privilegiada o el proyecto está listo.

Así que, de nuevo, en nuestra experiencia con CAL, Relativity ha sido una plataforma mejor, porque todo está en Relatividad, pero también hemos visto muy buenos resultados con Brainspace, solo un poco más de trabajo en la parte del proveedor y realmente no nos importa. Y hemos utilizado TAR 2.0 en el sentido muy tradicional en el flujo de trabajo que ves delante de ti (el flujo de trabajo recomendado), es decir, revisar hasta que llegues al punto en que ya no ves ningún documento adaptable.

Y con eso, me gustaría pasar a nuestra próxima pregunta de encuesta, que es nuestra última pregunta de encuesta, que es «¿Qué porcentaje de asuntos que han utilizado TAR 2.0 emplean un flujo de trabajo en el que se capacita el algoritmo de aprendizaje y la revisión se corta antes de poner la vista en todos los documentos receptivos que se producen?»

Entonces, es decir, volver a mi diapositiva, esta es tu tradicional... si hubo reseñas en las que usaste una solución alternativa, donde empezaste a ver lo que el sistema cree que no responden, o simplemente seguiste adelante con el flujo de trabajo recomendado.

Seth Curt Schechtman

Creo que la clave allí, Anya, es cuando tienes grandes volúmenes de datos y lo estás ejecutando a través de CAL, ¿quieres seguir revisando si el algoritmo ha sido entrenado? La pregunta es si quieres revisar un millón de documentos, aunque sea bajo [inaudible], porque tienes un conjunto tan grande para empezar. Por qué continuar si los documentos no necesitan ser codificados o revisados por [inaudibles] o por otros motivos. ¿Por qué no parar?

Anya Korolyov

Definitivamente, definitivamente. Hay muchas consideraciones con TAR 2.0 que debes tener en el fondo de tu mente, y se enumeran aquí. Y algunos de ellos son familias y privilegios, que van de la mano. ¿Nos preocupa que el privilegio tenga que llevarse a cabo en toda la familia? ¿Vamos a hacer una revisión privilegiada por separado o confiamos en que el privilegio se basa en las cuatro esquinas del documento? Sin duda, eso es una consideración.

Otro que Seth acaba de sacar a colación es con cuántos documentos estamos empezando. Según nuestra experiencia, y todo lo que leí allí, dicen todos los documentos técnicos con CAL, generalmente va a terminar revisando entre el 15-20% de su población, por supuesto, dependiendo de la riqueza, para volver a lo que Young dijo sobre la relevancia. Pero, ¿qué pasa si empiezas con 10 millones de documentos? El 15-20% de eso sigue siendo bastante grande. ¿Tiene tiempo de revisar todos esos documentos? ¿Tiene los recursos para revisar todos esos documentos? ¿O miras los datos en algún momento y dices, estos son mis hechos, aquí es donde estoy, tengo tantos documentos que el sistema ya cree que responden, tengo tanto dinero que mi cliente está dispuesto a pagar, y qué decisión tomo en este momento? ¿Sigo o lo corto?

Esta parte de cortar o empezar a ir a lo que el sistema cree que no son documentos receptivos es una conversación que tenemos con nuestros clientes muy a menudo, porque quieren hacerse. Quieren cerrarlo. Están listos para salir. Es una especie de lucha para nosotros recomendar uno u otro, porque podemos presentarles los hechos, pero tienen que tomar esa decisión por sí mismos y dónde están en el litigio.

Joven, Seth, sé que tienen mucha experiencia aquí recomendando el límite y decidiendo qué vamos a hacer aquí.

Young Yu

Hay varias metodologías que puedes emplear aquí. Con cualquier modelo de aprendizaje activo, verás una caída precipitada o, digamos, en un caso ideal, cierto. Pero el nombre de esta presentación es TAR en el mundo real, es posible que nunca veas esa precipitada caída. Es posible que tengas un puntaje de ascenso constante, sin huecos en el medio, sin interrupciones claras de la respuesta y no. Entonces, ¿qué haces?

Digamos... voy a tirar números. Digamos que tienes una puntuación de 65 y estamos considerando que la respuesta límite, la recomendación de nosotros sería, 'hey, ¿por qué no muestras de 55 a 64 y ves cuál es la tasa de respuesta que hay ahí, haremos un muestreo aleatorio fuera de ese grupo o no tiene que ser aleatorio, puedes emplear cualquier una especie de metodología, siempre y cuando esté documentada y repetible». Haces el muestreo, y si todos los números tienen sentido y puedes decir, OK, este 65 es un buen número, hemos tomado muestras alrededor de él, hemos repasado esto y todo tiene sentido, no hay razón por la que no puedas detenerte en 65.

Digamos que es al revés, sin embargo, y has tomado una muestra de 55-64 y tu tasa de respuesta es más alta de lo que debería ser, vas a tener que seguir adelante y continuar revisando o decir: «OK, no podemos usar 65 como límite, ¿qué pasa si bajamos a 60?» Todas estas decisiones tienen que tenerse en cuenta y sopesar. Debes tener en cuenta cuál es tu riqueza o riqueza estimada el porcentaje de documentos adaptables en tu conjunto de datos. Se estima... porque si supiéramos lo que era... todo esto sería, pulsa el botón y listo.

Anya Korolyov

Estoy mirando los resultados de las encuestas y veo que bastantes personas lo cortan antes de poner los ojos y todo eso. Es genial saberlo. Gracias, Young.

Esto es solo una especie de descripción general de TAR 1.0/TAR 2.0, y ahora que ha hecho todo este trabajo, en su caso, ha terminado, qué hace con los resultados y los mantiene para su uso futuro. Y eso nos lleva a los modelos portátiles.

Young Yu

Bien, así que dependiendo de la aplicación que esté utilizando, es posible que pueda reutilizar todo ese producto de trabajo que se ha introducido en este proceso, pero eso se desvanezca por algunas cosas aquí. Normalmente, lo que nos gustaría hacer o lo que recomendamos aquí es crear un modelo que si va a crear un modelo reutilizable, lo que desea hacer es construirlo en torno a temas específicos. Si tiene litigantes seriales que siempre están involucrados en el mismo tipo de litigio. Si se trata de un tipo específico de litigio, como empleo o FCPA, antimonopolio o creación de un modelo para identificar respuestas no deseadas o automáticas, potencialmente privilegiados. Todos estos son muy, muy específicos de lo que quieres construir. Pero si construyes uno que funcione, puedes aplicarlo una y otra vez.

Ahora, cada conjunto de datos es diferente y todos estos factores tienen que pesar, pero si tienes un cliente repetido y estás íntimo con sus datos y el privilegio siempre va a ser el mismo, la basura siempre va a ser el mismo. O aquí están los cinco tipos de litigios a los que se enfrenta este cliente día a día, debería poder crear un modelo en torno a eso. Y una vez que tienes ese modelo, es un buen lugar para empezar. Ya has hecho el trabajo entre bastidores; puedes aplicar ese modelo a ese conjunto de datos y te da un lugar para empezar. No significa que el proceso se complete al 100%, sino que te da una gran visión, y también a medida que perfeccionas ese modelo, porque vas a seguir trabajando allí, puedes refinar ese modelo y construir realmente algo que te llevará entre el 60-70% del camino desde el primer día.

Seth Curt Schechtman

Oye, Adam, ¿por qué no irrumpes aquí y hablas de cómo los clientes están llegando a estas cosas, preguntando sobre nuestras habilidades aquí.

Adam Rubinger

Sí, y creo que los clientes están buscando formas de reutilizar el producto de trabajo desde bases de datos hash MD5 hasta el uso de modelos portátiles cuando tiene este tipo de custodios repetidos, problemas repetidos. Creo que existe una gran oportunidad de aumentar los ahorros mediante la reutilización de este tipo de información, específicamente clasificadores, y estamos empezando a ver que eso ocurre. Es como que acaba de empezar. Creo que la tecnología está evolucionando hasta el punto en que se está volviendo útil y capaz, así que creo que vamos a ver mucho más uso de la reutilización de datos y cosas así.

Anya Korolyov

Gracias, Adam y Young. Y ahora, esto nos lleva a la diferencia entre TAR 1.0 y TAR 2.0 y cuáles recomendaríamos normalmente, que creo que es una de las preguntas que nos están haciendo.

Y cubrí algunas de las diferencias. De nuevo, TAR 1.0, tiene uno o dos expertos en la materia que codifican los documentos. El costo es mínimo en un solo punto. Por otro lado, el experto en la materia cuesta un poco más que una solución de revisión administrada.

Hay aprendizaje activo continuo. Hay mucha gente que toma decisiones, y eso no siempre es lo mejor. Cuanta más gente tengas, más interpretación es lo que responde a este proyecto. Pero al mismo tiempo, te permite aprender una nueva capacidad de respuesta. Los documentos aparecen durante la revisión y eso podría cambiar. Algo que no se consideraba receptivo, encuentras un correo electrónico y dices: «oh, eso es de lo que están hablando, oh sí, eso es definitivamente responsivo», actualizas el sistema y te permite aprender.

Así que, de nuevo, todo depende del tipo de caso que esté tratando y de qué tipo de plazo esté tratando. ¿Cuál es tu presupuesto? Todas estas preguntas deben hacerse y siempre se las hacemos a nuestros clientes porque eso va a impulsar la decisión. Si tienes una Segunda Solicitud de proporciones épicas y tienes tres meses [inaudibles], si tienes incluso tres meses para revisar millones de documentos y tienes que considerar revisar no solo para responder, sino también tener en cuenta el privilegio y tienes que considerar la posibilidad de encontrar documentos clave sobre el fusión, vas a ir con el TAR 1.0, porque solo quieres entrar allí, quieres codificarlo, quieres decir, «esta es la población que responde, estoy cumpliendo sustancialmente, estoy claro, estoy bien, no quiero aprender continuamente, no quiero saber, me lavo las manos de esto'.

En otro caso, tienes un caso que no tiene prisa y es un poco más bajo en el lado de los datos y no tienes ni idea de lo que estás buscando, tienes muy pocos documentos clave para empezar y quieres saber qué van a mostrar los datos y esperas que cambie la capacidad de respuesta, y es un asunto de investigación. En ese caso, sin duda recomendaremos TAR 2.0.

No decimos que uno sea mejor que el otro. Hemos tenido casos, y Seth y Young pueden hablar de eso, donde empezamos con TAR 1.0 porque eso es lo que prefería el cliente, y luego llegamos al punto en que no estábamos progresando absolutamente con 1.0 porque la riqueza era tan baja. Y dijimos que, en este punto, sentimos que estás gastando dinero sin ninguna razón para que un tema revise estos documentos, pasemos esto a una revisión, cuando todo esté dicho y hecho, creemos que realmente te ahorraremos dinero yendo a TAR 2.0 y hacer un modelo híbrido allí entre los dos».

Young Yu

Solo para volver a la pregunta aquí, instancias en las que recomendaríamos TAR 1.0 sobre TAR 2.0, cada caso es diferente, la cronología, definitivamente, cualquier tipo de plazos pesan en gran medida en la decisión que se toma, pero creo que lo que es más importante, va a ser la riqueza de ese conjunto de datos. Si estás diciendo que el 40-50% de ese conjunto de datos va a ser responsivo, ¿realmente quieres entrar en un modelo de aprendizaje activo e intentar averiguar dónde cortar o superar ese porcentaje?

Si la riqueza es muy baja, digamos que está por debajo del 10%, existe la posibilidad de que durante el conjunto de controles no encuentres ningún documento responsivo, por lo que tienes que seguir introduciendo documentos adicionales en tu conjunto de controles. Ese conjunto de controles puede durar mucho tiempo, hasta que tenga el número adecuado de documentos adaptables.

Eso va a la otra pregunta de ahí. «¿Cuál es la diferencia entre un set de control y una ronda de entrenamiento?»

Un conjunto de controles va a ser una extracción aleatoria de documentos, y es la medida con la que se comparan las rondas de entrenamiento. Es una extracción aleatoria de documentos. El número de documentos dependerá de su confianza y de su margen de error. En algunas aplicaciones está implícito que la riqueza lo afecta. Brainspace sin duda lo tiene en cuenta. Hay otras aplicaciones que no lo hacen. Pero en términos de la recomendación entre TAR 1.0 y TAR 2.0, realmente está conociendo sus datos. La velocidad de respuesta, la diversidad conceptual allí, su calendario, su presupuesto, todo eso va a tener en cuenta esa decisión.

Seth Curt Schechtman

Y una cosa, Young, que añadiré desde la perspectiva de la revisión, ¿todos los documentos necesitan [verificaciones de expedición]? Si lo eres, entonces tienes que revisarlos de cualquier manera que lo mires. No lo vemos a menudo. Las segundas solicitudes y los asuntos más grandes que tenemos, simplemente saldrán directamente por la puerta sin mirarlas, algo [inaudible] por privilegio o PII o términos candentes, pero tienes que emitir una etiqueta, tienes que echar un vistazo a todas ellas. Por lo tanto, estás usando TAR 1.0 o estás intentando usar 2.0 para interrumpir la revisión antes de haber analizado todo lo que podría producirse, no va a suceder.

Anya Korolyov

Gracias a los dos. Y con eso, me gustaría profundizar en lo que a mucha gente le interesa, y una de las principales decisiones que desempeña un papel importante es el costo. ¿Cuánto ahorras usando todas y cada una de estas herramientas? Voy a devolvérselo a Mike y Adam para que hablen de eso.

Michael Sarlo

El costo de la revisión. Por ejemplo, aquí tenemos un caso en el que teníamos casi 2,9 millones de documentos que se encontraban en la población de revisión. Al poder ver solo 12.000 de ellos para entrenar un modelo, identificar la capacidad de respuesta, el ahorro de costos asciende a millones en la gama alta, 8 millones de dólares en algunos casos para asuntos más complejos.

En casi todos los casos, siempre obtendrá un ahorro de costos con TAR o CAL, y estas presentaciones estarán disponibles para descargar, todo se registrará si está interesado en algunas métricas buenas y nos complace entrar en las granularidades de cualquiera de estos casos prácticos.

En particular, el caso número 1 aquí es uno de esos casos en los que pudimos ejecutar datos de Slack a través del modelo TAR en un protocolo acordado con el Departamento de Justicia. Por lo tanto, muchos de estos documentos contienen muchas, muchas, muchas más comunicaciones más pequeñas, porque de nuevo, estábamos trabajando con esos archivos de texto secundarios preparados para analítica combinados que creamos a través de nuestros algoritmos personalizados de aquí.

Siempre animo a mis clientes a considerar el uso de TAR o usar CAL y simplemente volver a realmente justo, en general... puedes usar estas herramientas sin duda para QC. Puedes utilizar estas herramientas para encontrar más documentos que te interesen. Puedes hacer feeds. Puede agrupar documentos en diferentes niveles de un intervalo [similar a la conferencia]. Hay muchas formas diferentes de utilizar piezas de revisión asistida por tecnología para mejorar cualquier revisión tanto desde el punto de vista de calidad, control de calidad, como para reducir el riesgo, y para ayudarlo a encontrar esos documentos de tipo Aguja en el Pajar.

E incluso volver a clasificadores y cosas por el estilo, poder sacarlos y moverlos de caso a caso a nivel de cliente individual es genial, pero ahora también se nos pide que utilicemos este tipo de herramientas de forma proactiva desde el punto de vista de cumplimiento para las organizaciones que intentan identificar el riesgo como éste. está sucediendo. Estamos utilizando realmente el texto subyacente para ayudar en más flujos de trabajo de cumplimiento, analizar el correo electrónico semanalmente o en directo para detectar conceptos clave.

Animo a todo el mundo a pensar realmente fuera de la caja aquí también, porque hay mucho valor que puedes proporcionar a tus clientes cuando empiezas a pensar en las aplicaciones ampliadas de la revisión asistida por tecnología.

Anya Korolyov

Gracias, Mike. Y solo quiero devolvérselo a Adam para cubrir también los costos de CAL.

Adam Rubinger

Y una de las diferencias interesantes entre estas dos tablas es la formación teórica de la base de datos TAR 1.0 y luego una especie de stop review y el sistema predice. Con CAL, como han descrito Anya y Young y Seth, estás poniendo a un equipo de revisores sobre el asunto y están empezando a revisar, y a medida que el sistema aprende, pasas de documentos muy receptivos a documentos muy insensibles. Y estos ejemplos del mundo real ilustran cómo empezamos con un corpus de datos bastante grande, y hay algunos valores atípicos que son interesantes. Como los números son más bajos, puede ver que tarda más tiempo en estabilizar el sistema y encontrar un punto en el que pueda interrumpir la revisión. Y como lo ilustran las cifras más grandes, puede ver algunos ahorros significativos al utilizar esta estrategia, especialmente cuando realmente tiene poca riqueza, y aún tiene que hacer una revisión de sustancias para construir su caso en jefe y poder clasificar documentos y analizarlos a lo largo de todo, a medida que está construyendo su producción. sets y cosas así.

En todos los casos, vemos que tanto TAR 1.0 como TAR 2.0 ahorran cantidades considerables de dinero que hacen que valga la pena incluso en el más pequeño de los casos.

Anya Korolyov

Gracias, Adam. Solo con eso, y creo que esta próxima diapositiva también responderá a algunas de las preguntas. ¿Qué sigue en Analytics?

Ahora, que estamos aquí, ¿qué viene después? Y creo que lo primero

de un modelo híbrido va a lo que es TAR 3.0 y creo que Brainspace está haciendo grandes olas allí, así que Young, si quieres hacerte cargo de tu tema favorito.

Young Yu

Por lo tanto, Brainspace en la última versión ha introducido la implementación de un conjunto de controles independientemente de si se trata de aprendizaje activo o TAR 1.0. Lo que eso significa realmente para el aprendizaje activo es que puedes obtener muy fácilmente... puedes medir fácilmente la precisión de la retirada. Normalmente, es un poco más difícil, las matemáticas definitivamente pueden resolverse, es un poco manual, pero te da la misma apariencia que si estuvieras ejecutando una codificación predictiva o un proyecto TAR 1.0.

Para TAR 1.0, ¿qué significa? Si tiene un cambio en la capacidad de respuesta o si la capacidad de respuesta cambia con el tiempo, puede colocar otro conjunto de controles para actuar como segunda medida. Permite la flexibilidad para pasar de TAR 1.0 a TAR 2.0, o en cualquier tipo de escenario impar, pasar de TAR 2.0 a TAR 1.0, pero sí te da más visibilidad de las métricas.

Hay un par de preguntas ahí fuera que tocan esto. Anya, ¿te importa si los reviso muy rápido?

Anya Korolyov

Por supuesto, adelante.

Young Yu

Bien, entonces el primero es «La retirada aceptada de alrededor del 80% es defendible».

El 80% es algo alto. Por lo general, recomendamos retirar alrededor del 75%. Es un balancín, cuanto mayor sea la retirada, tendrás una compensación de precisión. Normalmente se acepta el 75%. Ir más alto que eso con un margen de error más alto, o digamos, un mayor nivel de confianza y un margen de error más bajo, eso no es propicio para TAR 1.0. Significa que tendrás que revisar muchos más documentos.

Para los tamaños de datos sugeridos, cuántos documentos necesitas entrenar, es proporcional. Cuando estás viendo estos números, la riqueza entra en juego. En la medida en que tenga un acuerdo con los contrarios o los reguladores, es proporcionalidad. Si tiene 3 millones de documentos, cuántas decisiones debe tomar para que parezca razonable decir que hemos entrenado el modelo. En un escenario TAR 1.0, estás buscando alcanzar la estabilización. La estabilización es donde ya no se ven cambios enormes en la precisión y la [profundidad] para la retirada. Por lo tanto, lo que está sucediendo es que las decisiones que has tomado son consistentes, no ves que la precisión pase del 55-60% al 70%, tienes casi como un promedio en línea recta.

En el aprendizaje activo, la industria lee que se encuentra entre el 10 y el 15% de su población antes de haber entrenado suficientemente el modelo. La advertencia siempre va a ser la diversidad conceptual. Por lo tanto, solo sabes lo que sabes. Cuando estás juzgando la capacidad de respuesta sobre un concepto que no has encontrado antes, cuántos de esos conceptos existen. Por lo tanto, el agrupamiento y la búsqueda conceptual que recomendamos por adelantado juegan mucho en esto. Si puedes decir que has cumplido tu diferencial, has hecho tu cobertura y conocemos el 90-95% de los conceptos dentro de nuestra población de datos, el 10% puede funcionar. Una vez más, cada conjunto de datos es diferente, y odio dar una respuesta «depende», pero hay un par de factores que debes tomar. También es la razón por la que, al pasar por el proceso, tener un experto en la materia que pueda dar fe del proceso y documentar el proceso y presentarlo, es muy importante tenerlo.

Anya, no quise salir del tema aquí, adelante.

Anya Korolyov

No, no, estás bien. Como ya estamos en las preguntas, voy a tomar: «¿El duplicado casi es lo mismo que encontrar similar?»

No es lo mismo. El casi duplicado se basa únicamente en el texto del documento. El análisis tomará el texto real del documento y comparará las palabras reales del documento. Encontrará el documento que tiene más texto y luego clasificará todos los demás documentos en un porcentaje similar a ellos. Encontrar similar es más bien un concepto de «analítica», donde encontrará documentos conceptualmente similares, no necesariamente documentos textualmente similares.

Creo que Seth sería genial responder a la pregunta relevante y receptiva.

Seth Curt Schechtman

Voy a llegar a eso. Solo una pregunta que Young había respondido, así que creo que había una pregunta entre la revisión manual humana y la revisión asistida por computadora.

Suponiendo que los humanos fueran [inaudibles] para cualquier revisión, para cada documento y si has ejecutado términos de búsqueda o no y encuentren el 100%, entonces dirás que los algoritmos van a encontrar el 80%, tal vez en el mejor de los casos, el 90% puede ser el mejor que hayas visto. ¿Cuál es el costo de encontrar esos otros documentos? Eso es lo que se reduce. Se reduce a la proporcionalidad. ¿Está gastando oodles y oodles de dinero vertiendo 95, 98, 99 documentos que no responden para encontrar esos otros que respondan? Eso es lo que realmente se reduce. La respuesta es que tienes que encontrar a cada uno, ya sea porque... diré que es un caso de descomposición, o porque es, no sé, tal vez una investigación interna y un documento pueden marcar la diferencia, entonces tal vez quieras revisar cada uno de ellos. Tal vez quieras encontrar a cada uno. Depende de cuál sea el costo y de si puedes conseguir que el otro lado del gobierno te permita aceptar estas cosas. TAR está bien aceptado en la jurisprudencia. Desea usarlo para ahorrar dinero, pero en algunos casos en los que es posible que no quiera usarlo.

Pasando a la cuestión de la relevancia versus la capacidad de respuesta. Una de mis preguntas favoritas de todos los tiempos en revisión. Diré que depende. La relevancia es más amplia. La capacidad de respuesta es limitada. Cuando recibes una solicitud de producción, te piden cosas que respondan. Eso no significa que hayan dejado de lado un montón de cosas que pueden ser relacionadas con el caso, relevantes para el caso, relevantes para el asunto, pero simplemente no lo han pedido. Cuando estás entrenando algoritmo, si el final va a ser, estamos produciendo este conjunto, ya sea que cortemos una revisión o no, quieres ir con capacidad de respuesta, cierto, porque eso es a lo que tenían derecho. No querrás dar al otro lado todo lo demás que puede estar relacionado con el caso, pero puede que no responda. Solicitado específicamente, no querrás ser demasiado amplio en tus producciones, sino una pregunta excelente y espero haberlo respondido.

Young Yu

Por lo tanto, a la otra pregunta que existe en términos de negociación con los protocolos TAR ESI. Precisión y retirada. Mi respuesta va a ser una falta de respuesta aquí. No prometería nada. Recordemos que el 75% es una tolerancia aceptable. Para mayor precisión, es una pregunta más difícil. En realidad, va a depender de la cantidad de comentarios que quieras hacer. Además, la definición de capacidad de respuesta jugará mucho allí. precisión aceptable. En general, me gustaría ver una precisión superior al 65%, eso es lo que busco. No todas las fundas están construidas de la misma manera. No todos los conjuntos de datos se crean de la misma manera. Hemos visto tan bajos como 20 años bajos, adolescentes altos, y todavía podemos obtener la aprobación de ese proceso. Así que, en términos de negociaciones, no cimentaría la precisión en piedra.

TAR 3.0, podemos esperar hasta que Mike hable con algunos de los otros Lo que sigue en Analytics.

Anya Korolyov

Y para volver a lo que es aceptable, lo que no lo es. Ciertamente hemos tenido casos en los que, como dijo Young, siempre, en HayStackID, recomendamos 65, pero hemos tenido casos que nunca superaron los 23, 24, pero llegamos a la estabilización y hemos... los abogados pudieron tomar los datos, tomar los informes, retroceder y decir: 'Mira, sé que empezamos queriendo 65, pero aquí es donde estamos, aceptemos cortarlo, aceptemos terminar la revisión aquí y simplemente pasar a la producción». Así que, de nuevo, siempre es... siempre querrás mirar los datos disponibles para ti y sé, como abogados, los datos son abrumadores y los informes y todo eso, pero aún quieres asegurarte de mirar lo que tienes delante, considerar todo, incluido el costo y dónde necesitas estar al final, lo que hace que más sentido para el cliente.

A menos que alguien más tenga más aportes, quiero devolvérselo a Mike para hablar de las cosas emocionantes que son el análisis de sentimientos, los emojis, los datos financieros, la PII, la PHI, todo eso bueno.

Michael Sarlo

Claro, muchas gracias, Anya, y vamos a tener poco tiempo, así que lo haré bastante rápido. Las conclusiones clave, y siempre les digo esto a la gente, el análisis desde el punto de vista de eDiscovery, los motores, las herramientas y la tecnología subyacente y su aplicación no son tan avanzados como otros sectores que pueden depender del análisis de datos. Simplemente no necesitamos muchas de las aplicaciones ni muchas de las bibliotecas y herramientas personalizadas necesarias, un enfoque más matizado que sea específico de una organización y sus datos o de un problema que intenta resolver. Pasamos bastante tiempo trabajando con este tipo de herramientas de análisis de tipo fuera del mercado, ya sea de código abierto como bases de datos de gráficos, como Neo4j, que pueden permitirle hacer algunas cosas realmente interesantes.

Donde vemos las cosas también y en realidad dónde obtiene capacidades analíticas mucho mejores desde el punto de vista de la muestra y poder hacer más con sus datos es simplemente más acceso al hardware. Al poner las cosas en la nube, es muy barato hacer cálculos de big data lake desde un punto de vista computacional y, en última instancia, desde el punto de vista de los costos. A veces pienso en cuánto tiempo habría tardado el material hace tres, cuatro, cinco años a medida que te adentras en funciones más avanzadas para analizar tus datos. Utilizamos bases de datos gráficas para analizar conjuntos de datos financieros mucho más grandes, como los registros de llamadas. Estamos uniendo la actividad de los usuarios en una amplia gama de sistemas con documentos reales que se están creando en un cronograma, solo más servicios de investigación.

Y en realidad, también para todos los presentes, lidiar con toda la PHI, la PII, el RGPD, la privacidad de los datos y poder identificarlo, ya que... realmente estamos trabajando bastante con nuestros propios motores de cosecha propia y luego también confiamos en API de Google y de Microsoft y de Amazon, que todos hacen diferentes piezas de la PII rompecabezas de detección, así que eso es algo que estamos ofreciendo a los clientes hoy en día también. En realidad, en nuestro descubrimiento posterior a la infracción, como la ciberética, como la revisión de la práctica, pero todos nuestros asuntos multinacionales en los que estamos tratando datos que pueden estar en APAC o en Europa, y con problemas del RGPD, es muy importante poder identificar la PII desde el principio. Las búsquedas de palabras clave solo funcionan tan bien, así que animo a todos a explorar aquí. Hay muchas herramientas de código abierto y recursos realmente geniales en Internet en estos dominios.

Adam Rubinger

Gracias, Mike. Sé que se nos está acabando a tiempo aquí, pero quería abordar la pregunta TAR 3.0. TAR 3.0, no quiero decir que sea un retroceso a TAR 1.0, pero adopta un enfoque similar. Aquí hay capas adicionales, así que tradicionalmente lo que verás en el agrupamiento es que obtendrás una capa central o un clúster y luego saldrá hacia los brazos exteriores. Por lo tanto, con TAR 3.0, piénsalo más como un diagrama de Venn donde un documento puede vivir en varios diagramas de Venn simplemente sentados uno encima del otro. Puede tener un documento que en realidad vive en 40.000 clústeres.

Lo que hace es tomar núcleos de clúster, enviárselos. Cuando tomas una decisión de respuesta, se trata de taladrar una capa hacia abajo y luego pedirte que codifique la capa subyacente subyacente posterior. Es muy difícil de visualizar. Hay un blog muy bueno sobre esto. Si simplemente escribes «TAR 3.0», podrás leer algo de luz. Alternativamente, puede ponerse en contacto con nosotros y podemos consultarle allí.

Michael Sarlo

Sí, y me gustaría decir que se trata en gran medida de un flujo de trabajo. Puede simular los efectos de TAR 3.0 mediante el uso táctil de diferentes capacidades de rondas de entrenamiento en Brainspace. Además, junto con el muestreo estratégico por adelantado, hacer algunos análisis de términos de búsqueda y luego cargar por adelantado algunos de esos resultados en el modelo casi como un pre-entrenamiento y feeds, pero luego usarlos para obtener documentos que sabe que son importantes o relevantes al principio del proceso TAR 2.0. Por lo tanto, podemos poner en marcha los modelos de esa manera, y a menudo obtienes los mismos efectos aquí. Creo que TAR 3.0 es realmente ese flujo de trabajo híbrido dependiendo de con quién hables. Hay otras plataformas que han empezado a intentar marcar esto de forma más algorítmica. Es un proceso totalmente diferente, pero diría que todas las principales plataformas analíticas ofrecen algunas capacidades en este dominio.

Muy bien, bueno, muchas gracias a todos. Voy a empezar a Rob Robinson para cerrar esto. Agradecemos mucho que se hayan unido hoy. No dude en ponerse en contacto con cualquier pregunta. Estaremos encantados de responderles. Siempre estamos disponibles. Solo tienes que grabar un correo electrónico o contactarnos en nuestro sitio web.

Clausura

Muchas gracias, Mike. Y gracias a todo el equipo por la excelente información y el conocimiento de hoy. También queremos tomarnos el tiempo para agradecer a todos y cada uno de ustedes que asistieron al webcast de hoy. Sabemos realmente lo valioso que es su tiempo y agradecemos que lo haya compartido con nosotros hoy.

Por último, quiero destacar el hecho de que esperamos que tenga la oportunidad de asistir a nuestro webcast mensual programado para el 17 de febrero a las 12 p.m. Este, y se tratará sobre el tema de la filtración, el descubrimiento y la revisión de datos. En esta próxima presentación, contaremos con expertos en ciberseguridad, expertos en privacidad y expertos en descubrimiento legal que compartirán cómo las organizaciones pueden prepararse para responder a un incidente relacionado con la ciberdelincuencia, y esperamos que pueda asistir.

Gracias de nuevo por asistir hoy. Estar seguro y saludable. Y esto concluye el webcast de hoy.

HAGA CLIC AQUÍ PARA DESCARGAR LAS DIAPOSITIVAS DE PRESENTACIÓN

Webcast - TAR en el mundo real - 011321 - Actualización

HAGA CLIC AQUÍ PARA VER LA PRESENTACIÓN BAJO DEMANDA