[Transcription du webcast] Le TAR dans le monde réel : de la promesse à la praticité

en flag
nl flag
fr flag
de flag
pt flag
ru flag
es flag

Note de l'éditeur : Le 13 janvier 2021, HayStackID a partagé une webémission éducative destinée à informer et à mettre à jour les professionnels du droit et de la découverte de données sur les technologies analytiques les plus avancées du secteur et pour mettre en évidence les flux de travail recommandés et les cas d'utilisation appropriés pour obtenir des augmentations significativement percutantes. dans l'efficacité et l'exactitude de l'examen des documents lors de l'utilisation des examens assistés par la technologie. Bien que la présentation complète enregistrée soit disponible pour consultation à la demande via le site Web HayStackID, vous trouverez ci-dessous une transcription de la présentation ainsi qu'une version PDF des diapositives qui l'accompagnent pour votre examen et votre utilisation.

Le TAR dans le monde réel : de la promesse à la praticité

Les experts et les commentateurs eDiscovery ont défendu la promesse d'un examen assisté par la technologie (TAR) depuis la décision Da Silva Moore du juge Andrew Peck en février 2012. Mais comment se porte exactement le TAR dans le monde réel de la découverte complexe ? Plus important encore, comment la dernière génération d'outils d'analyse structurée et conceptuelle est-elle utilisée pour augmenter l'efficacité et générer des résultats positifs, traduisant la promesse de TAR en résultats pratiques ?

Dans cette présentation pratique, les experts en analyse eDiscovery et en révision juridique partageront un aperçu des technologies analytiques les plus avancées du secteur et mettront en évidence les flux de travail recommandés et les cas d'utilisation appropriés pour obtenir des augmentations significativement percutantes de l'efficacité et de la précision de l'examen des documents.

Points forts de la webdiffusion

+ Analytiques structurées : Enfiler l'aiguille des e-mails

+ Analyse conceptuelle : des choix (TAR 1.0 v. 2.0) aux clusters

+ Cerveaux et brawn : Considérer l'espace cérébral et la relativité

+ Un bon point d'arrêt : pourquoi et quand des décisions de flux de travail avec l'apprentissage actif continu

Experts présentateurs

+ Michael Sarlo, ENCE, CBE, CCLO, RCA, CCPA - Michael est associé et vice-président principal de la découverte électronique et de la recherche scientifique numérique chez HayStackID.

+ Adam Rubinger, JD. - En tant que vice-président exécutif chez HayStackID, Adam possède plus de 20 ans d'expérience et d'expertise appliquée dans le conseil, le conseil et la gestion de projets eDiscovery à grande échelle.

+ Anya Korolyov, Esq. - En tant que directrice de la gestion de projet chez HayStackID, Anya possède 12 ans d'expérience dans le domaine de la découverte électronique avec Second Requests en tant qu'avocate et consultante.

+ Seth Curt Schechtman, Esq. - En tant que directeur général principal des services de révision pour HayStackID, Seth possède une vaste expérience en matière d'examen, y compris les actions collectives, les MDL et les Second Requests.

+ Young Yu - En tant que directeur du service à la clientèle chez HayStackID, Young est le principal conseiller stratégique et opérationnel des clients en matière de découverte électronique.

Transcription de présentation

Introduction

Bonjour, et j'espère que vous passerez une excellente semaine. Je m'appelle Rob Robinson et au nom de toute l'équipe de HayStackID, je tiens à vous remercier d'avoir assisté à la présentation d'aujourd'hui intitulée TAR in the Real World : From Promise to Practicality. La webémission d'aujourd'hui fait partie de la série mensuelle de présentations éducatives de HayStackID menées sur le réseau BrightTalk et conçues pour garantir que les auditeurs sont prêts de manière proactive à atteindre leurs objectifs en matière de criminalistique informatique, de découverte électronique et de révision juridique pendant les enquêtes et les litiges. Nos présentateurs experts de la webémission d'aujourd'hui comprennent cinq des experts en la matière les plus importants du secteur et des autorités de révision juridique possédant une vaste expérience dans le soutien des examens assistés par la technologie.

La première introduction que j'aimerais faire est celle de Michael Sarlo. Mike est directeur de l'innovation et président de Global Investigations chez HayStackID. À ce titre, Michael facilite toutes les opérations et l'innovation liées à l'eDiscovery, la médicolégale numérique et la stratégie de contentieux, tant aux États-Unis qu'à l'étranger.

Deuxièmement, j'aimerais vous présenter Adam Rubinger. Adam est directeur de l'expérience client avec HayStackID. Il possède plus de 20 ans d'expérience et d'expertise appliquée dans le conseil, le conseil et la gestion de projets eDiscovery à grande échelle dans ce rôle.

J'aimerais ensuite souhaiter la bienvenue à Anya Korolyov, directrice de la gestion de projet chez HayStackID. Anya possède 12 ans d'expérience en eDiscovery avec une vaste expertise en Second Requests en tant qu'avocate et consultante.

J'aimerais également souligner Seth Schechtman en tant que directeur général principal des services d'évaluation pour HayStackID. Seth possède une vaste expérience en matière d'examen, y compris les actions collectives, les MDL et les Second Requests.

Enfin, j'aimerais vous présenter aujourd'hui Young Yu. Young est le directeur des services à la clientèle avec HayStackID. Dans son rôle, Young est le principal conseiller stratégique et opérationnel des clients en matière de découverte électronique.

HayStackID enregistrera la présentation d'aujourd'hui en vue d'un visionnement futur, et une copie du matériel de présentation sera disponible pour tous les participants. Vous pouvez accéder à ces matériaux directement sous la fenêtre d'affichage de présentation de votre écran en sélectionnant l'onglet Pièces jointes dans la position extrême gauche de la barre d'outils sous la fenêtre de visualisation. De plus, nous avons plusieurs questions de sondage aujourd'hui. Ces questions apparaîtront sous l'onglet Vote.

Pour le moment, j'aimerais remettre le micro à nos présentateurs experts, dirigés par Mike Sarlo, pour leurs commentaires et considérations sur la révision assistée par la technologie et son utilisation pratique dans le monde réel. Mike ?

Michael Sarlo

Merci beaucoup, Rob, et merci à tous d'avoir rejoint la webdiffusion de ce mois-ci. Nous sommes vraiment heureux de vous avoir. Nous avons de nouveaux haut-parleurs sur le circuit. Anya et Young, en particulier, d'un point de vue opérationnel, passent beaucoup de temps à traiter l'analyse, tant du point de vue de l'examen du système technologique que du point de vue de l'apprentissage actif continu, de l'analyse structurée pour certaines de nos questions les plus complexes. Adam Rubinger conseille également ses clients depuis des années sur l'utilisation efficace de ces technologies, que nous connaissons tous et que nous aimons tous, et moi-même, je m'occupe de l'analyse des données depuis de nombreuses années. Par conséquent, nous constatons souvent qu'il y a parfois des désinformations ou des déconnexions concernant la façon dont les différentes fonctionnalités, outils et flux de travail doivent être utilisés lorsque vous commencez à entendre le mot analytique ou le mot de révision du système technologique, et en tant que fournisseur, nous sommes uniques dans notre position pour travailler avec de nombreux clients différents via leurs attentes en matière de flux de travail, puis du côté de la livraison.

Donc, nous allons commencer par une discussion sur l'analyse structurée, nous allons passer à l'analyse conceptuelle et répartir les différences entre TAR 1.0 et TAR 2.0, nous allons mettre en évidence certaines des différences entre Brainspace et relativités, et les similitudes, puis nous allons jetez vraiment un coup d'œil au moment où vous vous arrêtez vraiment du point de vue de la CAL, en utilisant cette technologie pour faire court à un avis.

Donc, fondamentalement, la découverte électronique a été transformée et se transforme chaque jour, par l'application pratique de l'analyse et de mon point de vue, toutes les économies de coûts mises à part, le véritable objectif ici est de transmettre les faits pertinents aux équipes de cas plus rapidement et plus tôt dans n'importe quelle affaire, et je sais qu'Adam a tout à fait un peu de commentaires ici aussi, juste de son expérience avec de très grandes entreprises qui tirent parti de ces outils.

Adam Rubinger

Merci, Mike, et comme eDiscovery a mûri au fil des ans, les volumes sont arrivés au point où il est presque impossible de vraiment faire de la découverte électronique sans l'utilisation d'analyses et de revues assistées par la technologie. Nous assistons à la hausse et à l'adoption à un rythme assez rapide. Du point de vue des clients, nous constatons qu'il est presque en train de devenir habituel pour les clients d'utiliser le TAR, l'apprentissage actif continu en particulier, pour aider à réduire les coûts et à accéder plus tôt à l'information, comme l'a dit Mike. De notre point de vue, nous voyons des clients qui utilisent l'analytique de manière à ce qu'ils soient destinés à cet usage, ils les utilisent de manière à vraiment prendre d'énormes quantités de données et à les rendre plus accessibles, les rendre disponibles plus tôt pour les plaideurs pour établir leur cas en chef, pour que les équipes d'examen puissent obtenir vers les informations les plus importantes le plus rapidement, puis, en fin de compte, les économies de coûts sont l'objectif ultime qui, du point de vue du coût total des examens, de l'examen des documents et du passage au crible des données, de la disponibilité de ces outils, nous constatons des économies de coûts très, très mesurables et importantes et gains d'efficacité en l'utilisant. Ainsi, de notre point de vue, la découverte électronique est transformée par l'utilisation de l'analyse, et elle fait partie intégrante de l'énoncé ou du flux de travail qui se produit au quotidien. Presque tous nos clients utilisent l'analyse d'une manière ou d'une autre dans presque tous les cas.

Anya, pourquoi ne pas commencer à parler d'analyse structurée ?

Anya Korolyov

Merci, Adam. Ainsi, comme Adam et Mike l'ont mentionné, l'époque de la révision linéaire, juste une revue linéaire directe, est presque révolue. Tous les cas utilisent, à tout le moins, l'analyse structurée, et juste pour passer en revue très rapidement certains des éléments de base, l'ID de la langue, je sais que cela semble donné, mais même dans les cas où le client vient nous voir et dit que tous les gardiens sont des États-Unis, il n'y a aucune chance que nous ayons une autre langue étrangère, nous J'aime le faire simplement pour nous donner une image plus complète, et pour savoir qu'une fois que nous sommes arrivés à la partie apprentissage automatique, à quoi nous avons affaire, avons-nous besoin d'un expert en la matière capable de parler dans la langue étrangère, avons-nous besoin de faire des traductions, juste très rapidement, de sortir cela du chemin. Pour l'analyse quasi-dupliquée, nous l'utilisons bien sûr dans le but d'identifier les quasi-doublons, de nous assurer qu'ils sont codés de la même manière, tous les bons éléments, mais nous l'utilisons également pour nous aider à former le modèle lorsque nous arrivons à l'apprentissage automatique. Parfois, nous recevons des cas et nous ne savons tout simplement pas par où commencer. Tout ce que nous avons, c'est un plaidoyer, nous avons des expositions, donc nous créons des documents et nous les alimentons dans notre population, et nous utilisons l'analyse quasiment dupliquée pour nous aider à identifier les documents clés plus tôt, et nous aider à obtenir une image plus claire et peut-être à nous faire passer de l'identification de documents similaires à ceux qui entrent également en nom. la normalisation et l'outil de communication dans Brainspace, et avec cela, une fois que nous l'avons exécuté, nous obtenons une image beaucoup plus claire qu'avec l'utilisation des métadonnées en haut de l'e-mail, depuis/vers. Nous obtenons toute la gamme des personnes qui communiquent avec qui, sur quels sujets, et la combinaison de l'analyse quasiment dupliquée et de la normalisation des noms nous rapprochent vraiment de l'apprentissage automatique et de nous amener à disposer de nos documents clés que nous pouvons utiliser pour former le système, et bien sûr, nous arrivons à — tout le monde. connaît bien le threading des e-mails. Tout le monde, j'en suis sûr, l'a au moins vu et le thread d'e-mails est lorsque nous avons un groupe d'e-mails apparemment sans rapport et que nous l'exécutons, et que nous arrivons à nos e-mails inclusifs, et que nos e-mails inclusifs sont des e-mails avec un contenu unique, donc toute pièce jointe unique ou le dernier e-mail de la chaîne, et absolument, nous l'utilisons dans le but prévu et nous avons des cas où nous avons immédiatement conclu des accords selon lesquels nous allons seulement examiner les e-mails ci-joints, mais il existe de nombreuses autres façons d'utiliser le threading d'e-mails et de l'intégrer dans notre flux de travail avec des analyses générales, et avec cela, j'aimerais pour le remettre à Seth, et à notre premier sondage.

Seth Curt Schechtman

Merci, Anya, j'apprécie cela. Donc, la première question de sondage de la journée, de l'année dernière, à quelle fréquence avez-vous utilisé le filetage pour organiser l'examen et aider au contrôle de la qualité ? Maintenant, Rob va ouvrir le sondage pour nous. Au fur et à mesure que les résultats arriveront, j'en parlerai un peu, comme Anya l'a déjà mentionné, que vous avez peut-être des accords ESI en place qui permettent la suppression des non-inclusions, donc documentez les e-mails qui font partie d'autres e-mails, ce qui signifie que moins sont inclus. Par conséquent, si vous les excluez d'un avis, vous n'excluez pas le contenu qu'ils contiennent de la production. Cela ne veut pas dire que vous obtiendrez toujours ça. C'est peut-être le cas du gouvernement, il se peut qu'ils ne l'autorisent pas, ils ne l'autorisent que dans certaines situations. En particulier, nous avons constaté dans certaines secondes demandes que vous n'avez peut-être pas à enregistrer les non-inclusifs si toutes leurs inclusives sont codées comme privilégiées, ce qui permet de gagner du temps sur le sens de la journalisation des privilèges.

Je vais dire quelques mises en garde quand vous ne voudrez peut-être pas supprimer. Donc, comme je l'ai mentionné, supprimer de la production, c'est-à-dire. Nous avons vu des arguments de la part des avocats, en particulier, pour des cas peut-être compliqués, peut-être pendant les dépositions, où vous ne voulez pas montrer au déposant les réponses à certains courriels, donc tout ce que vous voulez montrer est le moins inclus, et si vous les avez supprimés de l'examen en production, vous ne serez peut-être pas en mesure de faire. que. De plus, vous risquez de perdre du contexte dans le journal des privilèges. Il y a certainement des solutions que nous avons développées, HayStackID a développé, mais si vous ne coupez pas un document et ne le consignez pas comme privilégié, vous risquez de perdre les informations To, From, CC, mais si vous pouvez regrouper ces informations à partir de ces groupes de discussion, y compris moins, dont nous disposons de systèmes et de processus, pour cela, vous ne perdez pas ce contenu.

Donc, en regardant les résultats des sondages, il semble que nous ayons une pluralité sur la plupart des critiques utilisant le threading, chaque avis est de 30%, donc, c'est bon à voir, et puis 12% n'est pas utilisé régulièrement. Nous l'utilisons sur tous les sujets, même si vous ne supprimez pas ces documents de la révision, mais vous souhaitez que les documents soient triés au minimum lorsqu'ils sont envoyés à l'équipe de révision par ces groupes de discussion. Un grand nombre de nos critiques, et nous en parlerons plus tard, impliquent TAR ou CAL, ou coupent l'examen, ce qui signifie que nous n'examinons pas tous les documents, tous les documents productibles ou potentiellement productibles. Vous mettrez de côté certains documents qui vont directement à la production. Maintenant, il existe certains e-mails où vous risquez de perdre certains résultats de recherche ou des résultats de recherche non publiés, en particulier pour les données Gmail, mais nous l'avons également vu avec Microsoft, où vous perdez des informations d'en-tête sur les moins inclus, et donc si vous ne vérifiez que des documents avec des privilèges, vous êtes certainement certain Je veux vous assurer que vous apportez des threads complets s'il y a un accès privilégié sur cet e-mail juste pour ne pas perdre potentiellement... produire un document privilégié en pensant qu'il n'avait pas de privilège [inaudible] hérité.

L'autre chose pour laquelle nous l'utilisons et développons des scripts et des outils, est à des fins de contrôle de qualité. Nous avons vu des régulateurs et d'autres, la partie adverse, les expursions d'attaque sont des incohérences entre les groupes de discussion. De toute évidence, nous avons vu que depuis des années dans les MD5, des copies individuelles de documents différents ou similaires, mais en termes de groupe de discussion, nous constatons cela de plus en plus. Le plus difficile de les repérer traditionnellement, c'est que vous n'avez qu'un groupe de discussion et, comme nous le savons tous, les conversations peuvent se diviser dans plusieurs directions différentes, et un document apparemment non privilégié peut se transformer en un document partiellement privilégié, qui a été transmis à un avocat. Ce que nos outils font, c'est de déterminer où ces divergences se produisent sur une tige individuelle à travers un thread et de savoir où vous avez un document non privilégié ou une partie non privilégiée de la tige, mais très probablement que la retenue priv ou priv aurait dû être codée comme priv expurgé, ou vous auriez un priv partiel ou un priv complet, priv retient les droits non privilégiés dans le système et très probablement ces documents privilégiés sous-jacents ont été publiés et considérés comme non privilégiés. Donc, il y a de bons outils. Je recommande certainement de filmer au minimum chaque cas pour ces raisons, et une chose que je n'ai pas mentionnée, c'est que nous disons pour le tri, cela accélère l'examen, s'assure que les mêmes avocats examinent les mêmes conversations encore et encore et encore, connaissent bien le contexte et ne sont pas obligés de le faire. réapprendrez-le ou qu'une nouvelle personne l'apprenne.

La visualisation des threads, quelques excellents outils disponibles également. Pour ces apprenants visuels, cela vous aide à identifier les endroits où ces cohérences sont observées, mais encore une fois, une incohérence sur son visage peut ne pas être sans être en mesure de s'enfoncer et de s'enfoncer pour voir où cette incohérence se produit.

Anya Korolyov

Merci, Seth, et encore une fois, nous n'utiliserions pas toutes ces analyses structurées, des analyses strictement basées sur des tâches sans aucun concept, juste ce qui est disponible pour nous. Nous les utilisons tous pour nous aider à atteindre le point où nous commençons l'apprentissage automatique et aussi à la fin comme le QC, tous combinés constituent un excellent outil pour le QC. Et avec cela, nous allons passer au machine learning, et j'aimerais le remettre à Young pour nous présenter.

Jeune Yu

Merci, Anya. En ce qui concerne l'apprentissage automatique ou l'analyse conceptuelle, il existe deux types. Il y a un apprentissage supervisé et non supervisé. Vous voulez les considérer comme des méthodes objectives et subjectives que le système utilise pour classer des pools de documents similaires, l'apprentissage non supervisé couvrira le clustering et la recherche de concepts. Ces outils fournissent un aperçu de la composition conceptuelle de la collection de documents sans aucune contribution de réviseur humain. C'est un très bon moyen de jeter un coup d'œil aux inconnues de votre ensemble de données ou de confirmer toutes les hypothèses que vous avez pu avoir eu au début du projet, car il ne nécessite aucune entrée humaine.

Apprentissage supervisé, qui couvre vos modèles de TAR, et qui nécessite une contribution humaine. Les décisions que vous prenez en matière de réactivité, le système catégorisera les documents et les évaluera. Selon le modèle que vous choisissez, les partitions seront gravées dans la pierre, ou elles sont constamment mises à jour, mais les scores indiquent une proximité entre la similitude conceptuelle et les décisions que vous avez prises. En règle générale, les scores les plus élevés sont plus conceptuellement similaires à ceux d'un document réactif, et les scores les plus faibles seront plus éloignés des décisions réactives que vous y avez prises.

Anya, voulez-vous parler de clustering ?

Anya Korolyov

Oui, merci, Young. Donc, pour passer en revue certains des concepts d'apprentissage non supervisés, le regroupement est donc un excellent outil, et je sais que certaines personnes n'ont pas eu beaucoup de chance avec cela, mais je pense que la façon dont il était prévu et son utilisation réelle diffèrent en quelque sorte. Nous aimons donc tout regrouper dès le départ, car nous avons constaté que cela nous aide à connaître nos données, et même si c'est aussi basique que ce que nous avons, c'est tout un tas de rendez-vous Outlook, et nous devons les traiter, juste pour connaître non même pas les concepts, mais les données lui-même, et bien sûr, les concepts également, pour identifier des concepts similaires à ceux de si nous avons des documents clés, si nous avons identifié à l'aide de l'analyse structurée où se trouvent les documents clés, ce qu'ils sont, et cela nous aide à savoir où ils se trouvent dans la recherche de concepts et à savoir qui sont les communicateurs, ce qu'ils sont Je parle de ça. Cela nous aide vraiment à tout visualiser dès le départ. Il nous aide également à l'utiliser pour réduire les données dont nous devons nous inquiéter. En effectuant une simple recherche de spam par concept de spam, voici un exemple que nous avons ici fait partie des données [fin d'exécution]. Donc, si vous effectuez simplement une recherche de concept de spam, vous obtenez très clairement 62 000 documents, puis, avec les fonctionnalités Brainspace, vous obtenez tous les concepts similaires répertoriés dans le cluster, et vous pouvez les parcourir et vous pouvez très rapidement prendre la décision de supprimer 62 000 documents de votre avis. et n'ayez jamais à vous soucier d'eux, ne jamais avoir à les regarder à nouveau, et c'est un excellent outil pour nous amener à une population plus restreinte de documents.

De plus, pour revenir à l'utilisation Brainspace de la recherche de concepts, qui est un peu différente de la recherche de concept de Relativity où vous obtenez simplement des documents conceptuels similaires. Brainspace fournit des concepts similaires. Donc, encore une fois, cela revient aux données [fin d'exécution] préférées de tous. En cherchant très rapidement un investisseur minoritaire, vous pouvez voir quels sont les concepts similaires dans les documents qui reviennent pour un investisseur minoritaire, et quiconque a fait une enquête connaît l'ami de la langue de quoi que ce soit est généralement appelé pour quelque chose. Nous pouvons donc sélectionner celui-ci, et nous pouvons entrer dans ces documents et voir de quoi ils parlent et arriver au point où nous avons identifié les personnes clés, les concepts clés utilisant très rapidement Brainspace.

Et cela nous amène à un apprentissage supervisé réel, mais avant d'y arriver, nous voulons couvrir très rapidement que toutes les données ne sont pas entrées dans l'apprentissage automatique. Nous aimerions donc parler des données qui n'y arrivent pas et des problèmes et des solutions que nous avons à leur place.

Jeune Yu

Exact, et lorsque vous analysez des jeux de données pour TAR, qu'il s'agisse de TAR 1.0 ou de TAR 2.0, vos directives seront assez similaires, et il s'agit de types de documents typiques qu'il est recommandé d'exclure de votre index analytique. Il s'agit notamment de documents contenant trop ou trop de texte. Vous avez des fichiers CSV, votre calendrier Outlook, les réponses ou même les invitations qui n'ont pas de contenu corporel de message ; fichiers audio, vidéo ou images, les fichiers CAO entrent dans cette catégorie. Code source et feuilles de calcul, et lorsque vous explorez ces pools de documents, il existe des moyens de les inclure, il existe des moyens de les examiner. Si nous voulons parler de feuilles de calcul ici, votre feuille de calcul normale sera généralement basée sur des nombres. Nous avons vu des cas où il est très lourd de texte, et nous pouvons effectuer une analyse pour voir quel est le rapport entre les caractères alpha et les caractères numériques. Je veux dire, ce sont toutes les choses que vous pouvez faire pour inclure ou exclure diverses poches de documents. Avec les fichiers audio, si vous les avez transcodés ou transcrits, ce texte peut en fait entrer.

Il y a un autre compartiment ici, que nous rencontrons très fréquemment, et ce serait un format de message court. Et, Mike, je pense que vous avez une excellente solution ici, et voulez-vous en parler un peu ici.

Michael Sarlo

Je suis heureux de le faire, Young, et merci. Donc, les types de données alternatifs, le nouveau sujet préféré de tous. Dans eDiscovery, je pense que nous sommes bombardés par de nouvelles sources de données qui ne relèvent pas de vos paradigmes typiques en ce qui concerne le courrier électronique, et par des documents électroniques typiques provenant de partages réseau et d'ordinateurs. Ces types de plates-formes comme Slack et Teams, et simplement des applications de chat, et juste d'autres types de données qui ne se prêtent pas nécessairement à contenir une bordure agréable et emballée autour des idées qu'il contient, tout comme un document Word ou une chaîne de courrier électronique, sont devenus beaucoup plus semblables à ceux de prévalents. depuis le début de la pandémie également, et maintenant que nous en sommes à environ un an, presque toutes les grandes ou petites entreprises utilisent ces outils pour améliorer leur capacité à travailler ensemble avec leurs équipes distantes. Eh bien, l'un des gros problèmes est le type court de données de format de message, comme les chats et les textes, nous n'écrivons généralement pas de la même manière que pour un e-mail. Ils sont courts, parfois on n'utilise pas le nom, parfois il y a des émoticônes. Le problème fondamental ici est simplement de ne pas avoir assez de ce que j'aime appeler une densité conceptuelle dans un seul fichier texte pour que les moteurs analytiques puissent comprendre et apprendre d'un individu, comme une chaîne de texte.

Par conséquent, du point de vue de la collecte et de la production, nous recommandons généralement à nos clients utilisant Slack ou Teams d'essayer de regrouper les chaînes et le contenu des canaux 24 heures sur 24. Cependant, nous commençons à réfléchir à ces types de communications via n'importe quel type de plateforme d'analyse, qui peut parfois ne pas suffire à écrire. Nous avons donc des outils et du code propriétaires que nous avons conçus pour mesurer et tester l'efficacité de la création de ce que j'appellerais prêt pour l'analyse sur mes fichiers de test, en utilisant des champs relationnels distincts, où nous pouvons avoir un fichier texte spécifique pour le chargement dans Brainspace ou Relativity, NexLP, n'importe quel outil cela va lire un texte qui sert de point de référence secondaire pour que ces moteurs aient un peu plus de densité conceptuelle, puis ils peuvent passer par un processus TAR, et nous obtenons de bons résultats ici. Lorsque nous allons produire, nous pouvons commencer à produire sur n'importe quelle fréquence souhaitée par nos clients, dans la mesure où nous utilisons ce domaine relationnel secondaire pour revenir sur ces décisions.

Il faut faire attention ici. De toute évidence, chaque fois que vous introduisez de la complexité dans le processus d'examen assisté par la technologie, vous devez être prêt à attester de la qualité de ce flux de travail réel. Nous avons donc beaucoup de choses ici pour utiliser l'échantillonnage statistique sur les populations réactives et non réactives après le TAR sur ces types de données, afin de pouvoir ensuite travailler avec des conseils externes afin d'établir que le processus fonctionne comme prévu.

De même, pour les conversations sur téléphone mobile, c'est très similaire, et nous essayons toujours de nous assurer que ces fichiers sont prêts pour les analyses et que les fichiers texte correspondent à des participants spécifiques, et que la même chose pour les chats comme Bloomberg ou toute autre chose sera traitée de la même manière. Cela a été énorme dans certains domaines pour nous, où nous avons eu des populations [ponctuelles] totalisant des dizaines de millions de chaînes de communication 24 heures sur 24, plusieurs téraoctets sont de plus en plus fréquentes dans les grandes entreprises, étant en mesure de travailler avec ces données via un flux de travail d'examen assisté par la technologie dans une deuxième demande, ce qui était assez important. sans précédent. Le ministère de la Justice a travaillé avec nous sur ces flux de travail, et ils en ont été satisfaits, ce qui, je crois comprendre, est une première. Par conséquent, nous le faisons davantage en matière de litiges civils, nous le faisons de manière plus générale, et nous avons juste une grande partie de la documentation préconçue pour que nos clients disposent, en réalité, d'un rapport de défensibilité qui leur est livré de manière fluide et reproductible à mesure que les jeux de données se déplacent et se développent tout au long de la durée de vie d'une affaire, ce qui est important parce que parfois vous commencez par une seule population, et vous finissez par en ajouter d'autres, et je suis sûr que Anya et Young vont vraiment approfondir une fois que nous commencerons à décomposer les flux de travail dans TAR 1.0 et TAR 2.0.

Anya Korolyov

Merci, Mike. Je pense que le format des messages courts est un domaine très excitant en ce moment, comme vous l'avez dit. Le ministère de la Justice s'implique dans la prise de décisions, ce qui est acceptable, ce qui ne l'est pas, et l'utilisation de TAR dans des messages courts, c'est une période très excitante pour cela. Je veux revenir en arrière juste une seconde au clustering et dire que nous avons utilisé le clustering, ce qui nous a beaucoup aidé avec les messages à court terme, en raison de leur structure, et tellement pour Teams, pour Slack, tant de personnes entrant dans la salle et quittent la pièce, que beaucoup de fois les noms de les gens deviennent des concepts. C'est donc un excellent... clustering, c'est vraiment un excellent outil pour nous aider à identifier cela.

Et avec cela, passons à l'autre partie passionnante de cette présentation, c'est l'apprentissage supervisé et notre prochain sondage. Au cours de la dernière année, pour quel pourcentage de questions ont dû être examinées pour lesquelles vous avez utilisé TAR 1.0 ou TAR 2.0 ? Chacun a sa propre préférence. Je vais juste commencer à passer en compte ce qu'est TAR 1.0 et TAR 2.0 pour les personnes qui nous ont rejoint et qui ne savent pas, et certains des défis auxquels nous sommes confrontés avec les deux flux de travail.

Et avec cela, notre tout premier défi consiste toujours à définir la pertinence et Young va nous prendre en charge.

Jeune Yu

Ainsi, lorsque vous commencez n'importe quel projet TAR, qu'il s'agisse de TAR 1.0 avec apprentissage basé sur des échantillons ou de TAR 2.0 avec apprentissage actif, vous devez définir la pertinence. Il doit s'agir d'une décision binaire, ce qui signifie que c'est oui ou non. Vous ne voulez pas être trop étroit car vous manquerez périphérique ou partie... des documents qui y sont partiellement réactifs, puis ils changent de la même façon dans l'autre sens. Si vous êtes trop large dans votre définition de la réactivité, le système sera simplement trop inclusif et ramènera presque tout ce qui touche aux décisions que vous prenez. Au fur et à mesure que vous traversez le processus, lorsque vous définissez la réactivité, vous devez vraiment penser aux relations conceptuelles entre les documents, et il s'agit d'un écart par rapport à la révision linéaire, où vous ne regardez pas une famille de documents complète. Chaque document doit être considéré comme un enregistrement autonome, et cette décision de réactivité doit être prise à sa valeur nominale aux quatre coins du document concerné que vous regardez. Et alors que vous traversez également le processus, cette définition de la réactivité ou de la pertinence est énorme, car c'est la mesure du processus TAR. Dans TAR 1.0, la précision sera mesurée par rapport à votre définition de la réactivité. Les scores sont tous directement en corrélation avec cette définition de la réactivité. Malheureusement, si vous avez un changement de portée pour cette définition de la réactivité, disons que vous apprenez quelque chose plus tard, ou que vous avez terminé votre projet. Maintenant, ils demandent que ce soit différent d'un régulateur ou de poser, vous devez apprendre à changer ou à modifier cette définition de la réactivité. Parfois, vous pouvez simplement reprendre là où vous vous êtes arrêté et élargir la portée, et il y aura des moments où vous devrez peut-être commencer tout ce projet. Cela dépend vraiment de la façon dont vous définissez très tôt la pertinence et la réactivité.

Anya Korolyov

Je suis d'accord avec vous pour dire que c'est l'une des décisions les plus importantes, et même une fois que vous avez pris la décision avec laquelle vous allez prendre, je pense que cela continue d'être [inaudible] sur l'endroit où vous vous trouvez dans votre projet.

Merci à tous d'avoir rejoint l'appel, et il semble que la moitié l'ait utilisé. Je vais toujours passer en avant la définition et le flux de travail général. Nous avons donc ici notre organigramme TAR 1.0, et encore une fois, je veux toucher à la base, encore une fois, qu'il y aura des documents dont Young a discuté qui ne feront pas partie de l'ensemble du flux de travail : les documents d'exclusion, les JPG, potentiellement les feuilles de calcul, des choses comme ça. Ainsi, une fois que nous aurons l'index sans documents d'exclusion qui devront encore être examinés, nous avons un expert en la matière qui devra revoir l'ensemble de contrôles, et une fois que l'ensemble de contrôles est examiné, nous arriverons au point où le niveau de marge d'erreur a été atteint ou non, et c'est où la définition de la pertinence entre réellement en place. Parce que si vous possédez des données de très faible richesse, l'expert en la matière va passer beaucoup de temps dans cette boucle, où nous devrons examiner des documents supplémentaires pour que le jeu de contrôle soit fermé.

Donc, c'est très important, et en fait, je pense, c'est la partie où, même ici, vous pouvez dire quoi, peut-être que TAR 1.0 n'était pas la meilleure option pour moi. Je dois passer à TAR 2.0. Mais une fois que vous avez atteint ce niveau d'erreur et que vous passez aux rondes d'entraînement, nous voyons normalement entre un et cinq cycles d'entraînement, et ils se situent généralement entre 300 et 500 documents. Encore une fois, tout cela dépend des données. Si nous avons commencé avec 10 millions de documents, les cycles de formation seront un peu différents. Et vous continuez avec les rondes d'entraînement jusqu'à ce que vous atteigniez la précision et la stabilité souhaitées, et cela signifie que cela dépend d'un cas par cas. Il peut y avoir des avocats opposés qui veulent voir les rapports et qui veulent voir où vous êtes. Il y a peut-être le ministère de la Justice et ils veulent savoir où vous êtes, et vous n'arrivez peut-être jamais au point que tout le monde recommande. Relativité, Brainspace, tous les experts recommandent d'atteindre 65, 70%. Vous n'y arrivez peut-être jamais. Vous êtes peut-être à 40 % ou quelque chose comme ça, mais vous ne bougez tout simplement pas, vous en aurez continuellement environ 40 %, et c'est là que vous êtes, et c'est alors que vous prenez la décision de vous arrêter et d'aller de l'avant, de coder vos documents comme réactifs, non réactifs et de passer à l'examen des privilèges. Donc, vous devez vraiment vous assurer que vous regardez les données, que vous regardez vos rapports et que vous prenez des décisions éclairées avec TAR 1.0.

En ce qui concerne les cycles de formation, chez HayStackID, nous utilisons Relativity et Brainspace, qui, à notre avis, sont parmi les meilleurs produits disponibles pour le flux de travail TAR 1.0, et avec Relativity, vous avez quelques options. Vous disposez de vos statistiques de base, qui vont généralement extraire environ 300 documents ; vous avez votre pourcentage, où vous indiquez au système quel est le pourcentage des documents que vous souhaitez utiliser pour les cycles de formation ; et bien sûr, vous avez votre échantillon fixe. Vous avez le stratifié, qui est probablement l'un des meilleurs, car ce qu'il fera, c'est qu'il identifiera les documents. Il identifiera les documents qui sont principalement liés dans des concepts aux documents que vous avez déjà codés dans le cadre des précédentes séries de formation, et veillera également à ce qu'ils couvrent la plus grande population de documents. Ainsi, à chaque cycle de formation, il vous donnera les documents qui mettront en œuvre les concepts dans les plus grands pools de documents qu'il vous reste encore.

À notre avis, ce que Brainspace a fait, c'est qu'il est allé plus loin. Il comporte trois types de cycles d'entraînement différents pour la Relativité stratifiée. Donc, vous avez votre influence qui sera celle que vous utiliserez le plus, et qui est la plus similaire trop stratifiée. La même chose, c'est simplement choisir le plus grand nombre de documents qui sont les plus proches, et il va essayer de couvrir autant que possible la population qui vous reste. Ensuite, vous avez votre activité rapide et votre activité diversifiée, et selon notre expérience, nous avons constaté que plus les jeux de données sont volumineux, plus nous obtenons de résultats avec les actifs actifs rapides et divers. Nous avons utilisé de l'influence à plusieurs reprises et n'avons vu absolument aucun mouvement, puis nous avons basculé et avons obtenu d'énormes sauts. Encore une fois, ce sont toujours les données qui vous parlent, c'est toujours ce qui se trouve devant vous. Il faut vraiment lire ces rapports et les analyser, et pas seulement dire : OK, eh bien, c'est l'approche recommandée et je vais y aller.

Il y a aussi l'aléatoire, qui est encore une fois l'échantillon fixe et le hasard, avec Brainspace, il vous permet de créer un bloc-notes, et il peut... en créant un bloc-notes, vous pouvez mettre dans les documents que vous jugez les plus importants dans votre cas. Donc, si vous avez découvert quelque chose, vous pouvez les mettre là-dedans, la plus réactive, la plus réactive, mais vous devez être très prudent car surtout lorsque vous traitez avec une entité gouvernementale, il y aura une certification du processus. Il faut donc être très prudent dans la façon dont la certification est formulée et celle que vous utilisez.

Très rapidement, juste pour revenir à nouveau entre Brainspace et Relativity, ce qui pourrait vous aider à décider lequel vous voulez essayer. Le reportage dans Brainspace est en quelque sorte — je ne veux pas dire le mot « basique », mais il vous donne simplement les informations sur l'endroit où vous vous trouvez dans le processus. Ainsi, il vous donnera une feuille de calcul Excel qui répertorie les tours de contrôle, les terrains d'entraînement et, à chaque tour que vous exécutez, il vous suffit de tirer le rapport de cette ronde. Les reportages de Relativity sont un peu plus fantaisistes. Ce ne sont que deux des éléments qu'il fournit, et vous pouvez en quelque sorte vous améliorer un peu, surtout si vous êtes une personne de soutien juridique et que l'équipe juridique vous demande où en sommes-nous ? Combien de documents supplémentaires ? Combien sont non classés ? Il est un peu plus facile d'obtenir ces informations dès le départ avec Relativity.

Encore une fois, cela dépend en grande partie du fait que vous allez transmettre des rapports à la partie adverse ou à l'entité gouvernementale. Vous devez donc prendre cette décision. Je pense que les deux outils sont excellents. D'après notre expérience, nous avons utilisé les deux pour TAR 1.0 avec de grands jeux de données, et nous pensons que nous avons obtenu de très bons résultats même lorsque nous avons passé à l'examen privilégié et que nous avons fait un peu de QC de ce qui était considéré comme non réactif. Nous avons obtenu de très bons résultats en utilisant les deux outils.

Jeune Yu

Anya, l'une des questions que nous avons reçues du public est : y a-t-il des cas où vous recommanderiez TAR 1.0 par rapport à TAR 2.0 ?

Je peux penser à un couple que je voudrais mentionner, et n'importe qui d'autre peut certainement faire du carillon.

Anya Korolyov

Je voulais juste couvrir le flux de travail TAR 2.0, puis nous allons certainement en parler pour et dire les avantages et les inconvénients et quand nous recommandons l'un ou l'autre un peu plus tard.

Donc, très rapidement, l'apprentissage actif continu TAR 2.0. Encore une fois, vous disposerez toujours de vos documents qui sont exclus. Vous devrez toujours les revoir, gardez cela à l'esprit. Mais au lieu d'avoir un ensemble de contrôle, des rondes d'entraînement, idéalement, vous aimeriez avoir un expert en la matière ou quelqu'un ou avoir des documents clés qui donneront le coup d'envoi. De préférence, 100 à 500 documents en fonction de votre population. Et ensuite, vous avez votre équipe de révision qui commence à enseigner au modèle, ce qui est réactif, ce qui n'est pas réactif. Ainsi, il apprend continuellement de chaque décision prise.

Et puis vous arrivez au point où vous voyez une rupture claire entre réactif et non réactif, ou vous arrivez au point où vous ne voyez plus de documents réactifs et vous dites, 'OK, je pense que j'ai fini et je vais effectuer mon test d'élusion QC et voir s'il y a quelque chose de réactif, puis vous fermez. et vous avez soit passé à l'examen privilégié, soit le projet est terminé.

Donc, encore une fois, dans notre expérience avec CAL, Relativity a été une meilleure plateforme, parce que tout est dans Relativity, mais nous avons également vu de très bons résultats avec Brainspace, juste un peu plus de travail sur la part fournisseur et cela ne nous dérange pas. Et nous avons utilisé TAR 2.0 dans le sens très traditionnel du flux de travail que vous voyez devant vous (le flux de travail recommandé), c'est-à-dire vérifier jusqu'à ce que vous arriviez au point où vous ne voyez plus aucun document réactif.

Et avec cela, je voudrais passer à notre prochaine question de sondage, qui est notre dernière question de sondage, à savoir : « Quel pourcentage de sujets qui ont utilisé TAR 2.0 utilisent un flux de travail où l'algorithme d'apprentissage est formé, et l'examen est coupé avant de placer les yeux sur tous les documents réactifs produits ? »

Donc, pour revenir à ma diapositive, c'est votre traditionnel... s'il y avait des critiques où vous avez utilisé une solution alternative, où vous avez commencé à regarder ce que le système pense ne pas être réactif, ou vous continuez simplement à suivre le flux de travail recommandé.

Seth Curt Schechtman

Je pense que la clé ici, Anya, est que lorsque vous avez de gros volumes de données et que vous les exécutez via CAL, voulez-vous continuer à vérifier si l'algorithme a été formé. La question est de savoir si vous voulez revoir un million de documents, même si c'est faible [inaudible], car vous avez un ensemble si important pour commencer. Pourquoi continuer si les documents n'ont pas besoin d'être codés ou examinés pour [inaudible] ou pour d'autres raisons. Pourquoi ne pas s'arrêter ?

Anya Korolyov

Définitivement, définitivement. Il y a beaucoup de considérations avec TAR 2.0 que vous devez garder dans le fond de votre esprit, et elles sont énumérées ici. Et certains d'entre eux sont des familles et des privilèges, qui vont de pair. Est-ce que nous sommes préoccupés par le fait que les privilèges doivent être réalisés dans toute la famille ? Allons-nous faire un examen privilégié distinct, ou avons-nous simplement confiance que le privilège est basé sur les quatre coins du document ? C'est définitivement une considération.

Un autre point que Seth vient d'évoquer est le nombre de documents que nous commençons. D'après notre expérience, et tout ce que j'ai lu, tous les livres blancs disent avec CAL, cela finira généralement par passer en revue entre 15 et 20 % de votre population, bien sûr, en fonction de la richesse, pour revenir à ce que Young a dit au sujet de la pertinence. Mais que se passe-t-il si vous commencez avec 10 millions de documents ? 15 à 20 % sont encore assez importants. Avez-vous le temps de passer en revue tous ces documents ? Avez-vous les ressources nécessaires pour que tous ces documents soient examinés ? Ou regardez-vous les données à un moment donné et dites que ce sont mes faits, c'est là que je suis, j'ai autant de documents que le système pense déjà réactifs, j'ai autant d'argent que mon client est prêt à payer, et quelle décision dois-je prendre à ce stade ? Est-ce que je continue ou est-ce que je le coupe ?

Cette partie du fait de couper ou de commencer à passer à ce que le système pense ne pas être des documents réactifs est une conversation que nous avons très souvent avec nos clients, car ils veulent le faire. Ils veulent le fermer. Ils sont prêts à partir. C'est un peu difficile pour nous de recommander l'un ou l'autre, car nous pouvons leur présenter les faits, mais ils doivent prendre cette décision eux-mêmes et où ils se trouvent dans le litige.

Jeune, Seth, je sais que vous avez beaucoup d'expérience ici pour recommander la limite et décider ce que nous allons faire ici.

Jeune Yu

Il existe différentes méthodologies que vous pouvez utiliser ici. Avec n'importe quel modèle d'apprentissage actif, vous allez voir une baisse précipitée ou, disons dans un cas idéal, n'est-ce pas. Mais le nom de cette présentation est TAR dans le monde réel, vous ne verrez peut-être jamais cette chute précipitée. Vous pourriez avoir un score en hausse constante, aucun écart au milieu, aucune rupture claire par rapport à la réactivité et non. Alors, que faites-vous ?

Disons que je vais juste jeter des chiffres. Disons que vous avez un score de 65 et que nous considérons que la limite sensible, la recommandation de notre part serait : « Hé, pourquoi ne pas échantillonner de 55 à 64 et voir quel est le taux de réactivité, nous ferons un échantillonnage aléatoire à partir de ce pool ou il ne doit pas être aléatoire, vous pouvez utiliser n'importe quel une sorte de méthodologie, tant qu'elle est documentée et reproductible ». Vous faites l'échantillonnage, et si les chiffres ont tous un sens et que vous pouvez dire, OK, ce 65 est un bon nombre, nous avons échantillonné autour de cela, nous avons passé en compte et tout cela a du sens, il n'y a aucune raison pour que vous ne puissiez pas vous arrêter à 65 ans.

Disons que c'est l'inverse, et que vous avez échantillonné entre 55 et 64 ans et que votre taux de réactivité est plus élevé qu'il ne devrait l'être, vous allez devoir continuer et continuer à réviser ou dire : « OK, nous ne pouvons pas utiliser 65 comme limite, que se passe-t-il si nous descendons à 60 ? » Ces décisions doivent toutes être prises en compte et pesées. Vous devez tenir compte de la richesse ou de la richesse estimée du pourcentage de documents réactifs dans votre jeu de données. C'est estimé... parce que si nous savions ce que c'était... tout cela serait, vous appuyez sur le bouton et c'est fini.

Anya Korolyov

Je suis en train de regarder les résultats des sondages et je vois que peu de gens l'ont coupé avant de poser les yeux et tout. C'est génial à savoir. Merci, Young.

C'est juste une sorte de présentation TAR 1.0/TAR 2.0, et maintenant que vous avez fait tout ce travail, dans votre cas, il est terminé, que faites-vous des résultats et les conservez-vous pour une utilisation future. Et cela nous amène à Portable Models.

Jeune Yu

Exact, donc en fonction de l'application que vous utilisez, vous pourrez peut-être réutiliser tous les produits de travail entrés dans ce processus, mais cela est mis en garde par quelques éléments ici. En règle générale, ce que nous aimerions faire ou ce que nous recommandons ici est de créer un modèle qui, si vous comptez construire un modèle réutilisable, ce que vous voulez faire est de le construire autour de sujets spécifiques. Si vous avez des justiciables en série qui sont toujours impliqués dans le même type de contentieux. S'il s'agit d'un type spécifique de litige tel que l'emploi ou la FCPA, l'antitrust ou la création d'un modèle pour identifier les pourriels ou les réponses automatiques, potentiellement privilégiés. Ils sont tous très, très spécifiques à ce que vous voulez construire. Mais si vous en construisez un qui fonctionne, vous pouvez l'appliquer encore et encore.

Maintenant, chaque jeu de données est différent, et tous ces facteurs doivent être pesés, mais si vous avez un client récurrent et que vous êtes intime avec ses données et ses privilèges seront toujours les mêmes, les indésirables seront toujours les mêmes. Ou voici les cinq types de litiges auxquels ce client est confronté jour et jour, vous devriez pouvoir construire un modèle autour de cela. Et une fois que vous avez ce modèle, c'est un excellent point de départ. Vous avez déjà effectué le travail en coulisses ; vous pouvez appliquer ce modèle à ce jeu de données, ce qui vous donne un point de départ. Cela ne signifie pas que le processus sera terminé à 100%, mais il vous donne une excellente idée, et aussi à mesure que vous affinez ce modèle, parce que vous allez continuer à travailler là-dedans, vous pouvez affiner ce modèle et vraiment construire quelque chose qui vous permettra d'atteindre 60 à 70 % du chemin dès le premier jour.

Seth Curt Schechtman

Hey, Adam, pourquoi ne pas vous introduire ici et parler de la façon dont les clients tendent la main pour ce truc, en demandant nos capacités ici.

Adam Rubinger

Oui, et je pense que les clients cherchent certainement des moyens de réutiliser les produits de travail des bases de données de hachage MD5 à l'utilisation de modèles portables lorsque vous avez ce type de dépositaires répétés, problèmes répétés. Il y a une excellente occasion, je pense, de générer des économies supplémentaires en réutilisant ces types d'informations, de classificateurs en particulier, et nous commençons à voir cela se produire. Il ne fait que commencer. Je pense que la technologie évolue au point où elle devient utile et capable, donc je crois que nous allons voir beaucoup plus d'utilisation de la réutilisation des données et de choses comme ça.

Anya Korolyov

Merci, Adam et Young. Et maintenant, cela nous amène à faire la différence entre TAR 1.0 et TAR 2.0 et ceux que nous recommandons normalement, ce qui, je crois, est l'une des questions qui nous sont posées.

Et j'ai en quelque sorte couvert certaines des différences. Encore une fois, TAR 1.0, vous avez un ou deux experts en la matière qui codent les documents. Le coût est minime sur un point. D'autre part, l'expert en la matière coûte un peu plus cher qu'une solution de révision gérée.

Il existe un apprentissage actif continu. Il y a beaucoup de gens qui prennent des décisions, et ce n'est pas toujours la meilleure chose. Plus vous avez de personnes, plus vous interprétez ce qui répond à ce projet. Mais en même temps, il vous permet d'apprendre une nouvelle réactivité. Les documents sont publiés pendant l'examen, et cela pourrait changer. Quelque chose qui n'a pas été considéré comme réactif, vous trouvez un e-mail et vous dites : « Oh, c'est ce dont ils parlent, oh oui, c'est définitivement réactif », et vous mettez à jour le système, et cela vous permet d'apprendre.

Donc, encore une fois, tout dépend du type de cas que vous traitez et du type de délai auquel vous avez affaire. Quel est votre budget ? Toutes ces questions doivent être posées et nous les demandons toujours à nos clients car cela va conduire à la décision. Si vous avez une deuxième demande aux proportions épiques et que vous avez trois mois [inaudible], si vous avez même trois mois pour parcourir des millions de documents et que vous devez envisager de réviser non seulement la réactivité, mais vous devez considérer le privilège et vous devez envisager de trouver des documents clés sur le fusion, vous allez en quelque sorte aller avec le TAR 1.0, parce que vous voulez juste y entrer, vous voulez le coder, vous voulez dire, « c'est la population qui est réactive, je me conforme substantiellement, je suis clair, je suis bon, je ne veux pas apprendre continuellement, je ne veux pas savoir, je me lave les mains de ceci ».

Dans un autre cas, vous avez un cas qui n'est pas pressé et qui est un peu plus bas du côté des données et vous n'avez aucune idée de ce que vous recherchez, vous avez très peu de documents clés pour commencer, vous voulez savoir ce que les données vont montrer et vous vous attendez à ce que la réactivité change, et il s'agit d'un affaire d'enquête. Dans ce cas, nous recommandons sans hésiter TAR 2.0.

Nous ne disons pas vraiment que l'un est meilleur que l'autre. Nous avons eu des exemples, et Seth et Young peuvent en parler, où nous avons commencé avec TAR 1.0 parce que c'est ce que le client préférait, puis nous sommes arrivés au point où nous n'avions absolument pas progressé avec 1.0 parce que la richesse était si faible. Et nous avons dit, à ce stade, que nous avons l'impression que vous dépensiez simplement de l'argent sans raison pour qu'un sujet examine ces documents, passons à un examen, lorsque tout sera dit et fait, nous pensons que nous allons réellement vous faire économiser de l'argent en allant à TAR 2.0 et en faisant un modèle hybride entre les deux ».

Jeune Yu

Juste pour revenir à la question ici, les cas où nous recommanderions TAR 1.0 par rapport à TAR 2.0, chaque cas est différent, la chronologie, certainement, toutes sortes de délais pèsent fortement sur la décision prise, mais je pense, plus important encore, que ce sera la richesse de cet ensemble de données. Si vous dites que 40 à 50 % de cet ensemble de données va être réactif, voulez-vous vraiment vous lancer dans un modèle d'apprentissage actif et essayer de déterminer où couper ou passer à travers ce pourcentage.

Si la richesse est très faible, supposons qu'elle soit inférieure à 10 %, il est possible que vous ne trouviez aucun document réactif pendant votre jeu de contrôle. Vous devez donc continuer à extraire des documents supplémentaires dans votre jeu de contrôle. Ce jeu de contrôle peut durer très longtemps, jusqu'à ce que vous ayez le nombre approprié de documents réactifs.

Ce genre de question s'applique à cette autre question. « Quelle est la différence entre un ensemble de commandes et une ronde d'entraînement ? »

Un ensemble de contrôles va être une extraction aléatoire de documents, et c'est la mesure à laquelle les rondes d'entraînement sont comparées. C'est un tirage aléatoire de documents. Le nombre de documents dépendra de votre confiance et de votre marge d'erreur. Dans certaines applications, il est sous-entendu que la richesse l'affecte. Brainspace en tient certainement compte. Il y a d'autres applications qui ne le font pas. Mais en ce qui concerne la recommandation entre TAR 1.0 et TAR 2.0, il est vraiment en train de connaître vos données. Le taux de réactivité, la diversité conceptuelle qui y est présente, votre calendrier, votre budget, tout cela va prendre en compte cette décision.

Seth Curt Schechtman

Et une chose, Young, que j'ajouterai du point de vue de l'examen, est-ce que tous les documents ont besoin de [vérifications] ? Si c'est le cas, vous devez tous les examiner de la façon dont vous le regardez. Nous ne le voyons pas souvent. Les deuxièmes demandes et les questions plus importantes que nous avons, elles vont juste sortir de la porte sans les yeux rivés, quelque chose [inaudible] pour privilège ou PII ou termes chauds, mais vous devez émettre un tag, vous devez les regarder tous. Donc, vous utilisez TAR 1.0 ou essayez d'utiliser 2.0 pour couper l'avis avant d'avoir examiné tout ce qui est potentiellement productible, cela ne se produira pas.

Anya Korolyov

Merci tous les deux. Et avec cela, j'aimerais me pencher sur ce qui intéresse beaucoup de gens, et l'une des principales décisions qui jouent un rôle est le coût. Combien économisez-vous en utilisant chacun de ces outils ? Je vais le remettre à Mike et Adam pour en parler.

Michael Sarlo

Le coût de la révision. Par exemple, nous avons ici un cas où près de 2,9 millions de documents faisaient partie de la population examinée. Étant en mesure de ne considérer que 12 000 d'entre eux pour former un modèle, identifier la réactivité, les économies de coûts sont de millions de dollars dans le haut de gamme, 8 millions de dollars dans certains cas pour des questions plus complexes.

Dans presque tous les cas, vous réaliserez toujours des économies de coûts avec TAR ou CAL, et ces présentations seront disponibles au téléchargement, tout est enregistré si vous êtes intéressé par de bonnes mesures et nous sommes heureux d'entrer dans les granularités de l'une de ces études de cas.

En particulier, le cas numéro 1 ici est l'un des cas où nous avons effectivement pu exécuter des données Slack via le modèle TAR dans le cadre d'un protocole convenu avec le ministère de la Justice. Ainsi, beaucoup de ces documents contiennent en fait beaucoup, beaucoup, beaucoup plus de communications plus petites, car encore une fois, nous avons travaillé avec les fichiers texte secondaires prêts à l'analyse que nous créons à l'aide de nos algorithmes personnalisés ici.

J'encourage toujours mes clients à envisager d'utiliser TAR ou d'utiliser CAL et de revenir à vraiment, en général... vous pouvez certainement utiliser ces outils pour QC. Vous pouvez utiliser ces outils pour trouver d'autres documents qui vous intéressent. Vous pouvez faire des flux. Vous pouvez regrouler des documents à différents niveaux d'un intervalle [semblable à celui d'une conférence]. Il existe de nombreuses façons d'utiliser des éléments de Revue assistée par la technologie pour améliorer n'importe quel examen à la fois du point de vue de la qualité, du QC, et de réduire les risques, et pour vous aider à trouver ces documents de type « aiguille dans le foin ».

Et même en revenant aux classificateurs et à des choses de ce genre, il est génial de pouvoir les retirer et les déplacer d'un cas à l'autre au niveau d'un client individuel, mais on nous demande également d'utiliser ces types d'outils de manière proactive du point de vue de la conformité pour les entreprises qui tentent d'identifier les risques tels qu'ils sont se passe. Nous utilisons vraiment le texte sous-jacent pour faciliter davantage de flux de travail de conformité, analyser les e-mails sur une base hebdomadaire ou en direct pour trouver des concepts clés.

J'encourage tout le monde à vraiment penser en dehors des sentiers battus ici, car il y a beaucoup de valeur que vous pouvez apporter à vos clients lorsque vous commencez à penser aux applications étendues de la révision assistée par technologie.

Anya Korolyov

Merci, Mike. Et je veux juste le renvoyer à Adam pour couvrir également les coûts de la CAL.

Adam Rubinger

Et l'une des différences intéressantes entre ces deux tables est la formation théorique de la base de données TAR 1.0, puis une sorte de « stop review » et le système prédit. Avec CAL, comme l'ont souligné Anya et Young et Seth, vous mettez en place une équipe de réviseurs sur la question et ils commencent à examiner, et au fur et à mesure que le système l'apprend, vous passez de documents très réactifs à des documents très réactifs à des documents très insensibles. Et ces exemples concrets illustrent ici comment nous commençons par un corpus de données assez important, et il y a quelques valeurs aberrantes qui sont intéressantes. Comme les chiffres sont plus bas, vous pouvez constater qu'il faut plus de temps pour que le système se stabilise et trouver un point où vous pouvez interrompre l'examen. Et comme le montrent les chiffres les plus importants, vous pouvez constater des économies importantes en utilisant cette stratégie, surtout lorsque vous avez vraiment une faible richesse, et que vous devez encore faire un examen des substances pour construire votre cas en chef et être en mesure de classer les documents et de les examiner tout au long de votre production. des décors et des choses comme ça.

Dans tous les cas, nous constatons que TAR 1.0 et TAR 2.0 économisent des sommes considérables, ce qui en vaut la peine même dans les plus petits cas.

Anya Korolyov

Merci, Adam. Juste avec cela, et je pense que cette prochaine diapositive répondra également à certaines questions dans notre discussion. Quelle est la prochaine étape dans Analytics ?

Maintenant, que nous sommes là, que se passe-t-il ensuite ? Et je pense que la première chose

d'un modèle hybride va en quelque sorte à ce qui est TAR 3.0 et je pense que Brainspace fait de grandes vagues là-bas, alors Young, si vous voulez reprendre votre sujet préféré.

Jeune Yu

Brainspace dans la dernière version a donc introduit l'implémentation d'un ensemble de contrôles, qu'il s'agisse d'apprentissage actif ou de TAR 1.0. Ce que cela signifie vraiment pour l'apprentissage actif, c'est que vous pouvez obtenir très facilement... vous pouvez facilement mesurer la précision du rappel. En règle générale, c'est un peu plus difficile, les calculs peuvent certainement être élaborés, c'est un peu manuel, mais cela vous donne la même apparence que si vous exécutiez un codage prédictif ou un projet TAR 1.0.

Pour TAR 1.0, que signifie-t-il ? Si vous avez un changement de réactivité ou si la réactivité change au fil du temps, vous pouvez ajouter un autre ensemble de contrôles pour agir comme deuxième mesure. Il permet de passer de TAR 1.0 à TAR 2.0, ou dans n'importe quel scénario impair, de passer de TAR 2.0 à TAR 1.0, mais cela vous donne plus de visibilité sur les métriques.

Il y a quelques questions qui touchent à cela. Anya, ça te dérange si je les traverse très rapidement ?

Anya Korolyov

Bien sûr, allez-y.

Jeune Yu

OK, donc le premier est « Un rappel accepté d'environ 80% est défendable ».

80% est un peu élevé. En règle générale, nous recommandons un rappel d'environ 75 %. C'est une balançoire, plus le rappel est élevé, vous avez un compromis de précision. 75 % est généralement accepté. Aller plus haut que cela avec une marge d'erreur plus élevée, ou disons un niveau de confiance plus élevé et une marge d'erreur plus faible, cela n'est pas vraiment propice à TAR 1.0. Cela signifie que vous devrez revoir beaucoup plus de documents.

Pour les tailles de données suggérées, le nombre de documents que vous devez former, c'est proportionnel. Lorsque vous regardez ces chiffres, la richesse entre en jeu. Dans la mesure où vous avez conclu un accord avec des opposés ou des régulateurs, c'est la proportionnalité. Si vous avez 3 millions de documents, combien de décisions faut-il prendre pour qu'il semble raisonnable de dire que nous avons formé le modèle. Dans un scénario TAR 1.0, vous cherchez à atteindre la stabilisation. La stabilisation est là où vous ne constatez plus d'importants changements de précision et de [profondeur] pour rappel. Donc, ce qui se passe ici, c'est que les décisions que vous avez prises sont cohérentes, vous ne voyez pas la précision passer de 55 à 60 % à 70 %, vous avez presque une moyenne linéaire.

Dans l'apprentissage actif, l'industrie se lit en quelque sorte dans 10 à 15 % de votre population avant d'avoir suffisamment formé le modèle. La mise en garde qu'il y aura toujours une diversité conceptuelle. Donc, vous ne savez que ce que vous savez. Lorsque vous jugez la réactivité d'un concept que vous n'avez jamais rencontré auparavant, combien de ces concepts existent. Ainsi, le regroupement et la recherche de concepts que nous recommandons à l'avance jouent un rôle important dans ce domaine. Si vous pouvez dire que vous avez fait votre propagation, vous avez fait votre couverture et nous connaissons 90 à 95 % des concepts au sein de notre population de données, 10 % cela peut fonctionner. Encore une fois, chaque jeu de données est différent, et je déteste donner une réponse « cela dépend », mais il y a quelques facteurs à prendre en compte. C'est également la raison pour laquelle, au fur et à mesure que vous traversez le processus, avoir un expert en la matière capable d'attester du processus, de documenter le processus et de le présenter, c'est très important.

Anya, je ne voulais pas sortir du sujet ici, allez-y.

Anya Korolyov

Non, non, tout va bien. Puisque nous sommes déjà dans les questions, je vais simplement dire : « Le quasi-duplicata est-il le même que trouver similaire ? »

Ce n'est pas la même chose. Le quasi-duplicata est basé uniquement sur le texte du document. L'analyse prendra le texte réel du document et comparera les mots réels dans le document. Il trouvera le document qui contient le plus de texte, puis classe tous les autres documents sur un pourcentage similaire à ceux-ci. Trouver des documents similaires est plutôt un concept « analytique », où il trouvera des documents conceptuellement similaires, pas nécessairement des documents textuellement similaires.

Je pense que Seth serait formidable de répondre à la question pertinente et réactive.

Seth Curt Schechtman

J'y arriverai. Juste une question à laquelle Young avait répondu, donc je pense qu'il y avait une question entre l'examen manuel humain et l'examen assisté par ordinateur.

En supposant que les humains aient été [inaudibles] à n'importe quel examen, à chaque document et que vous ayez exécuté des termes de recherche ou non et qu'ils en trouvent 100 %, alors vous allez dire que les algorithmes vont trouver 80 %, peut-être au mieux, 90 % pourraient être les meilleurs que vous ayez jamais vus. Quel est le coût de la recherche de ces autres documents ? C'est ce à quoi il s'agit. Cela se résume à la proportionnalité. Dépensez-vous des oodles et des oodles d'argent en versant 95, 98, 99 documents non réactifs pour trouver ces autres documents réactifs ? C'est ce à quoi il s'agit vraiment. La réponse est que vous devez trouver chacun d'eux, que ce soit parce que — je dirai qu'il s'agit d'une affaire de création ou de rupture, ou parce qu'il s'agit, je ne sais pas, d'une enquête interne et d'un document peuvent faire la différence, alors peut-être voulez-vous revoir chacun d'eux. Peut-être voulez-vous trouver chacun d'eux. Cela dépend du coût et de la question de savoir si vous pouvez amener l'autre côté du gouvernement à vous permettre d'accepter ces choses. Le TAR est bien accepté dans la jurisprudence. Vous voulez l'utiliser pour économiser de l'argent, mais dans certains cas où vous ne voudrez peut-être pas l'utiliser.

Passant à la question de la pertinence par rapport à la réactivité. Une de mes questions préférées de tous les temps en revue. Je dirai que ça dépend. La pertinence est plus large. La réactivité est étroite. Lorsque vous recevez une demande de production, ils demandent des éléments réactifs. Cela ne veut pas dire qu'ils ont laissé de côté tout un tas de choses qui peuvent être liées à l'affaire, pertinentes à l'affaire, pertinentes à la question, mais ils ne l'ont tout simplement pas demandé. Lorsque vous êtes en algorithme d'entraînement, si la fin est, nous produisons cet ensemble, que nous interrompions ou non un avis, vous voulez aller avec la réactivité, n'est-ce pas, parce que c'est ce à quoi ils avaient droit. Vous ne voulez pas donner à l'autre côté tous ces autres éléments qui peuvent être liés à l'affaire, mais peuvent ne pas être réactifs. Spécialement demandé, vous ne voulez pas être trop large sur vos productions, mais c'est une excellente question et j'espère y avoir répondu.

Jeune Yu

Donc, à l'autre question qui se pose en termes de négociation avec les protocoles TAR ESI. Précision et rappel. Ma réponse ne sera pas une réponse ici. Je ne promettrais rien. Rappelons que 75 % sont une tolérance acceptable. Pour plus de précision, c'est une question plus difficile. Vraiment, cela va dépendre de la quantité de commentaires que vous voulez faire. De plus, la définition de la réactivité y jouera lourdement. Précision acceptable. En général, j'aimerais voir une précision supérieure à 65 %, c'est ce que je recherche. Tous les boîtiers ne sont pas construits de la même manière. Tous les jeux de données ne sont pas construits de la même manière. Nous avons vu des adolescents aussi bas que 20 ans, et nous sommes toujours en mesure d'obtenir l'approbation de ce processus. Donc, en termes de négociations, je ne cimenterais pas la précision dans la pierre.

TAR 3.0, nous pouvons attendre que Mike parle à certains des autres What's Next in Analytics.

Anya Korolyov

Et juste pour revenir à ce qui est acceptable, ce qui ne l'est pas. Nous avons certainement eu des cas où, comme l'a dit Young, nous avons toujours recommandé 65, chez HayStackID, mais nous avons eu des cas qui n'ont jamais dépassé 23, 24, mais nous avons atteint la stabilisation et nous avons... les avocats ont pu prendre les données, prendre les rapports, revenir en arrière et dire : « Écoutez, je sais que nous avons commencé à en vouloir 65, mais c'est là que nous en sommes, acceptons de le couper, acceptons de mettre fin à l'examen ici et d'aller sur la production ». Donc, encore une fois, c'est toujours... vous voulez toujours regarder les données à votre disposition et je sais, en tant qu'avocats, les données sont écrasantes et les rapports et tout cela, mais vous voulez toujours vous assurer que vous regardez ce qui se trouve devant vous, considérez tout, y compris le coût et où vous devez être à la fin, ce qui fait que le le plus sensé pour le client.

À moins que quelqu'un d'autre n'ait plus de commentaires, je veux le renvoyer à Mike pour parler des choses passionnantes que sont l'analyse des sentiments, les emojis, les données financières, les PII, les PHI, toutes ces bonnes choses.

Michael Sarlo

Bien sûr, merci beaucoup, Anya, et nous allons manquer de temps, donc je vais le faire assez rapidement. Les principaux points à retenir, et je le dis toujours aux gens, l'analyse du point de vue eDiscovery, les moteurs, les outils et la technologie sous-jacente et son application ne sont pas aussi avancés que d'autres secteurs qui peuvent dépendre de l'analyse des données. Nous n'avons tout simplement pas besoin de nombreuses applications ou de nombreuses bibliothèques et outils personnalisés requis, d'une approche plus nuancée spécifique à une organisation et à ses données ou à un problème que vous essayez de résoudre. Nous avons passé beaucoup de temps à travailler avec ce type d'outils d'analyse hors marché, que ce soit en open source comme les bases de données graphiques, comme Neo4j, qui peuvent vous permettre de faire des choses vraiment intéressantes.

Là où nous voyons également des choses et où vous obtenez de meilleures capacités d'analyse du point de vue de l'échantillonnage et que vous pouvez simplement en faire davantage avec vos données, c'est simplement plus d'accès au matériel. En mettant les choses à la hauteur du cloud, il est très bon marché de faire des calculs de Big Data Lake d'un point de vue informatique et, en fin de compte, du point de vue des coûts. Parfois, je pense à combien de temps cela aurait duré il y a trois, quatre, cinq ans alors que vous accédez à des fonctionnalités plus avancées pour analyser vos données. Nous utilisons des bases de données graphiques pour analyser des jeux de données financières beaucoup plus volumineux, comme les journaux d'appels. Nous associons l'activité des utilisateurs sur un large éventail de systèmes à des documents réels créés dans un calendrier, juste plus de services d'enquête.

Et vraiment, pour tout le monde ici aussi, traitant de tous les PHI, PII, GDPR, confidentialité des données et être en mesure de l'identifier comme... nous travaillons en fait un peu avec nos propres moteurs locaux, puis nous nous appuyons également sur des API de Google et de Microsoft et d'Amazon qui font tous des éléments différents des PII casse-tête de détection, donc c'est quelque chose que nous offrons aux clients aujourd'hui aussi. En réalité, dans notre découverte post-brèche, comme la cybernétique, comme la révision de la pratique, mais toutes nos questions multinationales où nous traitons des données qui peuvent se trouver dans l'APAC ou en Europe, et avec les problèmes du RGDP, il est très important de pouvoir identifier les IPI dès le début. Les recherches par mots-clés ne fonctionnent que très bien, donc j'encouragerais tout le monde à faire de l'exploration ici. Il y a beaucoup d'outils open source et de très bonnes ressources sur Internet dans ces domaines.

Adam Rubinger

Merci, Mike. Je sais que nous sommes à court de temps ici, mais je voulais répondre à la question TAR 3.0. TAR 3.0, je ne veux pas dire que c'est un retour à TAR 1.0, mais cela adopte une approche similaire. Il y a des superpositions supplémentaires ici, donc traditionnellement ce que vous verrez en clustering, c'est que vous obtiendrez une couche centrale ou un cluster, puis qu'il sortira dans les bras extérieurs. Ainsi, avec TAR 3.0, considérez-le plutôt comme un diagramme de Venn dans lequel un document peut vivre dans plusieurs diagrammes Venn juste assis l'un sur l'autre. Vous pouvez disposer d'un document qui réside réellement dans 40 000 clusters.

Ce qu'il fait, c'est de prendre des cœurs de cluster et de vous les envoyer. Lorsque vous prenez une décision de réactivité, elle profonde une couche vers le bas, puis vous demande de coder la couche sous-jacente suivante. C'est très difficile à visualiser. Il y a un très bon blog à ce sujet. Si vous tapez simplement « TAR 3.0 », vous pourrez effectuer des lectures légères. Sinon, vous pouvez certainement nous contacter et nous pouvons vous y donner une consultation.

Michael Sarlo

Oui, et je voudrais dire que c'est vraiment un flux de travail. Vous pouvez simuler les effets de TAR 3.0 grâce à l'utilisation tactile de différentes capacités de cycles d'entraînement dans Brainspace. Il est également associé à un échantillonnage stratégique initial, en effectuant une analyse des termes de recherche, puis en préchargeant certains de ces résultats dans le modèle presque comme un pré-train et des flux, mais en utilisant ces derniers pour obtenir des documents dont vous savez qu'ils sont chauds ou pertinents dès le début du processus TAR 2.0. Ainsi, nous pouvons démarrer les modèles de cette façon, et vous obtenez souvent les mêmes effets ici. Je pense que TAR 3.0 est vraiment un flux de travail hybride qui dépend de la personne à qui vous parlez. Il y a d'autres plateformes qui ont commencé à essayer de marquer cela de façon plus algorithmique. Il s'agit d'un processus complètement différent, mais je dirais que toutes les principales plateformes analytiques offrent certaines fonctionnalités dans ce domaine.

Très bien, merci beaucoup à tous. Je vais donner le coup d'envoi à Rob Robinson pour le terminer. Nous apprécions vraiment que vous rejoignez tous aujourd'hui. N'hésitez pas à répondre à toutes vos questions. Nous serons heureux d'y répondre. Nous sommes toujours disponibles. Il suffit de filmer un e-mail ou de nous toucher sur notre site Web.

Clôture

Merci beaucoup, Mike. Et merci à toute l'équipe pour l'excellente information et la perspicacité qu'il nous offre aujourd'hui. Nous tenons également à prendre le temps de remercier tous ceux qui ont assisté à la webdiffusion d'aujourd'hui. Nous savons vraiment à quel point votre temps est précieux et nous apprécions que vous le partagiez avec nous aujourd'hui.

Enfin, je tiens à souligner le fait que nous espérons que vous aurez la chance d'assister à notre webémission mensuelle prévue le 17 février à 12 h Est, et qu'elle portera sur la violation des données, la découverte et l'examen. Dans cette prochaine présentation, nous aurons des experts en cybersécurité, des experts en protection de la vie privée et des experts en découverte juridique qui vous expliqueront comment les organisations peuvent se préparer à répondre à un incident lié à la cybersécurité, et nous espérons que vous pourrez y assister.

Merci encore d'être présent aujourd'hui. Soyez en sécurité et en bonne santé. Et cela conclut la webémission d'aujourd'hui.

CLIQUEZ ICI POUR TÉLÉCHARGER LES DIAPOSITIVES DE PRÉSENTATION

Webcast - TAR dans le monde réel - 011321 - Mise à jour

CLIQUEZ ICI POUR LA PRÉSENTATION À LA DEMANDE