[Webcast Transcript] TAR in der realen Welt: Vom Versprechen zur Praktikabilität

en flag
nl flag
fr flag
de flag
pt flag
ru flag
es flag

Anmerkung des Herausgebers: Am 13. Januar 2021 teilte HayStackID einen Bildungs-Webcast, der Rechtsexperten und Datenermittlungsfachleute über die fortschrittlichsten Analysetechnologien der Branche informieren und aktualisieren und empfohlene Workflows und geeignete Anwendungsfälle hervorheben soll, um quantifizierbar wirkungsvolle Erhöhungen zu erzielen bei der Dokumentenüberprüfung Effizienz und Genauigkeit bei der Verwendung von technologieunterstützten Reviews. Während die vollständige aufgezeichnete Präsentation auf Abruf über die HayStackId-Website verfügbar ist, finden Sie unten eine Abschrift der Präsentation sowie eine PDF-Version der dazugehörigen Folien für Ihre Überprüfung und Verwendung.

TAR in der realen Welt: Vom Versprechen zur Praktikabilität

eDiscovery-Experten und Kommentatoren haben sich seit der Entscheidung von Da Silva Moore von Richter Andrew Peck im Februar 2012 für das Versprechen einer technologieunterstützten Überprüfung (TAR) eingesetzt. Aber wie genau geht TAR in der realen Welt komplexer Entdeckungen? Noch wichtiger ist, wie wird die neueste Generation von strukturierten und konzeptionellen Analysetools eingesetzt, um die Effizienz zu steigern und positive Ergebnisse zu erzielen und das Versprechen von TAR in praktische Ergebnisse zu übersetzen?

In dieser praktischen Präsentation werden Experten für eDiscovery Analytics und Rechtsüberprüfungen einen Überblick über die fortschrittlichsten Analysetechnologien der Branche geben und empfohlene Workflows und geeignete Anwendungsfälle hervorheben, um quantifizierbar wirkungsvolle Steigerungen der Effizienz und Genauigkeit der Dokumentenüberprüfung zu erreichen.

Highlights im Webcast

+ Structured Analytics: Threading der E-Mail-Nadel

+ Konzeptionelle Analytik: Von Wahlmöglichkeiten (TAR 1.0 v. 2.0) zu Clustern

+ Brains and Brawn: In Anbetracht von Gehirnraum und Relativitätstheorie

+ Ein guter Haltepunkt: Das Warum und Wann von Workflow-Entscheidungen mit kontinuierlichem aktivem Lernen

Experten präsentieren

+ Michael Sarlo, Ence, CBE, CCLO, RCA, CCPA - Michael ist Partner und Senior EVP von eDiscovery und Digital Forensics für HayStackID.

+ Adam Rubinger, JD. - Als EVP bei HayStackID bringt Adam mehr als 20 Jahre Erfahrung und angewandtes Fachwissen in der Beratung, Beratung und Verwaltung großangelegter eDiscovery-Projekte mit.

+ Anya Korolyov, Esq. - Als Director of Project Management bei HayStackID verfügt Anya über 12 Jahre Erfahrung in eDiscovery mit umfangreichem Fachwissen mit Second Requests als Anwältin und Beraterin.

+ Seth Curt Schechtman, Esq. - Als Senior Managing Director of Review Services for HayStackID verfügt Seth über umfangreiche Überprüfungserfahrung, einschließlich Sammelklagen, MDLs und Second Requests.

+ Young Yu - Als Direktor des Kundendienstes bei HayStackID ist Young der primäre strategische und operative Berater für Kunden in eDiscovery-Angelegenheiten.

Präsentation Transkript

Einleitung

Hallo, und ich hoffe, du hast eine tolle Woche. Mein Name ist Rob Robinson und im Namen des gesamten Teams von HayStackID möchte ich mich bei Ihnen bedanken, dass Sie an der heutigen Präsentation mit dem Titel TAR in the Real World: From Promise to Practicality teilgenommen haben. Der heutige Webcast ist Teil der monatlichen Reihe von Bildungspräsentationen von HayStackID, die im BrightTalk-Netzwerk durchgeführt werden und sicherstellen sollen, dass die Zuhörer proaktiv darauf vorbereitet sind, ihre Computerforensik, eDiscovery und rechtliche Überprüfungsziele während Untersuchungen und Rechtsstreitigkeiten zu erreichen. Zu unseren erfahrenen Moderatoren für den heutigen Webcast gehören fünf der branchenführenden Fachexperten und Rechtsüberprüfungsbehörden mit umfangreicher Erfahrung in der Unterstützung technologieunterstützter Überprüfungen.

Die erste Einführung, die ich machen möchte, ist die von Michael Sarlo. Mike ist Chief Innovation Officer und Präsident von Global Investigations für HayStackID. In dieser Rolle erleichtert Michael alle operativen und innovationsbezogenen eDiscovery, digitale Forensik und Rechtsstreitigkeiten sowohl in den USA als auch im Ausland.

Zweitens möchte ich Adam Rubinger vorstellen. Adam dient als Chief Client Experience Officer bei HayStackID. Er bringt mehr als 20 Jahre Erfahrung und angewandtes Fachwissen in der Beratung, Beratung und Verwaltung von großangelegten eDiscovery-Projekten in dieser Rolle ein.

Als nächstes möchte ich Anya Korolyov begrüßen, die Direktorin für Projektmanagement bei HayStackID ist. Anya verfügt über 12 Jahre Erfahrung in eDiscovery mit umfangreichem Fachwissen in Second Requests als Rechtsanwältin und Beraterin.

Ich möchte auch Seth Schechtman als Senior Managing Director von Review Services for HayStackID hervorheben. Seth verfügt über umfangreiche Überprüfungserfahrung, einschließlich Sammelklagen, MDLs und Second Requests.

Abschließend möchte ich euch heute gerne Young Yu vorstellen. Young ist Director of Client Services bei HayStackID. In seiner Rolle ist Young der primäre strategische und operative Berater für Kunden in eDiscovery-Angelegenheiten.

HayStackID wird die heutige Präsentation für die zukünftige Betrachtung aufzeichnen, und eine Kopie der Präsentationsmaterialien wird für alle Teilnehmer verfügbar sein. Sie können diese Materialien direkt unter dem Anzeigefenster der Präsentation auf Ihrem Bildschirm aufrufen, indem Sie auf der linken Position der Symbolleiste unter dem Sichtfenster die Registerkarte Anhänge auswählen. Darüber hinaus haben wir heute mehrere Fragen zur Umfrage. Diese Fragen werden auf der Registerkarte „Abstimmung“ angezeigt.

Zu diesem Zeitpunkt möchte ich das Mikrofon für ihre Kommentare und Überlegungen zur technologieunterstützten Überprüfung und deren praktischen Verwendung in der realen Welt an unsere erfahrenen Moderatoren unter der Leitung von Mike Sarlo übergeben. Mike?

Michael Sarlo

Vielen Dank, Rob, und vielen Dank an alle, dass Sie dem Webcast dieses Monats beigetreten sind. Wir freuen uns sehr, dich zu haben. Wir haben ein paar neue Lautsprecher auf der Rennstrecke. Insbesondere Anya und Young verbringen aus operativer Sicht viel Zeit mit Analysen, sowohl aus Sicht der Überprüfung des Technologiesystems, aus Sicht des kontinuierlichen aktiven Lernens mit strukturierten Analysen für einige unserer komplexesten Angelegenheiten. Auch Adam Rubinger berät Kunden seit Jahren bei der effektiven Nutzung dieser Technologien, die wir alle so sehr kennengelernt und lieben, und ich selbst beschäftige mich seit vielen Jahren mit Datenanalysen. Daher stellen wir oft fest, dass es manchmal Fehlinformationen oder Verbindungsunterbrüche darüber gibt, wie verschiedene Funktionen und Tools und Workflows verwendet werden sollten, wenn Sie beginnen, das Analysewort oder das Bewertungswort des Technologiesystems zu hören, und als Anbieter sind wir einzigartig von unserer Position, mit vielen verschiedenen Kunden zu arbeiten ihre Workflow-Erwartungen und dann auf der Lieferseite.

Also beginnen wir mit einer Diskussion über strukturierte Analysen, wir werden uns mit der konzeptionellen Analytik befassen und die Unterschiede zwischen TAR 1.0, TAR 2.0 wirklich aufschlüsseln. Wir werden einige der Unterschiede zwischen Brainspace und Relativitäten und Ähnlichkeiten hervorheben, und dann werden wir Werfen Sie einen Blick darauf, wann Sie wirklich von einem CAL-Standpunkt aus aufhören, und verwenden Sie diese Technologie, um eine Überprüfung zu verkürzen.

Daher wurde eDiscovery grundlegend transformiert und wird jeden Tag verändert, durch die praktische Anwendung von Analysen und von meinem Standpunkt abgesehen von allen Kosteneinsparungen, das eigentliche Ziel hier ist es, die relevanten Fakten den Fallteams in irgendeiner bestimmten Angelegenheit schneller und früher zu vermitteln, und ich weiß, dass Adam es durchaus hat auch hier ein bisschen Feedback, nur aus seiner Erfahrung im Umgang mit sehr großen Unternehmen, die diese Tools nutzen.

Adam Rubinger

Danke, Mike, und da eDiscovery im Laufe der Jahre gereift ist, sind die Mengen an den Punkt gekommen, an dem es fast unmöglich ist, eDiscovery ohne den Einsatz von Analysen und technologieunterstützten Reviews wirklich zu machen. Wir sehen den Anstieg und die Akzeptanz in einem ziemlich schnellen Tempo. Aus Kundensicht sehen wir, dass es für Kunden jetzt fast auswendig wird, TAR, insbesondere kontinuierliches aktives Lernen, zu nutzen, um sowohl bei Kosteneinsparungen als auch früher zu den Informationen zu gelangen, wie Mike sagte. Aus unserer Sicht sehen wir Kunden, die Analysen so verwenden, dass sie zwar für diese Verwendung bestimmt sind, sie zwar auf eine Weise verwenden, um wirklich riesige Datenmengen aufzunehmen und zugänglicher zu machen, sie den Prozessanwälten früher zur Verfügung zu stellen, um ihren Fall als Cheffall aufzubauen, damit die Bewertungsteams in der Lage sind zu den wichtigsten Informationen am schnellsten und letztendlich Kosteneinsparungen ist das ultimative Ziel, das aus der Perspektive der Gesamtkosten für Überprüfungen und das Betrachten von Dokumenten und das Durchsehen von Daten, wenn diese Tools verfügbar sind, sehr, sehr messbare und umfangreiche Kosteneinsparungen und Effizienzsteigerungen mit ihr. Aus unserer Sicht wird eDiscovery durch den Einsatz von Analysen transformiert und wird Teil der Aussage oder Teil des Workflows, der täglich stattfindet. Fast alle unsere Kunden verwenden Analysen auf die eine oder andere Weise in nahezu jedem Fall.

Anya, warum sprechen wir nicht als nächstes über strukturierte Analysen.

Anja Korolyov

Danke, Adam. Wie Adam und Mike bereits erwähnt haben, sind die Tage der linearen Überprüfung, nur gerade lineare Überprüfung, ziemlich lange vorbei. Alle Fälle verwenden zumindest die strukturierte Analyse, und nur um einige der grundlegenden, die Sprach-ID, sehr schnell zu durchgehen, weiß ich, es scheint selbstverständlich zu sein, aber selbst die Fälle, in denen der Kunde zu uns kommt und sagt, dass alle Depotbanken USA sind, es gibt keine Chance, dass wir eine andere Fremdsprache haben, wir haben immer noch möchte es ausführen, nur um uns ein umfassenderes Bild zu geben und zu wissen, dass wir, sobald wir zum Teil des maschinellen Lernens kommen, womit wir es zu tun haben, einen Fachexperten brauchen, der in der Fremdsprache sprechen kann, müssen wir Übersetzungen machen, einfach sehr schnell, um das aus dem Weg zu schaffen. Für die nahezu doppelte Analyse verwenden wir sie natürlich für den Zweck, den es war, nur nahezu Duplikate zu identifizieren, um sicherzustellen, dass sie auf die gleiche Weise codiert sind, all das gute Zeug, aber wir verwenden es auch, um uns zu helfen, das Modell zu trainieren, wenn wir zum maschinellen Lernen kommen. Manchmal bekommen wir Fälle und wir wissen einfach nicht, wo wir anfangen sollen. Alles, was wir haben, ist eine Bitte, wir haben einige Exponate, also erstellen wir Dokumente und geben sie in unsere Bevölkerung ein, und wir verwenden die nahezu doppelte Analyse, um uns zu helfen, wichtige Dokumente früher zu identifizieren und uns ein klareres Bild zu machen und uns vielleicht von der Identifizierung ähnlicher Dokumente bis hin zum Namen zu bringen Normalisierung und das Kommunikationstool in Brainspace, und damit bekommen wir, sobald wir es ausgeführt haben, ein deutlich klareres Bild als wir nur die Metadaten oben in der E-Mail verwenden, von/bis. Wir bekommen die gesamte Bandbreite dessen, wer mit wem kommuniziert, zu welchen Themen, und die Kombination der nahezu doppelten Analyse und Namensnormalisierung bringt uns dem maschinellen Lernen einen Schritt näher und bringt uns dazu, unsere Schlüsseldokumente zu haben, mit denen wir das System trainieren können, und natürlich kommen wir zu —jedem ist mit E-Mail-Threading vertraut. Ich bin mir sicher, jeder hat es zumindest gesehen und E-Mail-Threading ist, wenn wir eine Gruppe scheinbar nicht verwandter E-Mails haben und sie ausführen, und wir gelangen zu unseren inklusiven E-Mails, und unsere inklusiven E-Mails sind jede E-Mail mit einem eindeutigen Inhalt, also jeder eindeutige Anhang oder die letzte E-Mail in der Kette, und absolut verwenden wir sie für den beabsichtigten Zweck und wir haben Fälle, in denen wir sofort Vereinbarungen haben, dass wir nur die beiliegenden E-Mails überprüfen werden, aber es gibt viele andere Möglichkeiten, wie wir gelernt haben, E-Mail-Threading zu verwenden und es in unseren Workflow mit Analysen auf der ganzen Linie zu integrieren, und damit möchte ich um es Seth und an unsere erste Umfrage zu übergeben.

Seth Curt Schechtman

Danke, Anya, das weiß ich zu schätzen. Also, die erste Umfrage des Tages, des vergangenen Jahres, wie oft haben Sie Threading verwendet, um die Überprüfung zu organisieren und bei der Qualitätskontrolle zu helfen? Jetzt wird Rob die Umfrage für uns eröffnen. Wenn die Ergebnisse eintreffen, werde ich ein wenig darüber sprechen, wie Anya bereits erwähnt hat, dass Sie möglicherweise ESI-Vereinbarungen haben, die die Unterdrückung von nicht inklusiven, also dokumentieren Sie E-Mails, die Teil anderer E-Mails sind, was bedeutet, dass weniger enthalten sind. Wenn Sie sie also von einer Bewertung ausschließen, schließen Sie den Inhalt in ihnen nicht aus der Produktion aus. Das soll nicht heißen, dass du das immer kriegen wirst. Dies kann bei der Regierung der Fall sein, sie dürfen es nicht zulassen, sie dürfen es nur in bestimmten Situationen zulassen. Eine insbesondere, die wir bei einigen zweiten Anfragen gesehen haben, ist, dass Sie die Non-Inclusives möglicherweise nicht protokollieren müssen, wenn alle ihre Inklusivitäten als privilegiert codiert sind, was etwas Zeit für den Protokollierungssinn für Privilegien spart.

Ich sage dort ein paar Vorbehalte, wenn du vielleicht nicht unterdrücken willst. Also, wie ich bereits erwähnt habe, von der Produktion unterdrücken, das heißt. Wir haben Argumente von Anwälten gesehen, insbesondere für vielleicht komplizierte Fälle, vielleicht während der Aussagen, in denen Sie dem Deponenten die Antworten auf bestimmte E-Mails nicht zeigen möchten. Alles, was Sie zeigen möchten, ist das geringere enthalten, und wenn Sie sie von der Überprüfung in der Produktion unterdrückt haben, können Sie dies möglicherweise nicht tun das. Außerdem verlieren Sie möglicherweise einen Kontext für das Berechtigungsprotokoll. Es gibt sicherlich einige Möglichkeiten, die wir entwickelt haben, HayStackID hat entwickelt, aber wenn Sie ein Dokument nicht schneiden und es als privilegiert protokollieren, können Sie an, From, CC Informationen verlieren, aber wenn Sie diese Informationen aus diesen Thread-Gruppen zusammenrollen können, die weniger enthalten sind, die wir haben Systeme und Prozesse, Tools, um dies zu tun, verlieren Sie diesen Inhalt nicht.

Wenn man sich die Umfrageergebnisse ansieht, sieht es so aus, als hätten wir bei den meisten Bewertungen mit Threading Pluralität, jede Überprüfung beträgt 30%, also ist alles gut zu sehen, und dann werden 12% nicht regelmäßig verwendet. Wir verwenden es in jeder einzelnen Angelegenheit, auch wenn Sie diese Dokumente nicht von der Überprüfung unterdrücken, aber Sie möchten, dass die Dokumente mindestens sortiert werden, wenn sie von diesen Thread-Gruppen zum Bewertungsteam gehen. Viele unserer Bewertungen, und wir werden später darüber sprechen, beinhalten TAR oder CAL oder das Abschneiden der Überprüfung, was bedeutet, dass wir nicht jedes Dokument, jedes produzierbare Dokument oder potenziell produzierbare Dokument überprüfen. Sie werden einige Dokumente beiseite legen, die direkt in die Produktion gehen. Jetzt gibt es bestimmte E-Mails, in denen Sie bestimmte Suchbegriff-Treffer oder unveröffentlichte Suchbegriffstreffer verlieren können, insbesondere für Google Mail-Daten, aber wir haben es auch bei Microsoft gesehen, wo Sie Header-Informationen zu den weniger enthaltenen Daten verlieren. Wenn Sie also nur Dokumente mit Privilegien überprüfen, können Sie sicherlich sicherlich möchte sicherstellen, dass Sie vollständige Threads einführen, wenn es einen Privilegien-Hit für diese E-Mail gibt, nur damit Sie möglicherweise nicht verlieren... erstellen Sie ein privilegiertes Dokument, das denkt, dass es kein geerbtes Privilegiertes [unhörbar] hatte.

Die andere Sache, für die wir es verwenden und Skripte und Tools entwickeln, ist für QC-Zwecke. Wir haben gesehen, dass Regulierungsbehörden und andere, die gegnerische Seite, Angriffsredaktionen Inkonsistenzen zwischen Thread-Gruppen sind. Offensichtlich haben wir gesehen, dass seit Jahren in MD5s einzelne Kopien von Dokumenten, die unterschiedlich sind oder ähnlich sind, aber in Bezug auf die Thread-Gruppe sehen wir das immer mehr. Das schwierige daran, diese traditionell zu erkennen, war, dass Sie nur eine Thread-Gruppe haben, und wie wir alle wissen, können Gespräche in mehrere verschiedene Richtungen abzweigen, und ein scheinbar nicht privilegiertes Dokument kann sich in ein teilweise privilegiertes Dokument verwandeln, das an einen Anwalt weitergeleitet wurde. Was unsere Tools tun, ist in der Lage festzulegen, wo diese Diskrepanzen in einem einzelnen Stamm in einem Thread auftreten, und herausfinden, wo Sie ein nicht privilegiertes Dokument oder keinen privilegierten Teil des Stammes haben, der vollständig privilegiert ist, aber höchstwahrscheinlich, dass der vollständige Priv- oder Priv-Zurückhalt hätte als codiert werden müssen priv redact, oder Sie hätten einen teilweisen Priv oder einen vollständigen Priv, priv Zurückhaltung wird innerhalb des Stammes nicht privilegiert und höchstwahrscheinlich wurden die zugrunde liegenden privilegierten Dokumente veröffentlicht und als nicht privilegiert angesehen. Also, ein paar großartige Tools da draußen. Ich empfehle sicherlich, aus diesen Gründen mindestens jeden einzelnen Fall zu fäden, und eine Sache, die ich nicht erwähnt habe, sagen wir zum Sortieren, es beschleunigt die Überprüfung, stellt sicher, dass dieselben Anwälte dieselben Gespräche immer und immer wieder überprüfen und mit dem Kontext vertraut sind und nicht müssen lerne es neu oder lasse eine neue Person es lernen.

Thread-Visualisierung, auch einige großartige Tools da draußen. Für diese visuellen Lernenden hilft es Ihnen, festzuhalten, wo diese Konsistenzen zu sehen sind, aber auch hier ist eine Inkonsistenz auf seinem Gesicht möglicherweise nicht, ohne in der Lage zu sein, sich nach unten zu fädeln und einzudämmen, um zu sehen, wo diese Inkonsistenz stattfindet

Anja Korolyov

Vielen Dank, Seth, und noch einmal würden wir nicht all diese strukturierten Analysen verwenden, die Analysen, die ausschließlich auf Aufgaben ohne Konzepte basieren, genau das, was uns zur Verfügung steht. Wir verwenden sie alle, um an den Punkt zu gelangen, an dem wir mit dem maschinellen Lernen beginnen, und auch am Ende als QC sind sie alle zusammen ein großartiges Werkzeug für QC. Und damit werden wir uns mit dem maschinellen Lernen befassen, und ich möchte das gerne Young übergeben, um uns vorzustellen.

Junger Yu

Danke, Anya. Wenn es um Machine Learning oder konzeptionelle Analytik geht, gibt es zwei Arten. Es gibt überwachtes und unbeaufsichtigtes Lernen. Sie möchten diese als objektive und subjektive Methoden betrachten, die das System verwendet, um ähnliche Dokumentpools zu kategorisieren, wobei unbeaufsichtigtes Lernen das Clustering und die Konzeptsuche abdeckt. Diese Tools geben einen Einblick in die konzeptionelle Zusammensetzung der Dokumentensammlung ohne Eingaben des menschlichen Gutachters. Dies ist eine sehr gute Möglichkeit, die Unbekannten in Ihrem Datensatz auf höchster Ebene zu betrachten oder Annahmen zu bestätigen, die Sie möglicherweise zu Beginn des Projekts hatten, da keine menschlichen Eingaben erforderlich sind.

Betreutes Lernen, das Ihre TAR-Modelle abdeckt und menschliches Input erfordert. Die Entscheidungen, die Sie für die Reaktionsfähigkeit treffen, kategorisiert das System Dokumente und bewertet sie. Abhängig von dem Modell, das Sie auswählen, werden die Ergebnisse in Stein gemeißelt oder ständig aktualisiert, aber die Ergebnisse weisen auf eine Nähe der konzeptionellen Ähnlichkeit mit den Entscheidungen hin, die Sie getroffen haben. In der Regel ähneln höhere Punktzahlen konzeptionell einem responsiven Dokument, und die niedrigeren Punktzahlen sind weiter von den reaktionsschnellen Entscheidungen entfernt, die Sie dort getroffen haben.

Anya, willst du mit Clustering sprechen?

Anja Korolyov

Ja, danke, Young. Um also einige der unbeaufsichtigten Lernkonzepte zu durchgehen, ist Clustering ein großartiges Werkzeug, und ich weiß, dass einige Leute nicht viel Glück damit hatten, aber ich denke, wie es beabsichtigt war und welche Verwendung in der realen Welt unterschiedlich ist. Also, wir gruppieren gerne alles sofort, weil wir festgestellt haben, dass es uns hilft, unsere Daten kennenzulernen, und selbst wenn es so grundlegend ist wie das, was wir haben, sind eine ganze Reihe von Outlook-Terminen, und dann müssen wir uns damit befassen, nur um nicht einmal die Konzepte, sondern die Daten kennenzulernen selbst und natürlich auch die Konzepte, um ähnliche Konzepte zu identifizieren, wie wenn wir wichtige Dokumente haben, wenn wir anhand der strukturierten Analytik identifiziert haben, wo sich die Schlüsseldokumente befinden, was sie sind, und es hilft uns zu wissen, wo sie sich bei der Konzeptsuche befinden, und zu wissen, wer die Kommunikatoren sind, was sie sind redet davon. Es hilft uns wirklich, alles sofort zu visualisieren. Es hilft uns auch, damit die Daten zu reduzieren, um die wir uns Sorgen machen müssen. Durch die Durchführung einer einfachen Spam-Konzeptsuche nach Spam ist dies ein Beispiel, das wir hier haben, ist Teil der [End Run] -Daten. Wenn Sie also nur eine einfache Konzeptsuche nach Spam durchführen, erhalten Sie sehr deutlich 62.000 Dokumente, und mit Brainspace-Funktionen erhalten Sie alle ähnlichen Konzepte, die als Teil des Clusters aufgeführt sind, und Sie können sie durchgehen und Sie können sehr schnell eine Entscheidung treffen, 62.000 Dokumente aus Ihrer Bewertung auszuschneiden und müssen Sie sich keine Sorgen um sie machen, müssen Sie sie nie wieder ansehen, und es ist ein großartiges Werkzeug, um uns zu einer engeren Anzahl von Dokumenten zu bringen.

Um auch auf die Brainspace-Nutzung der Konzeptsuche zurückzukehren, die sich ein wenig von der Konzeptsuche der Relativitätstheorie unterscheidet, bei der Sie nur ähnliche Konzeptdokumente erhalten. Brainspace bietet tatsächlich ähnliche Konzepte. Dies geht also wieder auf die bevorzugten [End Run] -Daten aller zurück. Wenn Sie sehr schnell nach einem Minderheiteninvestor suchen, können Sie sehen, welche ähnlichen Konzepte in den Dokumenten enthalten sind, die für Minderheiteninvestoren zurückkommen, und jeder, der eine Untersuchung durchgeführt hat, kennt den Sprachfreund von irgendetwas normalerweise nach etwas. Also können wir dieses auswählen, und wir können auf diese Dokumente eingehen und sehen, worüber sie sprechen, und zu dem Punkt kommen, an dem wir die wichtigsten Personen identifiziert haben, die Schlüsselkonzepte, die Brainspace sehr schnell nutzen.

Und das bringt uns zum eigentlichen überwachten Lernen, aber bevor wir dort ankommen, wollen wir sehr schnell abdecken, dass nicht alle Daten in maschinelles Lernen fließen. Wir möchten also über Daten sprechen, die es nicht schaffen und welche Probleme und Lösungen wir dafür haben.

Junger Yu

Richtig, und wenn Sie Datensätze für TAR analysieren, ob es sich um TAR 1.0, TAR 2.0 handelt, werden Ihre Richtlinien ziemlich ähnlich sein, und es handelt sich um typische Dokumenttypen, die empfohlen werden, von Ihrem Analytics-Index ausgeschlossen zu werden. Diese werden Dokumente mit zu wenig oder zu viel Text enthalten. Sie haben CSV-Dateien, Ihren Outlook-Kalender, die Antworten oder sogar die Einladungen, die keinen Nachrichtentext enthalten; Audio-, Video- oder bildbasierte Dateien, CAD-Dateien fallen dort in diese Kategorie. Quellcode und Tabellenkalkulationen, und wenn Sie diese Dokumentpools untersuchen, gibt es Möglichkeiten, sie einzubeziehen. Es gibt Möglichkeiten, diese Dokumente zu überprüfen. Wenn wir hier mit Tabellenkalkulationen sprechen möchten, basiert Ihre normale Tabelle normalerweise auf Zahlen. Wir haben Fälle gesehen, in denen es sehr textlastig ist, und wir können eine Analyse durchführen, um zu sehen, wie das Verhältnis von Alpha-Zeichen gegenüber numerischen Zeichen steht. Ich meine, das sind alles Dinge, die Sie tun können, um verschiedene Dokumente einzubeziehen oder auszuschließen. Wenn Sie diese bei Audiodateien transcodiert oder transkribiert haben, kann dieser Text tatsächlich eingehen.

Es gibt hier einen weiteren Bucket, auf den wir sehr häufig stoßen, und das wäre ein kurzes Nachrichtenformat. Und Mike, ich denke, du hast hier eine großartige Lösung, und willst du hier ein bisschen damit sprechen.

Michael Sarlo

Gerne das zu tun, Young, und danke. Also, alternative Datentypen, jedermanns neues Lieblingsthema. In eDiscovery denke ich, dass wir von neuen Datenquellen bombardiert werden, die in Bezug auf E-Mails außerhalb Ihrer typischen Paradigmen liegen, und nur typische E-Dokumente von Netzwerkfreigaben und Computern. Diese Arten von Plattformen wie Slack und Teams und nur Chat-Anwendungen und nur andere Arten von Daten, die sich nicht unbedingt dazu eignen, einen schönen, verpackten Rahmen um die darin enthaltenen Ideen zu enthalten, sehr ähnlich wie ein Word-Dokument oder eine E-Mail-Zeichenfolge, sind so viel mehr wie vorherrschend geworden. Seit Beginn der Pandemie und jetzt, da wir ungefähr ein Jahr lang sind, nutzt fast jede große oder kleine Organisation diese Tools, um ihre Fähigkeit für ihre Remote-Teams zu verbessern, zusammenzuarbeiten. Nun, eines der großen Probleme hier sind kurze Art von Nachrichtenformat-Daten, wie Chats und ähnliche Texte, die wir normalerweise nicht auf die gleiche Weise schreiben wie für eine E-Mail. Sie sind kurz, manchmal benutzen wir das Substantiv nicht, manchmal gibt es Emoticons. Das grundlegende Problem besteht darin, nicht genug zu haben, was ich gerne als konzeptionelle Dichte in einer einzigen Textdatei bezeichne, damit Analyse-Engines eine Person verstehen und von dieser lernen können, wie Textzeichenfolge.

Aus Sicht der Sammlung und aus Sicht der Produktion würden wir unseren Kunden, die Slack oder Teams verwenden, immer empfehlen, Channels zu bündeln und Inhalte rund um die Uhr zu kanalisieren. Wir beginnen jedoch darüber nachzudenken, dass wir diese Art von Kommunikation über jede Art von Analyseplattform erreichen, die normalerweise manchmal nicht genug Text ist. Wir haben also einige proprietäre Tools und Code, die wir entwickelt haben, um die Wirksamkeit bei der Erstellung von Analysen für meine Testdateien zu messen und zu testen, wobei separate relationale Felder verwendet werden, in denen wir eine Textdatei haben, die spezifisch für das Laden in Brainspace oder Relativity, NexLP, jedes Werkzeug ist das wird Text lesen, der als sekundärer Bezugspunkt für diese Engines dient, um etwas mehr konzeptionelle Dichte zu haben, und dann können diese einen TAR-Prozess durchlaufen, und wir erzielen hier ziemlich gute Ergebnisse. Wenn wir zur Produktion gehen, können wir dann tatsächlich anfangen, mit jeder Frequenz zu produzieren, die unsere Kunden gerne hätten, da wir dieses sekundäre relationale Feld verwenden, um diese Entscheidungen zurückzuverfolgen.

Du musst hier vorsichtig sein. Natürlich müssen Sie jedes Mal, wenn Sie Komplexität in den technologieunterstützten Überprüfungsprozess einführen, bereit sein, die Qualität dieses tatsächlichen Workflows zu bestätigen. Daher haben wir hier viel, um statistische Stichproben für reaktionsschnelle und nicht reagierende Populationen nach TAR für diese Arten von Datentypen zu verwenden, um dann mit externen Anwälten zusammenarbeiten zu können, um meinen Komfort dafür zu schaffen, dass der Prozess so funktioniert, wie er es erwarten würde.

Ebenso ist es für Handy-Chats sehr ähnlich, und wir versuchen immer sicherzustellen, dass diese analysebereit sind und Textdateien dem Vorbild bestimmter Teilnehmer entsprechen, und dasselbe für Chats wie Bloomberg oder irgendetwas anderes wird auf die gleiche Weise behandelt. Dies war in einigen Angelegenheiten für uns enorm, wo wir [Spot-] Populationen von insgesamt zehn Millionen 24-Stunden-Kommunikationszeichenfolgen hatten. Multi-Terabyte wird in großen Unternehmen immer häufiger und in der Lage ist, mit diesen Daten über einen technologieunterstützten Überprüfungsworkflow in einer zweiten Anfrage zu arbeiten, was fair war beispiellos. Das Justizministerium hat tatsächlich mit uns an diesen Workflows gearbeitet, und sie waren damit zufrieden, was ich verstehe, dass es ein Premiere ist. Wir tun dies also mehr in zivilrechtlichen Rechtsstreitigkeiten, wir tun es allgemeiner, und wir haben nur einen Großteil der vorgefertigten Dokumentation für unsere Kunden, um ihnen wirklich einen Bericht über die Verteidigbarkeit fließend und auf wiederholbarer Basis übermittelt zu haben, während sich Datensätze während der Lebensdauer einer Angelegenheit bewegen und erweitern, nämlich wichtig, weil man manchmal mit einer Bevölkerung beginnt und am Ende noch mehr hinzufügt, und das ist etwas, mit dem Anya und Young sich sicher beschäftigen werden, sobald wir beginnen, die Workflows in TAR 1.0 und TAR 2.0 aufzuschlüsseln.

Anja Korolyov

Danke, Mike. Ich denke, das Format für Kurznachrichten ist im Moment ein sehr aufregender Bereich, wie Sie sagten. Das Justizministerium, das sich an Entscheidungen beteiligt, was akzeptabel ist, was nicht, und die Verwendung von TAR in kurzen Nachrichten ist es eine sehr aufregende Zeit dafür. Ich möchte nur für eine Sekunde zum Clustering zurückkehren und sagen, dass wir Clustering verwendet haben, und das hat uns bei den kurzfristigen Nachrichten ziemlich geholfen, weil sie strukturiert sind, und so vielen für Teams, für Slack, so viele Leute, die den Raum betreten und den Raum verlassen, dass oft die Namen von die Menschen werden zu Konzepten. Es ist also ein großartiges... Clustering, es ist wirklich ein großartiges Werkzeug, um uns dabei zu helfen, das zu identifizieren.

Und damit gehen wir in den anderen spannenden Teil dieser Präsentation ein, das betreute Lernen und unsere nächste Umfrage. Welchen Prozentsatz der Angelegenheiten war im vergangenen Jahr eine Überprüfung erforderlich, für die Sie TAR 1.0 oder TAR 2.0 verwendet haben? Jeder hat seine eigene Präferenz. Ich werde gerade anfangen zu überlegen, was TAR 1.0 ist und TAR 2.0 für diejenigen Leute, die sich uns angeschlossen haben, die es nicht wissen, und einige der Herausforderungen, denen wir bei beiden Workflows gegenüberstehen.

Und damit besteht unsere allererste Herausforderung darin, immer Relevanz zu definieren, und Young wird uns diese übernehmen.

Junger Yu

Wenn Sie also ein TAR-Projekt beginnen, sei es TAR 1.0 mit beispielbasiertem Lernen oder TAR 2.0 mit aktivem Lernen, müssen Sie Relevanz definieren. Es muss eine binäre Entscheidung sein, was bedeutet, dass es eine Ja- oder Nein-Wahl ist. Sie möchten nicht übermäßig eng sein, weil Sie peripher oder einen Teil... von Dokumenten vermissen, die dort teilweise reagieren, und dann schwingt es genauso in die andere Richtung. Wenn Sie in Ihrer Definition von Reaktionsfähigkeit zu weit gefasst sind, wird das System einfach übermäßig umfassend sein und fast alles zurückbringen, was die Entscheidungen, die Sie treffen, berührt. Wenn Sie den Prozess durchlaufen, müssen Sie beim Definieren der Reaktionsfähigkeit wirklich an die konzeptionellen Beziehungen zwischen Dokumenten denken, und es ist eine Abweichung von der linearen Überprüfung, bei der Sie nicht eine ganze Dokumentfamilie betrachten. Jedes Dokument sollte als eigenständiger Datensatz betrachtet werden, und diese Entscheidung für die Reaktionsfähigkeit muss an den vier Ecken des jeweiligen Dokuments, das Sie betrachten, zum Nennwert getroffen werden. Und während Sie den Prozess durchlaufen, diese Definition von Reaktionsfähigkeit oder Relevanz, ist es enorm, weil es das Maß für den TAR-Prozess ist. In TAR 1.0 wird die Genauigkeit an Ihrer Definition von Reaktionsfähigkeit gemessen. Die Ergebnisse korrelieren alle direkt mit dieser Definition von Reaktionsfähigkeit. Leider müssen Sie lernen, wie Sie diese Definition von Reaktionsfähigkeit verschieben, wenn Sie später etwas lernen oder Ihr Projekt abgeschlossen haben, und jetzt fragen sie, dass es sich von einer Regulierungsbehörde oder einem Posieren unterscheidet, müssen Sie lernen, diese Definition von Reaktionsfähigkeit zu verschieben oder zu verändern. Manchmal können Sie einfach dort weitermachen, wo Sie aufgehört haben, und den Umfang erweitern, und es wird Zeiten geben, in denen Sie möglicherweise das gesamte Projekt neu starten müssen. Es hängt nur wirklich davon ab, wie gut Sie Relevanz und Reaktionsfähigkeit sehr früh definieren.

Anja Korolyov

Ich stimme Ihnen zu, dass dies eine der wichtigsten Entscheidungen ist, und selbst wenn Sie die Entscheidung getroffen haben, zu welcher Sie gehen sollen, denke ich, dass dies immer noch irgendwie [unhörbar] darüber ist, wo Sie sich in Ihrem Projekt befinden.

Danke, alle, die dem Anruf beigetreten sind, und es sieht so aus, als hätte die Hälfte ihn benutzt. Ich werde immer noch die Definition und nur den allgemeinen Workflow durchgehen. Also, wir haben hier unser TAR 1.0-Flussdiagramm, und wieder möchte ich Base berühren, dass es Dokumente geben wird, die Young diskutiert hat und die nicht Teil des gesamten Workflows sein werden; die Ausschlussdokumente, die JPGs, möglicherweise die Tabellenkalkulationen, solche Dinge. Sobald wir also den Index ohne Ausschlussdokumente haben, die möglicherweise noch überprüft werden müssen, haben wir einen Fachexperten, der den Kontrollsatz überprüfen muss, und sobald das Kontrollset überprüft wurde, kommen wir an den Punkt, an dem die Fehlermarge erreicht wurde oder nicht, und das ist wo die Definition von Relevanz wirklich in Kraft kommt. Denn wenn Sie Daten zu sehr niedrigem Reichtum haben, wird der Sachexperte viel Zeit in dieser Schleife verbringen, wo wir zusätzliche Dokumente überprüfen müssen, damit das Kontrollset geschlossen wird.

Also, das ist sehr wichtig, und tatsächlich ist dies, denke ich, der Teil, wo man selbst hier sagen könnte, weißt du was, vielleicht war TAR 1.0 nicht die beste Option für mich. Ich muss zu TAR 2.0 wechseln. Aber sobald Sie diese Fehlerspanne erreicht haben und in die Trainingsrunden wechseln, sehen wir normalerweise zwischen einer und fünf Trainingsrunden, die normalerweise zwischen 300 und 500 Dokumenten liegen. All dies hängt wiederum von den Daten ab. Wenn wir mit 10 Millionen Dokumenten anfangen, werden die Trainingsrunden ein bisschen anders sein. Und Sie fahren mit den Trainingsrunden fort, bis Sie Ihre gewünschte Präzision und Stabilität erreicht haben, und was das bedeutet, hängt von Fall zu Fall ab. Es könnte einen gegnerischen Anwalt geben, der die Berichte sehen möchte und sehen möchte, wo Sie sind. Es könnte das Justizministerium geben und sie wollen wissen, wo Sie sind, und Sie werden vielleicht nie an den Punkt kommen, den jeder empfiehlt. Relativitätstheorie, Brainspace, alle Experten empfehlen, auf 65, 70% zu steigen. Du kommst vielleicht nie dorthin. Sie sind vielleicht bei 40% oder ähnlichem, aber Sie bewegen sich einfach nicht, Sie werden kontinuierlich potenziell rund 40% haben, und dort sind Sie, und dann treffen Sie die Entscheidung, anzuhalten und weiterzumachen, und Ihre Dokumente als reaktionsschnell und nicht reaktionsschnell zu codieren und zur Privilegsprüfung überzugehen. Sie müssen also wirklich sicherstellen, dass Sie sich die Daten ansehen, sich Ihre Berichte ansehen und fundierte Entscheidungen mit TAR 1.0 treffen.

Was die Trainingsrunden angeht, verwenden wir bei HayStackID Relativity und Brainspace, die unserer Meinung nach einige der besten Produkte für den TAR 1.0-Workflow sind, und mit Relativitätstheorie haben Sie einige Möglichkeiten. Sie haben Ihre Basisstatistiken, die normalerweise etwa 300 Dokumente abrufen werden; Sie haben Ihren Prozentsatz, in dem Sie dem System mitteilen, wie hoch der Prozentsatz der Dokumente ist, die Sie für die Trainingsrunden verwenden möchten; und natürlich haben Sie Ihre feste Stichprobe. Sie haben die Schichtung, die wahrscheinlich eine der besten ist, denn was es tun wird, ist, dass Dokumente identifiziert werden. Es identifiziert die Dokumente, die sich hauptsächlich in Konzepten mit den Dokumenten beziehen, die Sie bereits im Rahmen der vorherigen Trainingsrunden codiert haben, und sie werden auch sicherstellen, dass es die größte Population von Dokumenten abdeckt. Bei jeder Trainingsrunde erhalten Sie also die Dokumente, die die Konzepte zu den größten Pools der Dokumente ausführen, die Sie noch hinterlassen haben.

Unserer Meinung nach hat Brainspace getan, dass es noch einen Schritt weiter gegangen ist. Es hat drei verschiedene Arten von Trainingsrunden für die Relativitätsgeschichtung. Sie haben also Ihren Einflussreich, der derjenige sein wird, den Sie am meisten verwenden, und der ähnlichste ist zu geschichtet. Dasselbe: Es wird nur die meisten Dokumente auswählen, die am nächsten sind, und es wird versuchen, so viel wie möglich von der Bevölkerung abzudecken, die Sie noch haben. Und dann haben Sie schnell aktiv und Ihre vielfältigen Aktivitäten, und nach unserer Erfahrung haben wir festgestellt, dass je größer Datensätze werden, desto mehr Ergebnisse erzielen wir mit schnell aktiv und vielfältig aktiv. Wir haben mehrmals einflussreich eingesetzt und absolut keine Bewegung gesehen, dann umgeschaltet und haben riesige Sprünge bekommen. Auch hier sind es immer die Daten, die zu Ihnen sprechen, es ist immer das, was vor Ihnen liegt. Sie müssen diese Berichte wirklich lesen und analysieren und nicht nur sagen, OK, nun, das ist der empfohlene Ansatz und ich werde damit fortfahren.

Es gibt auch den Zufall, der wiederum das feste Beispiel und das Zufall ist, mit Brainspace ermöglicht es Ihnen, ein Notizbuch zu erstellen, und es kann... mit dem Erstellen eines Notizbuchs können Sie die Dokumente einlegen, die Ihrer Meinung nach am wichtigsten in Ihrem Fall sind. Wenn Sie also etwas entdeckt haben, können Sie es dort hineinlegen, am meisten nicht reaktionsschnell, am schnellsten, aber Sie müssen sehr vorsichtig sein, denn insbesondere wenn Sie es mit einer Regierungsbehörde zu tun haben, wird es eine Zertifizierung für den Prozess geben. Sie müssen also sehr vorsichtig sein, wie die Zertifizierung formuliert wird und welche Sie verwenden.

Wirklich schnell, um nur noch einmal zwischen Brainspace und Relativitätstheorie zu gehen, was Ihnen helfen könnte, zu entscheiden, welches Sie ausprobieren möchten. Die Berichterstattung in Brainspace ist irgendwie — ich möchte nicht das Wort „grundlegend“ sagen, aber es gibt Ihnen nur die Informationen darüber, wo Sie gerade sind. Sie erhalten also eine Excel-Tabelle, in der die Steuerrunden, das Trainingsgelände aufgeführt sind, und bei jeder Runde, die Sie ausführen, ziehen Sie einfach den Bericht für diese Runde. Die Berichterstattung der Relativität ist etwas schicker. Dies sind nur zwei der Dinge, die es bietet, und Sie können etwas besser werden, besonders wenn Sie eine juristische Unterstützungsperson sind und das Anwaltsteam Sie fragt, wo sind wir? Wie viele Dokumente noch? Wie viele sind nicht kategorisiert? Es ist ein bisschen einfacher, diese Informationen einfach mit Relativitätstheorie auf den richtigen Weg zu bekommen.

Auch hier hängt vieles davon ab, ob Sie Berichte an die gegnerische Seite oder an die Regierungsbehörde weitergeben werden, also müssen Sie diese Entscheidung irgendwie treffen. Ich denke, beide Tools sind großartig. Nach unserer Erfahrung haben wir beide für TAR 1.0 mit großen Datensätzen verwendet, und wir glauben, dass wir ziemlich gute Ergebnisse erzielt haben, selbst wenn wir auf die privilegierte Überprüfung übergegangen sind und ein wenig QC von dem gemacht haben, was als nicht reaktionsschnell angesehen wurde. Mit beiden Tools haben wir sehr gute Ergebnisse erzielt.

Junger Yu

Anya, eine der Fragen, die wir vom Publikum erhalten haben, ist, gibt es Fälle, in denen Sie TAR 1.0 über TAR 2.0 empfehlen würden?

Ich kann mir ein Paar vorstellen, das ich erwähnen möchte, und jeder andere kann sicherlich einspielen.

Anja Korolyov

Ich wollte nur den TAR 2.0-Workflow abdecken, und dann werden wir das auf jeden Fall durchgehen und die Vor- und Nachteile sagen und wenn wir das eine oder andere nur wenig später empfehlen.

Also, sehr schnell, TAR 2.0 Continuous Active Learning. Auch hier haben Sie immer Ihre Dokumente, die den Ausschlüssen entsprechen. Sie müssen sie immer noch überprüfen, denken Sie daran. Aber anstatt ein Kontrollset, Trainingsrunden, im Idealfall zu haben, möchten Sie einen Fachexperten oder jemanden haben oder wichtige Dokumente haben, die ihn starten. Vorzugsweise 100-500 Dokumente abhängig von Ihrer Bevölkerung. Und dann haben Sie Ihr Bewertungsteam, das anfängt, dem Modell beizubringen, was reaktionsschnell ist und was nicht reagiert. So lernt es kontinuierlich aus jeder getroffenen Entscheidung.

Und dann kommen Sie an den Punkt, an dem Sie entweder einen klaren Bruch zwischen reaktionsschnell und nicht reaktionsschnell sehen, oder Sie kommen an den Punkt, an dem Sie keine reaktionsschnellen Dokumente mehr sehen und sagen: „OK, ich denke, ich bin fertig und ich werde meinen QC-Elusionstest durchführen und sehen, ob etwas reagiert und dann schließt du aus dem Projekt heraus, und Sie sind entweder zur privilegierten Überprüfung übergegangen oder das Projekt ist fertig.

Nach unserer Erfahrung mit CAL war Relativitätstheorie eine Art bessere Plattform, weil alles in Relativitätstheorie steht, aber wir haben auch sehr gute Ergebnisse mit Brainspace erzielt, nur ein bisschen mehr Arbeit am Anbieterteil und es macht uns wirklich nichts aus. Und wir haben TAR 2.0 im sehr traditionellen Sinne in dem Workflow verwendet, den Sie vor sich sehen (der empfohlene Workflow), also überprüfen Sie, bis Sie an den Punkt gelangen, an dem Sie überhaupt keine reaktionsschnellen Dokumente mehr sehen.

Und damit möchte ich zu unserer nächsten Umfragefrage übergehen, nämlich unsere letzte Umfragefrage, die lautet: „Welcher Prozentsatz der Dinge, die TAR 2.0 verwendet haben, verwendet einen Workflow, in dem der Lernalgorithmus trainiert wird, und die Überprüfung wird abgeschnitten, bevor alle erstellten reaktionsschnellen Dokumente im Auge genommen werden?“

Also, was bedeutet - um einfach zu meiner Folie zurückzukehren - das ist Ihr traditionelles... wenn es Bewertungen gab, bei denen Sie eine alternative Lösung verwendet haben, bei der Sie angefangen haben, sich anzusehen, was das System denkt, dass sie nicht reagieren, oder Sie einfach mit dem empfohlenen Workflow weitergemacht haben.

Seth Curt Schechtman

Ich denke, der Schlüssel dort, Anya, ist, wenn Sie große Datenmengen haben und sie über CAL ausführen, möchten Sie weiter überprüfen, ob der Algorithmus trainiert wurde. Die Frage ist, ob Sie eine Million Dokumente überprüfen möchten, auch wenn es ein niedriges [unhörbares] ist, weil Sie zunächst einen so großen Satz haben. Warum fahren Sie fort, wenn die Dokumente nicht ausgabecodiert oder aus anderen Gründen überprüft werden müssen. Warum nicht aufhören?

Anja Korolyov

Definitiv auf jeden Fall. Es gibt viele Überlegungen mit TAR 2.0, die Sie im Hinterkopf behalten müssen, und diese sind hier aufgeführt. Und einige von ihnen sind Familien und Privilegien, die Hand in Hand gehen. Sind wir besorgt, dass Privilegien in der ganzen Familie durchgeführt werden müssen? Werden wir eine separate privilegierte Überprüfung durchführen oder vertrauen wir einfach darauf, dass das Privileg auf den vier Ecken des Dokuments beruht? Das ist definitiv eine Überlegung.

Eine andere, die Seth gerade angesprochen hat, ist, mit wie vielen Dokumenten wir anfangen. Nach unserer Erfahrung und allem, was ich dort lese, sagen alle Whitepapers mit CAL, dass es normalerweise irgendwo zwischen 15-20% Ihrer Bevölkerung überprüft wird, natürlich je nach Reichtum, um zu dem zurückzukehren, was Young über Relevanz gesagt hat. Aber was ist, wenn Sie mit 10 Millionen Dokumenten anfangen? 15-20% davon sind immer noch ziemlich groß. Haben Sie die Zeit, all diese Dokumente durchzugehen? Haben Sie die Ressourcen, um all diese Dokumente überprüfen zu lassen? Oder schauen Sie sich die Daten irgendwann an und sagen, das sind meine Fakten, hier bin ich, ich habe so viele Dokumente, von denen das System bereits denkt, dass sie reagieren, ich habe so viel Geld, das mein Kunde zu zahlen bereit ist, und welche Entscheidung treffe ich an dieser Stelle? Fahre ich fort oder schneide ich es ab?

Dieser Teil des Abschneidens oder Beginnens zu dem, was das System für nicht reagierende Dokumente hält, ist ein Gespräch, das wir sehr oft mit unseren Kunden führen, weil sie getan werden möchten. Sie wollen es schließen. Sie sind bereit zu gehen. Es ist eine Art Kampf für uns, das eine oder andere zu empfehlen, weil wir ihnen die Fakten vorlegen können, aber sie müssen diese Entscheidung für sich selbst treffen und wo sie sich im Rechtsstreit befinden.

Jung, Seth, ich weiß, dass ihr hier viel Erfahrung habt, um den Cutoff zu empfehlen und zu entscheiden, was wir hier tun werden.

Junger Yu

Es gibt verschiedene Methoden, die Sie hier anwenden können. Bei jedem aktiven Lernmodell werden Sie einen steilen Rückgang sehen oder, sagen wir im Idealfall, richtig. Aber der Name dieser Präsentation ist TAR in der realen Welt, Sie werden diesen steilen Rückgang vielleicht nie sehen. Möglicherweise haben Sie einen stetig steigenden Punktestand, keine Lücken in der Mitte, keine klare Pause vom Responsive und nicht. Also, was machst du?

Sagen wir... ich werfe einfach Zahlen raus. Nehmen wir an, Sie haben eine Punktzahl von 65 und wir denken darüber nach, dass grenzwertig reagiert, die Empfehlung von uns lautet: „Hey, warum probieren Sie nicht von 55 bis 64 und sehen, wie hoch die Reaktionsrate da ist, wir werden eine Zufallsstichprobe aus diesem Pool durchführen oder es muss nicht zufällig sein, Sie können eine beliebige Art von Methodik, solange sie dokumentiert und wiederholbar ist“. Sie machen die Probenahme, und wenn die Zahlen alle Sinn ergeben und Sie sagen können, OK, diese 65 ist eine gute Zahl, wir haben es gesampelt, wir haben das durchgegangen und alles macht Sinn, es gibt keinen Grund, warum Sie nicht bei 65 aufhören konnten.

Nehmen wir an, es ist jedoch umgekehrt, und Sie haben eine Abtastung von 55-64 und Ihre Reaktionsrate ist höher als es sein sollte. Sie müssen einfach weitermachen und entweder weiter überprüfen oder sagen: „OK, wir können 65 nicht als Cutoff verwenden, was passiert, wenn wir auf 60 fallen?“ Diese Entscheidungen müssen alle berücksichtigt und abgewogen werden. Sie müssen überlegen, wie hoch Ihr geschätzter Reichtum oder Reichtum der Prozentsatz der reaktionsschnellen Dokumente in Ihrem Datensatz ist. Es wird geschätzt... denn wenn wir wüssten was es war... das alles wäre, drücken Sie den Knopf und schon sind Sie fertig.

Anja Korolyov

Ich schaue mir die Umfrageergebnisse an und sehe, dass einige Leute es abschneiden, bevor sie ihre Augen und alles legen. Das ist großartig zu wissen. Danke, Young.

Dies ist nur eine Art TAR 1.0/TAR 2.0-Übersicht, und jetzt, da Sie all diese Arbeit erledigt haben, ist es in Ihrem Fall beendet, was machen Sie mit den Ergebnissen und behalten Sie sie für die zukünftige Verwendung. Und das bringt uns zu Portable Models.

Junger Yu

Richtig, je nach Anwendung, die Sie verwenden, können Sie möglicherweise all das Arbeitsprodukt wiederverwenden, das in diesen Prozess eingeflosst ist. Aber das wird hier durch ein paar Dinge nachgegeben. In der Regel möchten wir tun oder was wir hier empfehlen, ein Modell zu erstellen, bei dem Sie ein wiederverwendbares Modell erstellen möchten, wenn Sie ein wiederverwendbares Modell erstellen möchten, wenn Sie ein wiederverwendbares Modell erstellen möchten. Wenn Sie Serienstreitigkeiten haben, die immer an der gleichen Art von Rechtsstreitigkeiten beteiligt sind. Wenn es sich um eine bestimmte Art von Rechtsstreitigkeiten wie Beschäftigung oder FCPA handelt, Kartellrecht oder Erstellung eines Modells zur Identifizierung von Müll oder automatischen Antworten, potenziell privilegiert. Diese sind alle sehr, sehr spezifisch für das, was Sie bauen möchten. Aber wenn Sie eine erstellen, die funktioniert, können Sie es immer wieder anwenden.

Jetzt ist jeder Datensatz anders und all diese Faktoren müssen abgewogen werden, aber wenn Sie einen Wiederholungskunden haben und mit ihren Daten vertraut sind und Privilegien immer gleich sein wird, wird Müll immer derselbe sein. Oder hier sind die fünf Arten von Rechtsstreitigkeiten, denen dieser eine Kunde Tag für Tag gegenübersteht. Sie sollten in der Lage sein, ein Modell dafür zu erstellen. Und wenn Sie dieses Modell haben, ist es ein großartiger Ausgangspunkt. Sie haben die Arbeit bereits hinter den Kulissen erledigt; Sie können dieses Modell auf diesen Datensatz anwenden und es gibt Ihnen einen Anfang. Das bedeutet nicht, dass der Prozess zu 100% abgeschlossen ist, aber es gibt Ihnen großartige Einblicke, und auch wenn Sie dieses Modell verfeinern, können Sie dieses Modell verfeinern und wirklich etwas bauen, das Ihnen vom ersten Tag an 60-70% des Weges dorthin bringt.

Seth Curt Schechtman

Hey, Adam, warum brechst du nicht hier ein und sprichst darüber, wie Kunden nach diesem Zeug greifen und nach unseren Fähigkeiten fragen.

Adam Rubinger

Ja, und ich denke, dass Kunden sicherlich nach Möglichkeiten suchen, Arbeitsprodukte aus MD5-Hash-Datenbanken für die Verwendung tragbarer Modelle wiederzuverwenden, wenn Sie solche Wiederholungsverwalter haben, wiederholen Sie Probleme. Ich denke, es gibt eine großartige Gelegenheit, durch die Wiederverwendung dieser Art von Informationen weitere Einsparungen zu erzielen - diese Art von Informationen, insbesondere Klassifikatoren, und wir beginnen zu sehen, dass dies geschieht. Es fängt gerade erst an. Ich denke, die Technologie entwickelt sich bis zu dem Punkt, an dem sie nützlich und fähig wird, daher glaube ich, dass wir die Wiederverwendung von Daten und solchen Dingen viel mehr nutzen werden.

Anja Korolyov

Danke, Adam und Young. Und jetzt bringt uns dies zu dem Unterschied zwischen TAR 1.0 und TAR 2.0 und welche würden wir normalerweise empfehlen, was meiner Meinung nach eine der Fragen ist, die uns gestellt werden.

Und ich habe irgendwie einige der Unterschiede abgedeckt. Auch hier, TAR 1.0, haben Sie ein oder zwei Fachexperten, die die Dokumente codieren. Die Kosten sind dort an einem Punkt minimal. Auf der anderen Seite kostet der Fachexperte ein bisschen mehr als eine Managed Review-Lösung.

Es gibt kontinuierliches aktives Lernen. Sie haben viele Leute, die Entscheidungen treffen, und das ist nicht immer das Beste. Je mehr Menschen Sie haben, desto mehr Interpretation dessen, was für dieses Projekt reagiert, ist. Gleichzeitig können Sie jedoch neue Reaktionsfähigkeit erlernen. Während der Überprüfung erscheinen Dokumente, und das könnte sich ändern. Etwas, das nicht als reaktionsschnell angesehen wurde, finden Sie eine E-Mail und sagen: „Oh, darüber sprechen sie, oh ja, das ist definitiv verantwortlich“, und Sie aktualisieren das System, und es lässt Sie lernen.

Also hängt alles davon ab, mit welchem Fall Sie es zu tun haben und mit welcher Art von Frist Sie es zu tun haben. Wie hoch ist Ihr Budget? All diese Fragen müssen gestellt werden, und wir stellen sie immer von unseren Kunden, denn das wird die Entscheidung vorantreiben. Wenn Sie eine zweite Anfrage epischen Ausmaßes haben und drei Monate haben [unhörbar], wenn Sie sogar drei Monate Zeit haben, Millionen von Dokumenten zu durchlaufen, und Sie müssen erwägen, nicht nur auf Reaktionsfähigkeit zu überprüfen, sondern auch Privilegien in Betracht ziehen und Sie müssen erwägen, wichtige Dokumente über die Fusion, du wirst irgendwie mit dem TAR 1.0 gehen, weil du nur da reinkommen willst, du willst es auscodieren, du willst sagen: „Das ist die Bevölkerung, die reagiert, ich bin im Wesentlichen einhalten, ich bin klar, ich bin klar, ich bin gut, ich will nicht ständig lernen, ich will nicht wissen, ich wasche mir die Hände weg das“.

In einem anderen Fall haben Sie einen Fall, der es nicht eilig hat und auf der Datenseite etwas niedriger ist, und Sie haben keine Ahnung, wonach Sie überhaupt suchen, Sie haben zunächst sehr wenig Schlüsseldokumente und Sie möchten wissen, was die Daten zeigen werden, und Sie erwarten, dass sich die Reaktionsfähigkeit ändert, und es ist ein Ermittlungsangelegenheit. In diesem Fall werden wir TAR 2.0 auf jeden Fall empfehlen.

Wir sagen nicht wirklich, dass einer besser ist als der andere. Wir hatten Fälle, und Seth und Young können damit sprechen, wo wir mit TAR 1.0 angefangen haben, weil der Kunde das bevorzugte, und dann kamen wir an den Punkt, an dem wir mit 1.0 absolut keine Fortschritte machten, weil der Reichtum so gering war. Und wir sagten, an dieser Stelle haben wir das Gefühl, dass Sie einfach ohne Grund Geld ausgeben, wenn ein Thema diese Dokumente überprüft. Lassen Sie uns dies in eine Überprüfung umwandeln, wenn alles gesagt und erledigt ist, denken wir, dass wir Ihnen tatsächlich Geld sparen werden, wenn Sie zu TAR 2.0 gehen und tatsächlich ein Hybrid-Modell dort zwischen den beiden machen“.

Junger Yu

Nur um hier auf die Frage zurückzukehren, Fälle, in denen wir TAR 1.0 über TAR 2.0 empfehlen würden, jeder Fall ist anders, der Zeitplan, definitiv, jede Art von Fristen belastet die getroffene Entscheidung stark, aber ich denke, was noch wichtiger ist, es wird der Reichtum dieses Datensatzes sein. Wenn Sie sagen, dass 40-50% dieses Datensatzes reagieren werden, möchten Sie wirklich in ein aktives Lernmodell einsteigen und versuchen herauszufinden, wo Sie diesen Prozentsatz abschneiden oder überstehen sollen.

Wenn der Reichtum sehr gering ist, nehmen wir an, dass der Reichtum unter 10% liegt, besteht die Möglichkeit, dass Sie während Ihres Kontrollsatzes keine reaktionsschnellen Dokumente finden, sodass Sie weiterhin zusätzliche Dokumente in Ihr Kontrollset ziehen müssen. Dieser Steuersatz kann sehr lange andauern, bis Sie die richtige Anzahl an reaktionsschnellen Dokumenten haben.

Das geht auf diese andere Frage dort hin. „Was ist der Unterschied zwischen einem Steuersatz und einer Trainingsrunde?“

Ein Steuersatz wird ein zufälliger Pull von Dokumenten sein, und es ist die Maßnahme, mit der die Trainingsrunden verglichen werden. Es ist ein zufälliger Abzug von Dokumenten. Die Anzahl der Dokumente hängt von Ihrem Vertrauen und Ihrer Fehlerspanne ab. In einigen Anwendungen wird impliziert, dass der Reichtum ihn beeinflusst. Brainspace berücksichtigt dies sicherlich. Es gibt andere Anwendungen, die dies nicht tun. Aber was die Empfehlung zwischen TAR 1.0 und TAR 2.0 angeht, lernt es Ihre Daten wirklich kennen. Die Reaktionsrate, die konzeptionelle Vielfalt dort, Ihr Zeitplan, Ihr Budget, all das wird in diese Entscheidung einfließen.

Seth Curt Schechtman

Und eine Sache, Young, die ich aus Sicht der Überprüfung hinzufügen werde, benötigen alle Dokumente [Issue Checks]? Wenn ja, dann müssen Sie sie so oder so überprüfen, wie Sie es sich ansehen. Wir sehen es nicht oft. Zweite Anfragen und die größeren Dinge, die wir haben, werden einfach direkt aus der Tür gehen, ohne sie zu sehen, etwas [unhörbar] für Privilegien oder PII oder heiße Begriffe, aber Sie müssen Tag ausgeben, Sie müssen alle sehen. Sie verwenden also TAR 1.0 oder versuchen, 2.0 zu verwenden, um die Überprüfung abzuschneiden, bevor Sie sich alles angeschaut haben, was potenziell produzierbar ist. Dies wird nicht passieren.

Anja Korolyov

Danke euch beiden. Und damit möchte ich auf das eingehen, woran viele Menschen interessiert sind, und eine der wichtigsten Entscheidungen, die eine Rolle spielen, sind die Kosten. Wie viel sparen Sie mit jedem dieser Tools? Ich gebe es Mike und Adam zurück, um darüber zu sprechen.

Michael Sarlo

Die Kosten für die Überprüfung. Zum Beispiel haben wir hier einen Fall, in dem wir fast 2,9 Millionen Dokumente hatten, die sich in der Überprüfungsbevölkerung befanden. In der Lage zu sein, nur 12.000 von denen zu betrachten, um ein Modell zu trainieren, um Reaktionsfähigkeit zu identifizieren, liegen die Kosteneinsparungen bei Millionen im High-End, in einigen Fällen 8 Millionen US-Dollar für komplexere Angelegenheiten.

In fast allen Fällen werden Sie immer Kosteneinsparungen mit TAR oder CAL realisieren, und diese Präsentationen werden zum Download verfügbar sein, alles wird aufgezeichnet, wenn Sie an einigen guten Kennzahlen interessiert sind und wir freuen uns, auf die Granularitäten einer dieser Fallstudien einzugehen.

Insbesondere Fall Nummer 1 ist hier einer der Fälle, in denen wir Slack-Daten tatsächlich durch das TAR-Modell in einem vereinbarten Protokoll mit dem Justizministerium ausführen konnten. Viele dieser Dokumente enthalten also tatsächlich viele, viele, viel mehr kleinere Kommunikationen, weil wir wiederum mit diesen zusammengeführten sekundären analytischen Textdateien gearbeitet haben, die wir durch unsere benutzerdefinierten Algorithmen hier erstellen.

Ich ermutige meine Kunden immer, in Betracht zu ziehen, TAR zu verwenden oder CAL zu verwenden, und einfach nur, im Allgemeinen... Sie können diese Tools sicherlich für QC verwenden. Sie können diese Tools verwenden, um weitere Dokumente zu finden, an denen Sie interessiert sind. Du kannst Feeds machen. Sie können Dokumente auf verschiedenen Ebenen eines [Konferenz wie] Intervalls stapeln. Es gibt so viele verschiedene Möglichkeiten, technologieunterstützte Reviews zu verwenden, um jede Überprüfung sowohl aus Qualitätsgesichtspunkten als auch aus Qualitätssicherung und zur Risikoreduzierung zu verbessern und Ihnen zu helfen, diese Dokumente vom Typ „Nadel-in-the-Heuhackid“ zu finden.

Und selbst wenn man auf Klassifikatoren und ähnliches zurückgeht, ist es großartig, diese auf individueller Kundenebene von Fall zu Fall zu Fall zu verschieben, aber wir werden jetzt auch gebeten, diese Arten von Tools proaktiv von einem Compliance-Standpunkt aus für Unternehmen zu verwenden, die versuchen, Risiken so zu identifizieren passiert. Wir verwenden den zugrunde liegenden Text wirklich, um mehr Compliance-Workflows zu unterstützen, E-Mails wöchentlich zu analysieren oder live für Schlüsselkonzepte zu analysieren.

Ich ermutige alle, auch hier wirklich über den Tellerrand hinaus zu denken, denn es gibt einen großen Wert, den Sie Ihren Kunden bieten können, wenn Sie über die erweiterten Anwendungen der technologieunterstützten Überprüfung nachdenken.

Anja Korolyov

Danke, Mike. Und ich möchte es nur an Adam zurückwerfen, um auch die CAL-Kosten zu decken.

Adam Rubinger

Und einer der interessanten Unterschiede zwischen diesen beiden Tabellen ist der theoretische Train-the-Database TAR 1.0 und dann eine Art Stop-Überprüfung und das System prognostiziert. Mit CAL stellen Sie, wie Anya und Young und Seth skizziert haben, ein Team von Gutachtern in diese Angelegenheit ein und sie beginnen zu überprüfen, und wie das System erfährt, gehen Sie von sehr reaktionsschnellen Dokumenten zu sehr nicht reagierenden Dokumenten über. Und diese realen Beispiele hier veranschaulichen, wie wir mit einem ziemlich großen Datenkorpus beginnen, und es gibt ein paar Ausreißer, die interessant sind. Da die Zahlen niedriger sind, können Sie sehen, dass es länger dauert, bis sich das System stabilisiert und einen Punkt findet, an dem Sie die Überprüfung abschneiden können. Und wie die größeren Zahlen zeigen, können Sie mit dieser Strategie erhebliche Einsparungen erzielen, insbesondere wenn Sie wirklich einen geringen Reichtum haben, und Sie müssen immer noch eine Substanzüberprüfung durchführen, um Ihren Chief Case in Chief aufzubauen und Dokumente klassifizieren und sie durchgehend betrachten zu können - während Sie Ihre Produktion aufbauen Sets und solche Dinge.

In allen Fällen sehen wir, dass sowohl TAR 1.0 als auch TAR 2.0 erhebliche Geldbeträge sparen, die es auch in kleinsten Fällen absolut wert machen.

Anja Korolyov

Danke, Adam. Nur damit, und ich denke, diese nächste Folie wird auch in unserem Gespräch darüber einige Fragen beantworten. Was kommt als Nächstes in Analytics?

Nun, da wir hier sind, was kommt als Nächstes? Und ich denke das Erste

eines Hybridmodells geht irgendwie auf das, was TAR 3.0 ist, und ich denke, dass Brainspace dort tatsächlich große Wellen schlägt, also Young, wenn Sie Ihr Lieblingsthema übernehmen möchten.

Junger Yu

Brainspace hat also in der neuesten Version die Implementierung eines Steuerungssatzes eingeführt, unabhängig davon, ob es sich um aktives Lernen oder TAR 1.0 handelt. Was das wirklich für aktives Lernen bedeutet, ist, dass Sie sehr leicht werden können... Sie können die Rückrufgenauigkeit leicht messen. In der Regel ist es etwas schwieriger, die Mathematik kann definitiv ausgearbeitet werden, es ist ein wenig manuell, aber es gibt Ihnen das gleiche Aussehen und Gefühl, als würden Sie eine vorausschauende Codierung oder ein TAR 1.0-Projekt ausführen.

Was bedeutet das für TAR 1.0? Wenn Sie eine Verschiebung der Reaktionsfähigkeit haben oder sich die Reaktionsfähigkeit im Laufe der Zeit ändert, können Sie ein anderes Steuerelement einsetzen, das als zweite Maßnahme fungiert. Es ermöglicht Flexibilität, von TAR 1.0 auf TAR 2.0 zu wechseln oder in irgendeinem ungeraden Szenario von TAR 2.0 auf TAR 1.0 zu wechseln, aber es gibt Ihnen mehr Einblick in die Metriken.

Es gibt ein paar Fragen da draußen, die dies berühren. Anya, stört es dich, wenn ich sie einfach sehr schnell durchgehe?

Anja Korolyov

Natürlich mach weiter.

Junger Yu

OK, also der erste ist „Akzeptierter Rückruf von etwa 80% ist vertretbar“.

80% sind ziemlich hoch. In der Regel empfehlen wir etwa 75% Rückruf. Es ist eine Wippe, je höher der Rückruf, Sie haben einen Kompromiss an Präzision. 75% werden normalerweise akzeptiert. Wenn Sie mit einer höheren Fehlermarge oder sagen wir, einem höheren Konfidenzniveau und einer niedrigeren Fehlermarge höher als das, ist TAR 1.0 nicht wirklich förderlich. Das bedeutet, dass Sie viel mehr Dokumente überprüfen müssen.

Für die vorgeschlagenen Datengrößen, wie viele Dokumente Sie trainieren müssen, ist es proportional. Wenn man sich diese Zahlen anschaut, kommt der Reichtum definitiv ins Spiel. Soweit Sie eine Vereinbarung mit entgegengesetzten oder Aufsichtsbehörden haben, ist dies die Verhältnismäßigkeit. Wenn Sie 3 Millionen Dokumente haben, wie viele Entscheidungen müssen Sie treffen, damit es vernünftig erscheint zu sagen, dass wir das Modell trainiert haben. In einem TAR 1.0-Szenario möchten Sie die Stabilisierung erreichen. In der Stabilisierung sehen Sie keine großen Änderungen in der Präzision und [Tiefe] mehr für den Rückruf. Was also passiert, ist, dass die Entscheidungen, die Sie getroffen haben, konsistent sind. Sie sehen nicht, dass die Präzision von 55-60% auf 70% geht, Sie haben fast einen geradlinigen Durchschnitt.

Beim aktiven Lernen liest die Branche das irgendwo zwischen 10 und 15% Ihrer Bevölkerung, bevor Sie das Modell ausreichend trainiert haben. Der Vorbehalt dort wird immer konzeptionelle Vielfalt geben. Sie wissen also nur, was Sie wissen. Wenn Sie die Reaktionsfähigkeit auf ein Konzept beurteilen, dem Sie zuvor noch nicht begegnet sind, wie viele dieser Konzepte existieren. Das Clustering und die Konzeptsuche, die wir im Voraus empfehlen, spielen also stark dazu ein. Wenn Sie sagen können, dass Sie Ihren Spread gemacht haben, haben Sie Ihre Berichterstattung durchgeführt und wir kennen 90-95% der Konzepte innerhalb unserer Datenpopulation, 10% können es funktionieren. Auch hier ist jeder Datensatz anders, und ich hasse es, eine „es abhängt“ Antwort zu geben, aber es gibt ein paar Faktoren, die Sie ergreifen müssen. Dies ist auch der Grund, warum Sie während des Prozesses einen Fachexperten haben, der den Prozess bezeugen, den Prozess dokumentieren und den Prozess dokumentieren und diesen präsentieren kann, der sehr wichtig ist.

Anya, ich wollte hier nicht vom Thema abgehen, mach weiter.

Anja Korolyov

Nein, nein, es geht dir gut. Da wir uns bereits in den Fragen stellen, nehme ich einfach: „Ist das fast Duplikat das gleiche wie Find ähnlich?“

Es ist nicht das Gleiche. Das Beinahe-Duplikat basiert nur auf dem Text des Dokuments. Die Analyse nimmt den tatsächlichen Text des Dokuments und vergleicht die tatsächlichen Wörter im Dokument. Es wird das Dokument finden, das den meisten Text enthält, und rangiert dann alle anderen Dokumente in einem ähnlichen Prozentsatz wie denen. Ähnliches finden ist eher ein „Analytics“ -Konzept, bei dem es konzeptionell ähnliche Dokumente finden wird, nicht unbedingt textuell ähnliche Dokumente.

Ich denke, Seth wäre großartig, die relevante und reaktionsschnelle Frage zu beantworten.

Seth Curt Schechtman

Darauf komme ich hin. Nur eine Frage, die Young beantwortet hatte, also denke ich, dass es eine Frage zwischen manueller Überprüfung des Menschen und der computergestützten Überprüfung gab.

Angenommen, Menschen waren für jede Überprüfung, jedes Dokument und ob Sie Suchbegriffe ausgeführt haben oder nicht, und sie finden 100%, dann werden Sie sagen, dass die Algorithmen 80% finden werden, vielleicht bestenfalls 90% die besten sind, die Sie je gesehen haben. Was kostet das Auffinden dieser anderen Dokumente? Darum geht es an. Es kommt auf die Verhältnismäßigkeit an. Geben Sie Unmengen und Unmengen an Geld aus, das durch 95, 98, 99 nicht reagierende Dokumente fließt, um diese anderen reaktionsschnellen Dokumente zu finden? Darauf kommt es wirklich an. Die Antwort ist, dass Sie jeden einzelnen finden müssen, sei es daran, dass - ich sage, es ist ein Make-or-Break-Fall oder weil es, ich weiß nicht, vielleicht eine interne Untersuchung und ein Dokument einen Unterschied machen können, dann möchten Sie vielleicht jeden einzelnen überprüfen. Vielleicht willst du jeden einzelnen finden. Es hängt davon ab, wie hoch die Kosten sind und ob Sie die andere Seite der Regierung dazu bringen können, diesen Dingen zuzustimmen. TAR ist in der Rechtsprechung gut akzeptiert. Sie möchten damit Geld sparen, aber in bestimmten Fällen, in denen Sie es möglicherweise nicht verwenden möchten.

Sich der Frage der Relevanz versus Reaktionsfähigkeit zuwenden. Eine meiner Lieblingsfragen aller Zeiten im Rückblick. Ich sage, es kommt darauf an. Die Relevanz ist breiter. Die Reaktionsfähigkeit ist eng. Wenn Sie eine Produktionsanfrage erhalten, fragen sie nach Dingen, die reagieren. Das bedeutet nicht, dass sie eine ganze Reihe von Dingen ausgelassen haben, die sich auf den Fall beziehen könnten, die für den Fall relevant sind, die für die Angelegenheit relevant sind, aber sie haben einfach nicht danach gefragt. Wenn Sie einen Trainingsalgorithmus haben, erstellen wir dieses Set, ob wir eine Überprüfung abschneiden oder nicht, Sie möchten mit Reaktionsfähigkeit gehen, richtig, denn darauf hatten sie Anspruch. Sie möchten der anderen Seite nicht all diese anderen Dinge geben, die sich möglicherweise auf den Fall beziehen, reagieren aber möglicherweise nicht. Speziell angefordert, möchten Sie bei Ihren Produktionen nicht zu weit gefasst sein, sondern eine ausgezeichnete Frage, und ich hoffe, ich habe sie beantwortet.

Junger Yu

Also, auf die andere Frage, die es gibt, in Bezug auf die Verhandlungen mit TAR ESI-Protokollen. Präzision und Rückruf. Meine Antwort wird hier eine Nicht-Antwort sein. Ich würde nichts versprechen. Erinnern Sie sich, 75% sind eine akzeptable Toleranz. Für die Präzision ist es eine schwierigere Frage. Wirklich, es hängt davon ab, wie viel Bewertung Sie machen möchten. Auch die Definition von Reaktionsfähigkeit wird dort schwer spielen. akzeptable Präzision. Im Allgemeinen würde ich gerne eine höhere Genauigkeit als 65% sehen, danach suche ich. Nicht alle Fälle sind gleich gebaut. Nicht alle Datensätze werden gleich erstellt. Wir haben bis zu niedrigen 20ern gesehen, hohe Jugendliche, und wir sind immer noch in der Lage, eine Genehmigung für diesen Prozess zu erhalten. In Bezug auf die Verhandlungen würde ich die Präzision in Stein nicht festigen.

TAR 3.0, wir können warten, bis Mike mit einigen anderen What's Next in Analytics spricht.

Anja Korolyov

Und nur um zu dem zurückzukehren, was akzeptabel ist, was nicht. Wir hatten sicherlich Fälle, in denen wir, wie Young sagte, immer bei HayStackID 65 empfehlen, aber wir hatten Fälle, die nie über 23, 24 lagen, aber wir erreichten die Stabilisierung und wir haben... die Anwälte konnten die Daten nehmen, die Berichte aufnehmen, zurückgehen und sagen: „Schau, ich weiß, wir haben angefangen, 65 zu wollen, aber hier sind wir, lasst uns zustimmen, es abzuschneiden, lasst uns zustimmen, die Rezension hier zu beenden und einfach zur Produktion zu gehen.“ Also, wieder, es ist immer... Sie möchten sich immer die Daten ansehen, die Ihnen zur Verfügung stehen, und ich weiß, als Anwälte sind die Daten überwältigend und die Berichte und all das, aber Sie möchten trotzdem sicherstellen, dass Sie schauen, was vor Ihnen liegt, alles in Betracht ziehen, einschließlich Kosten und wo Sie am Ende sein müssen, was macht das am sinnvollsten für den Kunden.

Sofern jemand anderes nicht mehr Input hat, möchte ich es Mike zurückwerfen, um über die aufregenden Dinge zu sprechen, die Stimmungsanalyse, die Emojis, Finanzdaten, PII, PHI, all das gute Zeug sind.

Michael Sarlo

Klar, vielen Dank, Anya, und wir werden wenig Zeit haben, also mache ich es ziemlich schnell. Die wichtigsten Imbissbuden, und das sage ich den Leuten immer, Analysen aus eDiscovery-Standpunkt, und die Engines und die Tools und die zugrunde liegende Technologie und deren Anwendung sind nicht so fortgeschritten wie andere Branchen, die auf Datenanalysen angewiesen sind. Wir brauchen einfach nicht viele der Anwendungen oder viele der erforderlichen benutzerdefinierten Bibliotheken und Tools, einen differenzierteren Ansatz, der spezifisch für eine Organisation und ihre Daten ist oder ein Problem, das Sie lösen möchten. Wir haben ziemlich viel Zeit damit verbracht, mit solchen Off-Market-Analysetools zu arbeiten, sei es Open Source wie Graph-Datenbanken wie Neo4j, mit denen Sie einige wirklich interessante Dinge tun können.

Wo wir auch Dinge sehen und wo Sie aus Sicht der Stichproben viel bessere Analysefunktionen erhalten und einfach mehr mit Ihren Daten erreichen können, ist nur mehr Zugriff auf Hardware. Wenn Sie die Dinge in die Cloud bringen, ist es sehr billig, Big Data Lake-Berechnungen vom rechnerischen Standpunkt und letztendlich aus Kostenstandpunkt aus durchzuführen. Manchmal denke ich darüber nach, wie lange das Zeug vor drei, vier, fünf Jahren gedauert hätte, als Sie auf erweiterte Funktionen zur Analyse Ihrer Daten einsteigen. Wir verwenden Graph-Datenbanken, um viel größere Finanzdatensätze wie Anrufprotokolle zu analysieren. Wir verbinden Benutzeraktivitäten in einem breiten Spektrum von Systemen mit tatsächlichen Dokumenten, die in einer Zeitleiste erstellt werden, nur mehr Ermittlungsdienste.

Und wirklich, auch für alle hier, die sich mit all den PHI, PII, DSGVO, Datenschutz befassen und das identifizieren können, da... wir arbeiten tatsächlich ziemlich viel mit unseren eigenen einheimischen Engines und verlassen uns dann auch auf APIs von Google und von Microsoft und von Amazon, die alle verschiedene Teile der PII machen Erkennungsrätsel, das bieten wir unseren Kunden auch heute an. Wirklich, in unserer Entdeckung nach dem Verstoß, wie Cyber, wie der Überprüfung der Praxis, aber all unseren multinationalen Angelegenheiten, in denen wir es mit Daten zu tun haben, die sich möglicherweise in APAC oder in Europa befinden, und mit DSGVO-Problemen ist es so wichtig, PII frühzeitig identifizieren zu können. Keyword-Recherchen funktionieren nur so gut, daher würde ich jeden ermutigen, hier etwas zu erkunden. Es gibt viele Open-Source-Tools und einfach wirklich großartige Ressourcen im Internet in diesen Domänen.

Adam Rubinger

Danke, Mike. Ich weiß, dass wir hier pünktlich ausgehen, aber ich wollte die TAR 3.0-Frage ansprechen. TAR 3.0, ich möchte nicht sagen, dass es ein Rückfall auf TAR 1.0 ist, aber es verfolgt einen ähnlichen Ansatz. Hier gibt es zusätzliche Layering, also werden Sie traditionell beim Clustering eine zentrale Schicht oder einen zentralen Cluster erhalten und dann in die äußeren Arme hinausgeht. Betrachten Sie es bei TAR 3.0 eher als ein Venn-Diagramm, in dem ein Dokument in mehreren Venn-Diagrammen leben kann, die nur übereinander sitzen. Sie können ein Dokument haben, das tatsächlich in 40.000 Clustern lebt.

Was es tut, ist, Clusterkerne zu nehmen und sie an Sie zu senden. Wenn Sie eine Entscheidung für die Reaktionsfähigkeit treffen, wird eine Ebene nach unten gebohrt und Sie dann aufgefordert, die nachfolgende zugrunde liegende Ebene zu codieren. Es ist sehr schwer zu visualisieren. Es gibt einen sehr guten Blog darüber. Wenn Sie einfach „TAR 3.0" eingeben, können Sie etwas Licht lesen. Alternativ können Sie sich auf jeden Fall an uns wenden und wir können Ihnen dort eine Beratung geben.

Michael Sarlo

Ja, und ich würde ansprechen, um zu sagen, dass es sich um einen Workflow handelt. Sie können die Auswirkungen von TAR 3.0 durch den taktilen Einsatz verschiedener Trainingsrunden in Brainspace simulieren. Auch gepaart mit strategischer Probenahme im Voraus, Durchführen einer Suchbegriffsanalyse und dann das Frontladen einiger dieser Ergebnisse fast wie ein Vorzug und Feeds in das Modell, aber dann verwenden Sie diese, um Dokumente zu erhalten, von denen Sie wissen, dass sie früh im TAR 2.0-Prozess heiß oder relevant sind. So können wir die Modelle auf diese Weise starten, und Sie erhalten hier oft die gleichen Effekte. Ich denke, TAR 3.0 ist wirklich sehr viel, es ist dieser hybride Workflow, je nachdem, mit wem Sie sprechen. Es gibt andere Plattformen, die versucht haben, dies algorithmischer zu markieren. Es ist ein ganz anderer Prozess, aber ich würde sagen, dass alle wichtigen Analyseplattformen einige Funktionen in diesem Bereich bieten.

In Ordnung, nun, vielen Dank. Ich bringe es Rob Robinson an, um das zu schließen. Wir schätzen es sehr, dass Sie alle heute beigetreten sind. Zögern Sie nicht, sich bei Fragen zu melden. Wir antworten ihnen gerne. Wir sind immer verfügbar. Schießen Sie einfach eine E-Mail oder rufen Sie uns auf unserer Website an.

Schließung

Vielen Dank, Mike. Und vielen Dank an das gesamte Team für die hervorragenden Informationen und Einblicke heute. Wir möchten uns auch die Zeit nehmen, jedem einzelnen von Ihnen zu danken, der am heutigen Webcast teilgenommen hat. Wir wissen wirklich, wie wertvoll Ihre Zeit ist und wir freuen uns, dass Sie sie heute mit uns teilen.

Abschließend möchte ich hervorheben, dass wir hoffen, dass Sie die Möglichkeit haben, an unserem monatlichen Webcast teilzunehmen, der für den 17. Februar um 12 Uhr Eastern geplant ist, und es wird sich um das Thema Datenverletzung, Entdeckung und Überprüfung handeln. In dieser bevorstehenden Präsentation werden wir Cybersicherheitsexperten, Datenschutzexperten und Experten für rechtliche Entdeckung haben, die mitteilen, wie Unternehmen sich auf einen Cyber-bezogenen Vorfall vorbereiten können, und wir hoffen, dass Sie daran teilnehmen können.

Nochmals vielen Dank, dass Sie heute dabei sind. Sei sicher und gesund. Und das schließt den heutigen Webcast ab.

KLICKEN SIE HIER UM DIE PRÄSENTATIONSFOLIEN HERUNTERZULADEN

Webcast - TAR in der realen Welt - 011321 - Update

HIER GEHT ES ZUR ON-DEMAND-PRÄSENT