DEUTSCH

Alation: das Finden der Nadel in der Mitte… die Daten See

198

Die Natur verabscheut ein Vakuum und Einfachheit verabscheut best of breed. In einer idealen Welt, wäre es eine allumfassende Dach-Lösung an, die alle Ihre Bedürfnisse zu erfüllen von Suppe zu Muttern. Würden Sie haben weniger bewegliche Teile, weniger Aspekte der integration, und die meisten wichtiger ist, nur von einer einzigen Kehle zu ersticken. Die Debatte zwischen Dach vs. best-of-breed-bleibt als relevanter als je zuvor, heute, vor allem, wenn es um den Ausgleich der Bequemlichkeit der mit nur managed services von einem der üblichen verdächtigen vs. Erhalt der Freiheit der Wahl und die Vermeidung von vendor lock-in.

Schauen Sie sich nur die Debatten, die an die Oberfläche drängen, als Unternehmen ernsthaft die migration in die cloud. Wenn Sie auf der AWS-Plattform, es ist die Bequemlichkeit der Nutzung von Amazon DynamoDB austauschbar mit EMR und integration mit dem Data-Pipelining-service für Daten-tiering zur S3-Speicher. Die Kehrseite der Medaille ist die Frage, wie abhängig Ihre Organisation will sich mit AWS oder anderen cloud-Anbieter. Das ist ein Thema, das wir immer wieder zurückkehren werden, um später auf.

Also, wenn wir uns auf Daten, die See-governance, fanden wir, dass die Transparenz (wissen, welche Daten in dem Daten-See) und Sicherheit an der Spitze standen. Aber es gibt kein einziges tool, um Ihre Daten lake transparent und die Inhalte der Daten erkannt werden kann. Es gibt wenig Angst vor dem vendor-lock-in hier. Business-teams und teilen sich die Verantwortung für die Verwaltung, welche Informationen in die Daten-See. Business-teams sind verantwortlich für das kuratieren Ihre eigenen Daten, während ES auf den Haken für die Sicherstellung, dass die Daten gesichert und geregelt richtig.

Die Verwaltung der Inhalte Ihrer Daten See umfasst mehrere Aufgaben. Es ist profiling und Vorbereitung der Daten, um es konsumierbar, und matching und Deduplizierung helfen, zu validieren. Um die Daten nutzbar, es gibt die Notwendigkeit der Anreicherung durch blending-bezogene Daten (wie demografischen oder verhaltensbezogenen Daten für einen Kunden) und/oder die Erkenntnisse Ihrer Kollegen auf das Dienstprogramm oder die Herkunft der Informationen. Und zugänglich zu machen, macht es Sinn zu veröffentlichen der Metadaten in einem Katalog. So viele Aufgaben, und nicht so überraschend, dass so viele tools entstanden. Und es ist so wenig Zeit.

Unsere kneejerk Reaktion ist, dass eine toolchain von vier oder fünf tools für die Durchführung dieser Aufgaben wird nicht nachhaltig sein. Aber das setzt Voraus, dass Sie arbeiten gegen einen einzelnen, monolithischen Ziel. Die Realität ist selten so schwarz und weiß. So wie die Welt bewegt von der Vorstellung eines einzigen galaktischen enterprise-data-warehouse Bereitstellung der einzigen Quelle der Wahrheit um die analytics-und Satelliten-data-marts gediehen ist, so hat auch gegangen, die Vorstellung, dass die Daten-See Leben würde, in einem einzigen Hadoop-Clusters. Die Chancen stehen gut, Ihre Daten, die See ist das Universum, der Daten speichert, die sitzen in Ihrem Unternehmen, ob Ihr enterprise data warehouse, Oracle-Datenbank, Hadoop-cluster und/oder BI-tool-cache. Vielleicht imaginären single-purpose-Schweizer Armee Messer-Daten Inventar-tool nicht ausreichen, nachdem alle.

Alation ist eine neue Welle von Werkzeugen für die Unterstützung der Unternehmen Sinn machen, welche Daten in den See und gewusst wie-Abfrage. Letzte Woche sicherte sich mit 23 Millionen Dollar an Serie-B-Finanzierung, die in Erster Linie auf den ausbau seiner Kanäle auf den Markt.

Wie viele dieser tools, Alation sicherungen maschinelles lernen und crowdsourcing durchführen seine Magie. Für Alation, es geht um die Katalogisierung der Inhalte Ihrer Daten Sees, der durch das Crawlen von enterprise-Datenbanken für Metadaten-harvesting; tracking-Verwendungsmuster für die Bereitstellung von Abfrage-Empfehlungen; und bietet Natürliche-Sprache-Suche zur Identifizierung von Tabellen.

Alation ist kaum der einzige Spieler bietet einen Katalog, aber die meisten seiner Konkurrenten übernehmen Sie als Teil der breiteren Angebot. In der Hadoop-Welt, Cloudera Navigator beinhaltet die Katalogisierung als Teil eines größeren Daten-governance-framework. Zaloni beinhaltet eine Daten-Katalog als Teil eines Pakets, verwaltet und regelt das Auffüllen von Daten-Seen.

Anbieter wie IBM und Collibra bieten auch Kataloge als Nebenprodukt von Informationen stewardship-Ansätze umfasst betriebsinterne Glossare, data dictionaries, policy Manager, und die master-Daten-wie Referenzdaten. Aber IBM-Katalog (und Daten-See “governance”) – Funktionen sind nun neu im Licht der neuen OEM-Beziehung mit Hortonworks, das bringt in der Apache-Atlas-Technologie für das tagging von Metadaten. Und Sie können die Katalogisierung als eine Verlängerung der Vorbereitung der Daten-Kapazitäten, die durch die gleichen von Paxata.

Funktional, einfach nur um den direkten Wettbewerb Wasserlinie Daten, die in Erster Linie auf eine Mischung von maschinellen Lernens und der menschlichen Kuration zur Identifizierung der Herkunft der Daten. Aber das erstreckt sich nicht auf Hilfe, Alation bietet für die Abfrage der Daten.

So Alation der Herausforderung zu beweisen, es ist mehr als nur ein Produkt-feature. Zu seinem Kredit, es wurde erfolgreich in der Pflege eine OEM-Vereinbarung mit Teradata und eine einzigartige integration mit Trifacta, wo Benutzer jedes Werkzeug kann hin und her wechseln zwischen Katalogisierung und Daten prep. Da die Trifacta Ankündigung ging live Ende letzten Jahres, beide haben aufgereiht, eine Handvoll von gemeinsamen Kunden, die setzen jetzt die verlinkte Lösung in die Produktion. Obwohl beide positioniert sind, wie self-service-tools in der Praxis -, Daten-prep wird wahrscheinlich die Domäne, die mehr technisch versierte Anwender oder Daten-Ingenieure. So ist die Frage, ob die Daten Leute prep Daten vor der business-Leute-Katalog oder Umgekehrt werden die Küken-oder-ei-Frage für die Erkundung der Daten See.