Nul
De tweede grote versie van Azure Data Factory, Microsoft ‘ s cloud-dienst voor ETL (Extract, Transform en Load), gegevens prep en data verkeer, werd uitgebracht op de general availability (GA) ongeveer twee maanden geleden. Cloud GAs zo snel en woedend deze dagen dat het gemakkelijk is om te worden sleets. Maar data-integratie is te belangrijk om te kijken, en ik wilde onderzoeken of het product nog beter.

Azure Data Factory v2 staat visuele constructie van gegevens pijpleidingen
Ongeveer dertien jaar na de eerste release van SQL Server Integration Services (SSIS) is nog altijd Microsoft ‘ s op het terrein van state of the art in de ETL. Het is oud, en er zit tranches van incrementele verbeteringen in dat voel me soms lagen verf in een huur appartement. Maar het klaart de klus en betrouwbaar dus.
In de cloud, ondertussen, Microsoft ‘ s eerste release van Azure Data Factory (ADI) was, om het liefdadig, een minimale levensvatbare product (MVP) release. Afgestemd meestal Azure data services en sterk afhankelijk zijn van een JSON-gebaseerd, handed-gecodeerde aanpak die enkel een Microsoft-Programma Manager kan houden, ADI was nauwelijks een waardige opvolger van de SSIS erfenis.
Schone lei
Maar ADI v2 is een geheel nieuw product:
Het visuele (de JSON-gecodeerde elementen zijn er nog steeds, maar dat is grotendeels verborgen voor de gebruiker)Het heeft brede connectiviteit tussen de gegevensbronnen en de bestemmingen, van zowel Microsoft en niet-Microsoft-pedigreesIt de moderne, in staat zijn om het gebruik van Hadoop (met inbegrip van MapReduce, Varken en de Bijenkorf) en Vonk om de gegevens te verwerken of gebruik van haar eigen, eenvoudige activiteit bouwen kopiëren dataIt niet knippen banden met het verleden; in feite, het dient als een cloud-gebaseerde omgeving voor het uitvoeren van pakketten ontworpen in met het lokale SSIS
De vier punten hierboven vertel het hoge niveau verhaal vrij goed, maar laat de boor naar beneden een beetje te maken van deze punten een beetje meer beton.
Connectiviteit in overvloed
Ten eerste, gegevensbronnen. Microsoft natuurlijk ondersteunt haar eigen producten en diensten. Of het nu Microsoft ‘ s op het terrein vlaggenschip SQL Server, PC doorn-in-de-kant-Toegang, of in-cloud-opties zoals Azure SQL Database, SQL datawarehouse, de Kosmos DB, Blob, bestand en tabel opslag of Gegevens Meer Opslaan (v1 of v2), ADI kunt verbinden. En terwijl een aansluiting voor Excel-bestanden is opvallend afwezig, het opslaan van een CSV-bestand van Excel kunnen de gegevens worden verwerkt in de ADF met behulp van het File System-aansluiting.
Maar er is veel meer, zoals Oracle, DB2, Sybase en Postgres in de RDBMS wereld; Teradata, Greenplum, Vertica en Netezza data warehouse platforms; MongoDB, Cassandra en Couchbase van de NoSQL-scene; HDFS, Bijenkorf, Impala ‘ s, HBase, Boren, Presto en de Vonk van de open source rijk; SAP BW en SAP HANA in de BI/analytics wereld; de Dynamiek, Salesforce, Marketo, Service en Zoho van de SaaS wereld en zelfs Amazon Roodverschuiving, Amazon S3, Amazon Marketplace Web Service en Google BigQuery op de concurrerende cloud kant.
ADI v2 verbinding met een array van opgeslagen gegevens, zowel van de Microsoft en concurrerende werelden
Voor de verwerking van de gegevens, ADI-v2 kan gebruik Azure Batch, Gegevens Lake Analytics (U-SQL), HDInsight, Databricks of Machine Learning Services. En terwijl al deze zijn Azure services, leveren ze een verscheidenheid van open source technologieën.
Gestructureerde activiteiten
De kern eenheid van werk in de ADF is een pijpleiding, gemaakt van een visuele flow van individuele activiteiten. Activiteiten zijn kleine bouwstenen, het leveren van stroom en data processing functionaliteit. Wat een bijzondere en indrukwekkende hier is de mate van logische en controle van flow mogelijkheden, alsmede de mix van conventionele technologieën (zoals SSIS packages en opgeslagen procedures) en big data-technologieën (zoals Apache Hive Banen, Python Scripts en Databricks notebooks).
Een breed scala van activiteiten worden aangeboden. Sommige van de meer interessante zaken worden hier uitgelicht
De leidingen zijn vervaardigd visueel, en zelfs het slepen van een enkele activiteit op het doek staat een groot deel van het werk te worden gedaan. In de afbeelding aan het begin van dit bericht, u kunt zien dat een enkele activiteit kan een hele Python-script moet worden uitgevoerd op Apache Vonk, eventueel het maken van de benodigde HDInsight cluster waarop het script wordt uitgevoerd.
DataOps aan boord
ADI v2 ook zorgt voor nauwkeurige controle van zowel de pijpleidingen en de individuele activiteiten die ze opvoeren, en biedt bijbehorende waarschuwingen en gegevens (die worden beheerd en weergegeven elders, in de Azure-portal).
En als zo goed als de interface v2 ten opzichte van v1 is, ADF biedt een scala van ontwikkelaar interfaces voor de service. Deze omvatten Azure Resource Manager sjablonen, een REST-API interface, een Python-optie, en ondersteuning voor zowel PowerShell scripts .NETTO-code.
Achter de schermen
Er zijn ook elementen ADI-v2 “under the covers” die zijn het vermelden waard. Bijvoorbeeld, ADI-v2 niet alleen ondersteuning van verschillende gegevensbronnen, maar beweegt gegevens tussen hen op grote schaal, wanneer het gebruik maakt van haar Azuurblauwe Integratie Runtime. (Microsoft zegt dat de ADI kunt verplaatsen 1 TB aan gegevens van Amazon S3 Azure SQL datawarehouse in minder dan 15 minuten.) Scale-out beheer van deze voorziening is behandeld voor de gebruiker door ADI zelf. Het is erin geslaagd op een per-job basis en volledig serverloze, vanuit het gezichtspunt van een gebruiker.
ADI v2 maakt ook gebruik van de aangeboren vermogens van de gegevens van winkels die deze verbinding maakt, naar beneden te duwen om ze zo veel van het zware werk mogelijk te maken. In feite, de Azuurblauwe Integratie Runtime is minder van een engine van data transformation zelf en meer van een baan orchestrator en data beweging service. Als u werkt met de individuele activiteiten, vindt u dat veel van de transformatie van het werk vindt plaats in de opgeslagen gegevens’ eigen omgevingen, gebruikmakend van de programmeertalen en-concepten die ze ondersteunen.
Quo vadis
In vergelijking met de andere gegevens, producten in de pijplijn, ADI v2 is zowel een beter ontwikkelde en minder rijk. Zijn aangeboren mogelijkheden zijn wel beperkter, maar de mogelijkheid om verbinding te maken, organiseren, delegeren en te beheren, met behulp van een combinatie van oudere en moderne omgevingen, is robuust. Het leveren van Microsoft en Azure klanten met een uitstekende data transformatie en beweging foundation voor een bepaalde tijd te komen, en de accommodatie van SSIS-pakket lift-en-verschuiving naar de cloud maakt het Enterprise-ready en relevant nu.
Verwante Onderwerpen:
Data Management
Digitale Transformatie
Robotica
Het Internet van Dingen
Innovatie
Enterprise Software
0