Microsoft syftar till att ta arbete utanför uppgifter gräl med kommande “Pendleton’ verktyg

0
136

Noll

Med sin växande betoning på alla saker AI — i kombination med dess historia som ett verktyg för säljaren-det är inte förvånande att Microsoft arbetar på verktyg inte bara för traditionella programmerare, men också uppgifter som forskare.

pendletondatawrangling.jpg
Kredit: Det Går Katt

Enligt en Microsoft Research och presentation från tidigare i år, data forskare spenderar för närvarande 80 procent av sin tid med att utvinna och rengöring data — AKA “data gräl.” Microsoft vill att fixa detta.

Ange “Projekt Pendleton.”

Ett år sedan jag först hörde från en kontakt till mig om en ny maskin-lärande-relaterade verktyg under utveckling av Microsoft som var kodnamnet “Pendleton.” Men det var inte förrän Promenader Katt (@h0x0d på Twitter) grävt fram lite mer information och dokument som jag hade tillräckligt med information för att skriva om Pendleton.

Från en “Komma Igång” – dokument på Pendleton från Katten, här är Microsoft ‘ s förklaring av vad Pendleton är:

“Pendleton erbjuder en uppsättning av flexibla och skalbara verktyg för att hjälpa dig att utforska, upptäcka, förstå annons åtgärda problem i dina data. Det gör att du kan konsumera data i många former och för att omvandla data i nya former som bättre lämpar sig för din användning.”

Pendleton är en klient app som fungerar på Windows, OS X/macOS. Dess utformning använder runtime Python och beror på olika Python bibliotek.

Som en av mina kontakter som beskrivs här, Pendleton är ett verktyg som syftar till att data forskare som är avsedd för data förberedelser och städning. Verktyget kan göra saker som att ta bort vandrande kolumner, ändra formatering i kolumner, handtag saknas data och liknande. Den innehåller också analytics verktyg för att hjälpa data forskare räkna ut vad som ingår i ett dataset. Pendleton kan läsa data från SQL Server, Azure Blob och Data Sjöar. Det kan också läsa filer från lokal PC-filer, min kontakt sa.

Microsoft har testat privat Pendleton i nästan ett år, kanske längre. Jag har inte hört hur företaget planerar att släppa verktyget, men det verkar som att det är fortfarande planen.

Jag tänker att Microsoft Research PROSA (Program Syntes med Hjälp av Exempel) forskargrupp som “utvecklar program syntes teknik för data gräl och införlivar dem i verkliga produkter” förmodligen bakom Pendleton, åtminstone i viss utsträckning.

Samtidigt talar av data vetenskap och stora datamängder, Microsoft och Facebook meddelade idag att en ny standard som de utvecklat tillsammans för att representera djupt lärande modeller som gör att dessa modeller ska överföras mellan ramar.

Som ny standard, Öppen Neurala Nätverk för Utbyte (ONNX), gör det möjligt för utvecklare att växla mellan AI ramar som Microsofts Kognitiva Toolkit, Facebook är Caffe2, PyTorch och mer. Den första versionen av ONNX kod och dokumentation finns nu tillgängliga som öppen källkod på GitHub.

0