Artificiell intelligens på Hadoop: är det vettigt?

0
261
distributed-deep-learning-mapr.jpg

Hadoop är att bli ett substrat för artificiell intelligens

Getty Images/iStockphoto-MapR

Denna vecka MapR presenterade en ny lösning som heter Quick Start-Lösning (QSS), med fokus på djupt lärande program. MapR svartabörshajar QSS som en distribuerad djupt lärande (DL) produkt-och serviceutbud som gör att utbildningen av komplexa djupt lärande algoritmer i stor skala.

Här är tanken: djupt lärande kräver massor av data, och det är komplext. Om MapR är Konvergerade Data Plattform är din data backbone, då QSS ger dig vad du behöver för att använda dina data för DL-program. Det är vettigt, och det är i linje med MapR strategi.

MapR är den första Hadoop säljaren med ett erbjudande som marknadsförs som vad vi skulle kalla artificiell intelligens (AI) på Hadoop. Men gör AI på Hadoop vettigt mer allmänt? Och vad är andra Hadoop leverantörer gör det?

MapR inte djupt lärande

Kom ihåg när Hadoop först kom ut? Det var en plattform med många fördelar, men som krävs för dess användare att gå den extra milen för att kunna använda det. Det har förändrats. Nu Hadoop är ett växande ekosystem, och en stor del av dess framgång beror på vad vi kallar SQL-på-Hadoop.

Hadoop har alltid varit att kunna lagra och bearbeta stora mängder data för låga. Men det var inte förrän stöd för att få tillgång till data via SQL blev tillräckligt bra för att Hadoop blev en allvarlig utmanare som företaget data backbone. SQL var, och fortfarande är, de facto-standarden för åtkomst av data. Så att stödja det innebar att Hadoop kan användas av mestadels alla.

AI och SQL är olika. Det är inte en bakåtkompatibilitet, råvaru-funktionen. AI är en framåtblickande, trend-fältet. Men även om det i dag AI är en konkurrensfördel för dem som har det, det ser ut som det snart kommer att bli något av en råvara: de som inte har kommer inte att kunna konkurrera.

AI och SQL är också liknande: Om du är en Hadoop säljaren, detta är verkligen inte vad du gör. Detta är något som andra gör-du behöver bara se till att den kan köras på din plattform där alla uppgifter finns. Detta är vad MapR är ute efter att uppnå med QSS också.

MapR utnyttjar öppen källkod container teknik (tror Docker), och orkestrering teknik (tror Kubernetes) för att distribuera djupt verktyg för lärande (tror TensorFlow) i ett distribuerat sätt. Ingen av denna teknik har att göra med MapR, men värdet QSS ger är att se till att allt fungerar smidigt tillsammans.

reference-architecture.png

Distribuerade djupt lärande MapR är QSS föreslår har tre lager. Det nedersta lagret är de uppgifter som lager, mitt lager är orkestrering lager, och det översta lagret är applikationslagret.

Bild: MapR

Ted Dunning, MapR chief ansökan arkitekt, förklarar: “Det bästa tillvägagångssättet för att uppnå AI/Djupt lärande är att utveckla en skalbar konvergerade data plattform som har stöd för den senaste djupt lärande teknik med en underliggande data företag tyg med praktiskt taget obegränsad omfattning.”

Han konstaterar också att “nästan alla machine learning programvara som utvecklats oberoende av Hadoop och Gnista. Detta kräver en plattform som MapR som kan stödja både Hadoop/Gnista arbetsbelastning samt traditionella arkiv-systemet Api: er.”

Och sedan som fungerar, varför inte du också använda MapR-DB och MapR Strömmar och MapR-FS att mata dina data och MapR Ihållande Klient Behållare (PACC) för att distribuera din modell? Åh, och vi har fått tjänster för dig också-vi hjälper dig. Det är MapR budskap med QSS.

Anil Gadre, MapR chief product officer, säger: “i och DL kan ge djupa transformerande möjligheter för en organisation. Vår expertis…tillsammans med [vår] unik design…utgör grunden för [QSS]. QSS kommer att göra det möjligt för företag att snabbt dra fördel av moderna GPU-baserade arkitekturer och ställ dem på en rätt väg för skalning DL deras ansträngningar.”

AI på Hadoop

Så, är AI på Hadoop en sak? Till skillnad från SQL, det finns ingen standard för AI. Det finns inga allmänt accepterade och förstod definition ännu. DL är endast en del av maskininlärning (ML), som endast är en del av AI. Och även inom DL, medan det kan finnas vissa gemensamma begrepp, det finns inget sådant som ett gemensamt API. Så QSS är DL på Hadoop, men inte riktigt AI på Hadoop.

deeplearningiconsr5png-jpg.png

Det finns mer att AI än lärande, och det finns mer att maskinen lärande än djupt lärande.

Bild: Nvidia

Tanken med att använda en data och beräkna plattform som Hadoop som underlag för AI är en naturlig. Men att kunna köra ML eller DL på Hadoop egentligen inte göra en Hadoop säljaren en AI som leverantör också. Detta är en diskussion som vi har haft med många Hadoop säljaren befattningshavare under de senaste månaderna.

För Cloudera VD Tom Reilly, “ML är mycket verklig och mycket aktiv, det är här och nu och det är att göra bra saker i praktiken. Våra kunder är att försöka förstå AI och vad som ligger i deras resa mot framtiden. Vi hjälper dem med ML, vår plattform stödjer redan ML och kommer att fortsätta att lägga till stöd för det. Vi tänker på vår plattform som den mängd data som människor kommer att använda för AI”.

Cloudera har kritiserats för att försöka posera som en AI företaget i sin senaste IPO-ansökan. Det bästa av vår kunskap, Cloudera inte har omfattande intern kompetens på AI. Det är en data science team, som består av en handfull människor, och det är också det senaste förvärvet av känsla.io.

Känsla.io har integrerats i Cloudera stacken och lägger till märkord som Cloudera Data Vetenskap Workbench (CDSW). I en senare diskussion med Sean Owen, Cloudera Data Science Director, Owen jämfört känsla.io till IBM: s DataWorks.

“Genom att ge tillgång till data, CDSW minskar tid till värde av AI-program levereras med vår automatiserade ML plattform”, konstaterar Jeremy Achin, DataRobot VD. Detta är bra, men det är inte riktigt AI, är det?

För Scott Gnau, Hortonworks CTO, AI består av två viktiga komponenter: massor av data plus förpackningar och algoritmer för att korsa data. Hortonworks har stöd för båda, och som AI vinner, Hortonworks vinner. Gnau, men betonar vad han ser som Hortonworks’ styrkor, nämligen företagets styrning och säkerhet.

Gnau anser vi ändå att se ny teknik inom AI som vi ännu inte har drömt om. Så Hortonworks’ strategi är att investera i infrastruktur och för att vara den mest betrodda leverantör av data, medan du håller ett öga på framväxande killer-teknik och applikationer som man kan plugga i ett program perspektiv.

Säljarens strategi måste ses i det sammanhang där de är nu och hur de ser på sig själva utvecklas. AI är ett nytt slagfält som leverantörer strategi som är i linje med deras filosofi och mål. Vi kommer att fortsätta med en analys av hur dessa manifesteras i AI i ett senare inlägg.