CatBoost Machine Learning framework från Yandex ökar utbudet av AI

0
159

0

v-3-mi-landscape-3-81-1400px-3b7a8a307b1c6a3d2c20c22613e4438f.jpg

AI landskapet förändras från dag till dag. (Bild: Shivon Zilis och James Cham, designad av Heidi Skinner. En större version finns på Shivon Zilis ” hemsida.)

Det är svårt att undvika AI buzz ut det. Bortom hype, det finns ingen förneka att framsteg görs i språng och framsteg. Vi är i mitten av 2017, och redan bilden av maskinen intelligens som målade för 2016 har sett anmärkningsvärda nya poster.

Att bara hålla i den teknik som stack vi har sett införandet av Caffe2 från Facebook, Core ML precis ut från Apple, som har gått in i spelet, och låt oss inte glömma den mycket ambitiösa NeoPulse.

En sak alla dessa har gemensamt: Djupt lärande. Caffe2 och NeoPulse är uteslutande DL ramar, och DL är också en central Kärna ML. Samtidigt som DL är naturligtvis värdefullt, det är mer att ML. Och det är också fler spelare i spelet än de vanliga misstänkta.

Träffa CatBoost, en ny ML-biblioteket baserat på lutning öka (GB) och syftar till att finna sin egen sweet spot i AI landskapet.

CatBoost, dina vänliga kvarter katt

Utsläpp av CatBoost som öppen källkod meddelades officiellt i dag, men CatBoost kom inte från ingenstans. Det har utvecklats av Ryssland-och NASDAQ-handlas Yandex. Yandex, känd för många som “ryska Google,” svartabörshajar sig som en teknik för företag som bygger intelligenta produkter och tjänster som drivs av ML.

“ML befogenheter mer än 70 procent av Yandex produkter och tjänster”, säger Misha Bilenko, chef för Maskinens Intelligens och Forskning (MIR) på Yandex. Även om dess MatrixNet och DaNet bibliotek är inte lika känd som de andra i detta område, de har funnits ett tag och används kraftigt av lik av CERN och Gazprom.

“CatBoost är nästa generation av MatrixNet Yandex och kommer att genomföra CatBoost nästan överallt MatrixNet är redan på plats, säger Bilenko.

Bra. Men vad är CatBoost och varför ska du bry dig?

Yandex beskriver CatBoost en “state-of-the-art open-source lutning öka bibliotek”, och beskriver att samtidigt som DL är verkligen nyttigt och något har haft bra erfarenheter med, det finns mer till livet och AI än DL, såsom GB.

Yandex gäller GB till den typ av problem som företag stöter på varje dag — som att upptäcka bedrägerier, förutsäga kundens engagemang, och rankning rekommenderade artiklar. Yandex hävdar den främsta fördelen med GB över DL är förmågan att leverera mycket exakta resultat även när det finns relativt lite data.

Detta, säger Yandex, som gör den idealisk för prediktiva modeller för att analysera många olika former av data, och särskilt beskrivande data format med kategoriska egenskaper (funktioner med diskret snarare än kontinuerliga värden). Yandex förespråkar CatBoost som en modell för att styra dem alla, att integrera information från många olika ML tekniker.

Yandex såg till att strukturen av CatBoost kan stödja deras berättelse, som kan matas med modeller från DL ramar som TensorFlow eller Keras. Vad är mer, kan det i sin tur foder till Kärnan ML, vilket innebär CatBoost-drivna apps till en bred samling av enheter runt om i världen.

CatBoost har bäst-i-klassen noggrannhet bland GB algoritmer, Yandex och säger att det förbättrar möjligheten att skapa prediktiva modeller med hjälp av olika datakällor såsom sensorisk, historiska, och transaktionella data.

Yandex samtal CatBoost de mest kraftfulla “ultimate” – modell. Även om sådana anspråk måste bevisas i praktiken, man kan inte låta bli att notera att Yandex verkar vara att sätta sina pengar där det behövs. Till att börja med, Yandex fokuserar sin egen framtida utveckling runt CatBoost.

Yandex står starkt bakom CatBoost

cat.png

CatBoost kan vara lekfullt heter och läckert som marknadsförs, men gör inga misstag om det allvar med vilket Yandex närmar sig denna. (Bild: Yandex)

Yandex kommer att genomföra CatBoost nästan överallt MatrixNet är redan på plats, säger Bilenko. Som står för något, som MatrixNet har varit nyckeln till Yandex. Så långt som det andra är berörda, Yandex är att försöka göra CatBoost tilltalande genom att tillhandahålla alternativ för det.

Förutom TensorFlow och Core ML integration, CatBoost kan användas i Python och R eller via ett kommandoradsverktyg, har visualisering krokar och automatisk funktion vikten beräkning, och det finns alternativ som för parameter tuning och har överlägsenhet i riktmärken.

Visserligen, Yandex gör några övertygande argument. Det finns bara ett par saker som du är förmodligen undrar om.

En, som är Yandex igen och vad som gör dem sådana experter i ML? Och två, om CatBoost är så bra, varför inte hålla det för sig själva? Tja, de två kan vara släkt.

Vi har redan nämnt hur Yandex är i folkmun känd som ryska Google. Även om det säkert är någon grund till detta, Yandex människor, och framför allt dess VD, ber att skilja sig. Först av allt, säger de, Yandex grundades 1997, “ett år innan Google, så att vi inte följer dem.”

Google började som en sökmotor likt Google, men då diversifierad till andra domäner. Ja, ungefär som Google, men också som Amazon och Uber. Yandex, som förutom att äga en 54-procentig andel av marknaden i Ryssland, har utökats till att erbjuda tjänster som Shopping (Yandex.Marknaden används av 19 miljoner människor i månaden) och taxiresor (Yandex.Taxi äger 60 procent av denna marknad i Moskva).

En del av det kan ha att göra med ryska protektionism, men förmodligen inte alla av det. Yandex har byggt på ett antal fördelar på den lokala marknaden och expanderar till andra marknader också. Att hyra ex-Microsoft-Bilenko, i tillägg till andra hög-profil anställer och intern omorganisation, verkar vara en del av planen för att ta över världen.

När vi frågade vilka hinder finns det för att tas upp i detta arbete, Bilenko svarade med att nämna att “Yandex har åtagit sig att upprätthålla en hög kvalitet på produkter och tjänster för användare i våra marknader, men som ett globalt it-företag, vi tycker att det är ovärderligt att bidra mer generellt till större tech-samhället.

“Med tanke på den grundläggande betydelsen och utbredd användning av GB, vi ville bidra till en grundläggande behovet och skapa något som är enkelt för data forskare att integrera med andra lärande sammanhang. Erbjuda samhället en bra out-of-the-box verktyg är något vi räknar med kommer att i stor utsträckning och mycket välgörande.”

Machine Learning tungvikt

Bilenko nämns Yandex Clickhouse som ett exempel på verktyg-Yandex göras tillgängliga för öppen källkod. Bilenko säger att han hoppas att få se CatBoost inverkan tech-samhället på ett positivt sätt, oavsett om det är för detaljhandeln eller försäkring eller någon annan kommersiell användning, och han betonar den uppsjö av talang utvecklare i Ryssland.

Yandex använder ML i ett antal konsument-inför-program, till exempel översättning, bildigenkänning, söka på internet, reklam, väderprognoser, taligenkänning, och anti-bedrägeri. Vad är mer, Bilenko säger Yandex kommer att tillämpa ML med Yandex.Cloud team. Så räkna med att se mer ML i molnet från Yandex snart, i takt med tiden.

En annan intressant och föga kända faktum är dock att Yandex har också ett företags sida — och data är den drivande kraften bakom det. CatBoost är också tänkt att lyckas MatrixNet i områden som industriell process optimering eller förbättra effektiviteten i partikelfysik forskningen.

catboostfeatures.png

CatBoost har företag färdiga funktioner, och det är ingen överraskning med tanke på dess ursprung och applikationer. (Bild: Yandex)

Yandex Data Factory (YDF) är en division av Yandex som ger AI-baserade lösningar för att öka produktiviteten, minska kostnaderna och förbättra energieffektiviteten. Det fungerar med lik av Gazprom, CERN och Intel, och det var det som MatrixNet, som ursprungligen utvecklades av Yandex 2009, var härdade.

Även om Bilenko säger hans MIR division normalt inte är relaterade till YDF, CatBoost användes för att skapa en prognosmodell för en YDF kund, en stor stålverkens företag.

Denna kvalitet prognosmodell var utbildad på tidigare uppgifter om produktionen av stål plattor för att förutsäga den sannolika mängden massa fel i varje enskild platta är baserad på tillgängligt avstånd. Resultatet blev minskade de totala produktionskostnaderna och defekt priser.

Processindustrin i Yandex hem domstol marknader är tjockt, och kombinationen av tillgång till denna industri, kunnande och talang kan ge Yandex potential att öka sitt fäste för att ta på andra marknader också.

Så, bör du överväga att CatBoost? Förmodligen ja. Där gör att det passar i Yandex strategi? Ser ut som en nyckel flytta för att få exponering, om inrättande av kompetens och attrahera talang och kunder samtidigt påskynda sin utveckling. Ser också ut som en intressant twist i handlingen i den pågående AI saga, låt oss se hur tärningarna kommer att rulla.

Who really owns your Internet of Things data?

Vem som egentligen äger din Internet of Things data?

I en värld där fler och fler objekt kommer online och leverantörer får delta i leveranskedjan, hur kan du hålla koll på vad som är ditt och vad är inte?

0