Zillow: maskininlärning och data störa fastigheter

0
213

0

Vem som helst köpa eller sälja ett hus vet om Zillow. I 2006, introducerade företaget den Zillow Uppskattning, eller Zestimate för kort, som använder en mängd olika datakällor och modeller för att skapa ett ungefärligt värde för bostäder.

Effekterna av Zillow är Zestimate på att fastighetsbranschen har varit stort, minst sagt.

Från hem köpare perspektiv, Zillow är Zestimate möjliggör betydande öppenhet kring priser och information som historiskt sett var endast tillgängliga för mäklare. Företaget har verkligen demokratiseras fastigheter information och lägger ett enormt värde till konsumenterna.

För mäklare, å andra sidan, Zillow är förenat med flera svårigheter. Jag frågade en topp fastighetsmäklare som arbetar i Seattle, Zillow s hemmaplan, för hans syn på företaget. Edward Krigsman säljer multimiljon-dollar bostäder i staden och förklarar några av de utmaningar:

Automatiserade metoder för värdering har funnits i årtionden, men Zillow förpackade dessa tekniker för detaljhandeln i stor skala. Det var deras core innovation. Men Zillow data ofta inte är korrekt och att få dem att åtgärda problem som är svårt.

Zillow prissättning skapar förväntningar hos konsumenterna och har blivit en tredje part som deltar i pre-sales aspekter av bostadsfastigheter. Korrekt eller inte, Zillow påverkar allmänhetens uppfattning av hem värde.

Zillow marknaden påverkar fastighetsbranschen är stor, och företagets data är ett viktigt inflytande på många hem transaktioner.

Zillow erbjuder ett skolexempel på hur data kan förändra etablerade branscher, relationer och ekonomi. Moderbolaget, Zillow-Gruppen, driver flera fastigheter marknadsplatser som tillsammans genererar cirka 1 miljard dollar i intäkter, enligt uppgift, 75 procent online fastigheter publik marknadsandel.

Som en del av CXOTALK serie samtal med störande innovatörer, jag inbjuden Zillow Chef Analytics Officer (som också är deras chefsekonom), Stan Humphries, att ta del i avsnitt 234.

Samtalet erbjuder en fascinerande inblick i hur Zillow tycker om data, modeller, och dess roll i fastigheter ekosystem.

Kolla in den inbäddade videon ovan och läs en fullständig utskrift på CXOTALK webbplats. Under tiden, här är en redigerad och förkortad segment från våra detaljerade och långa samtal.

Varför började du Zillow?

Det har alltid funnits en hel del data som flyter runt fastigheter. Dock en hel del att uppgifterna var i stort sett [dolt] och så fick det orealiserad potential. Som en data som person, du älskar att ta det utrymmet.

Resor, som en hel del av oss var innan, var en liknande utrymme, drypande av data, men folk hade inte gjort mycket med det. Det innebar att en dag inte skulle gå där skulle du inte komma med “Holy crap! Låt oss göra detta med data!”

I fastigheter, multiple listing services hade uppstått, som var bland olika aktörer och mäklare på fastigheter sida; de hem som var till salu.

Men den offentliga register systemet var helt oberoende av det, och det var två offentliga register system: ett för handling och panträtt i fast egendom, och sedan en annan för den skatt som rullar.

Alla som var olikartade uppgifter. Vi har försökt att lösa för det faktum att allt detta var offline.

Vi hade känslan att det var, från konsumenternas perspektiv, som Trollkarlen från Oz, där det var bakom gardinen. Du var inte tillåtna bakom gardinen och verkligen [tänkte], “Tja, jag skulle verkligen vilja se alla försäljning mig själv och räkna ut vad som händer.” Du vill att webbplatsen ska visa dig både grundläggande salu listor och kärnan hyra listor.

Men självklart är det människor som säljer du hem inte vill att du ska se hyror vid sidan av dem eftersom du kanske kan hyra en bostad istället för att köpa. Och vi är som “Vi bör sätta allt tillsammans, allt i linje.”

Vi hade tro på att typ av öppenhet kommer att gynna konsumenten.

Vad sägs om fastighetsmäklare?

Du fortfarande tycker att byrån representation är mycket viktigt eftersom det är en mycket dyr transaktion. För de flesta Amerikaner, den dyraste affären, och den dyraste finansiella tillgångar de någonsin kommer att äga. Så, det fortsätter att vara en rimlig beroende av en agent för att hjälpa till att hålla i konsumenternas ‘ s händer som de antingen köpa eller sälja fastigheter.

Men det som har förändrats är att konsumenterna nu har tillgång till samma information som den representation har, antingen på köp-eller säljsidan. Det har berikat dialog och utrustade agenter och mäklare som hjälper människor. Nu en konsument kommer till agent med en mycket större medvetenhet och kunskap, som en smartare konsument. De arbetar med den agent som en partner där de har en hel del data och agenten har en hel del insikt och erfarenhet. Tillsammans, vi tror att de fattar bättre beslut än de gjorde innan.

Hur har Zestimate förändrats sedan du började?

När vi rullade ut i 2006, den Zestimate var en värdering som vi placerat på varje enskilt hem som vi hade i vår databas vid denna tid, vilket var 43 miljoner hem. För att skapa denna värdering i 43 miljoner hem, det tog ungefär en gång i månaden, och vi drev ett par terabyte data genom ca 34 tusen statistiska modeller, som var, jämfört med vad som hade gjorts tidigare ett enormt beräkningsmässigt mer sofistikerad process.

Jag ska bara ge dig ett sammanhang av vad vår noggrannhet var då. Redan 2006 när vi startade, vi var cirka 14% median absoluta procent fel på 43 miljoner hem.

Sedan dess har vi gått från 43 miljoner hem till 110 miljoner bostäder; vi lägger värderingar på alla 110 miljoner hem. Och, vi har kört vår noggrannhet ner till ca 5 procent i dag som ur ett lärande perspektiv, är ganska imponerande.

De 43 miljoner bostäder som vi började med i 2006 tenderade att vara i de största storstadsregionerna där det var mycket affärsbeslut hastighet. Det var en hel del av försäljningen och priset signaler som att träna modeller. När vi gick från 43 miljoner till 110, du är nu att komma ut till platser som Idaho och Arkansas där det finns bara färre försäljning att titta på.

Det skulle ha varit imponerande om vi hade hållit vårt fel ränta på 14% och samtidigt komma ut till platser som är svårare att uppskatta. Men, inte nog med att vi mer än fördubbla vår täckning från 43 till 110 miljoner hem, men vi har nästan tredubblats vår noggrannhet priser från 14 procent ned till 5 procent.

Den dolda historien för att uppnå detta är genom att samla in oerhört mycket mer data och få en mycket mer sofistikerad algoritmiskt, vilket kräver att vi använder fler datorer.

Bara för att ge ett sammanhang, när vi startade, vi byggde 34 tusen statistiska modeller varje månad. Idag, vi uppdaterar Zestimate varenda natt och generera någonstans mellan 7 och 11 miljoner statistiska modeller varenda natt. Då, när vi är klar med den processen, kan vi kasta bort dem och upprepa nästa natt igen. Så, det är en big data-problem.

Berätta för oss om dina modeller?

Vi har aldrig gå över en länsnivå för att modellera system och ett stort län med många transaktioner, vi bryter ner det i mindre regioner inom det län där de algoritmer som försöker att hitta homogena uppsättningar av bostäder i sub-county-nivå för att träna ett modellering ram. Som modellering regelverket i sig innehåller ett stort antal modeller.

Ramen innehåller en massa olika sätt att tänka om värderingar av bostäder i kombination med statistiska klassificerare. Så kanske är det ett beslut träd, tänka på det från vad man kan kalla ett “hedoniska” eller bostäder egenskaper strategi, eller kanske är det en support vector machine tittar på tidigare försäljning priser.

Kombinationen av värderingsmetod och klassificerare tillsammans skapa en modell, och det finns ett gäng av dessa modeller som genereras på att sub-län geografi. Det finns också ett gäng modeller som blir meta-modeller, där deras jobb är att sätta ihop dessa sub-modeller till en slutlig uppfattning, vilket är den Zestimate.

Hur gör du för att se ditt resultat är opartisk i den utsträckning som möjligt?

Vi tror att reklam dollar följa konsumenterna. Vi vill hjälpa konsumenterna det bästa vi kan.

Vi har byggt upp, i det ekonomiska språket, en två-sidig marknadsplats där har vi konsumenter som vill ha tillgång till lager och komma i kontakt med yrkesverksamma. På andra sidan av den marknad vi har proffs-det kan vara mäklare eller agenter, inteckning långivare, eller hem jordförbättringsmedel — som vill hjälpa konsumenter att göra saker. Vi försöker tillhandahålla en marknadsplats där konsumenter kan hitta inventering och proffs för att hjälpa dem att få saker gjort.

Så, från perspektiv av en market-maker jämfört med en marknad-deltagare, du vill vara helt neutral och opartisk. Allt du försöker göra är att få en konsument rätt professionell och vice versa, och det är mycket viktigt för oss.

Det innebär att när det kommer till machine learning program, till exempel de värderingar som vi gör, vår avsikt är att komma upp med den bästa uppskattningen av vad ett hem är på väg att sälja för. Igen, ur ett ekonomiskt perspektiv, det är annorlunda från det begärda priset av priset i erbjudandet. I en råvaror sammanhang, som du kallar det en bid-ask spread mellan vad någon kommer att be om ett bud.

I real-estate sammanhang kallar vi att erbjuda pris och begärt pris. Och så, vad någon kommer att erbjuda att sälja dig sitt hus för är olika från en köpare som säger, “Hej, skulle du ta detta för det?” Det finns alltid ett glapp mellan det.

Vad vi försöker göra med Zestimate är att meddela vissa beslut om prissättning så köp-och säljkurs är mindre, [hindra att] köpare från att få nytta av när hemmet var värt mycket mindre. Och [för att förhindra} säljare från att sälja ett hus till ett mycket mindre än de kunde ha fått eftersom de vet bara inte.

Vi tror att ha en bra, kompetent representation av båda sidor är ett sätt att minska, vilket vi tycker är fantastiskt. Att ha mer information om priser beslut för att hjälpa dig att förstå att erbjuda-be-tal, vad de erbjuder be-spridningen ser ut, är mycket viktigt.

Hur exakt är Zestimate?

Våra modeller är utbildade så att hälften av Jorden kommer att vara positiva och hälften kommer att vara negativ, vilket innebär att på en viss dag, hälften av [all] hem kommer att handla över Zestimate värde och hälften kommer att handla nedan. Sedan lanseringen den Zestimate, vi har velat att detta ska vara en utgångspunkt för ett samtal om hem värden. Det är inte en slutpunkt.

Det är tänkt att vara en utgångspunkt för ett samtal om värdet. Det samtalet, i slutändan, måste involvera andra sätt av värde, har fastighetsmäklare som en agent eller mäklare, eller en värderingsman, människor som har expert inblick i den lokala områden och har sett insidan av ett hem och kan jämföra den med andra jämförbara bostäder.

Jag tror att det är en inflytelserik data peka och förhoppningsvis är det bra för människor. Ett annat sätt att tänka på som stat jag bara gav dig är att på en viss dag, hälften av säljarna att sälja sina hem för mindre än Zestimate, och hälften av köparna köpa ett hem för mer än Zestimate. Så, klart, de tittar på något annat än Zestimate, men förhoppningsvis har det varit till hjälp för dem vid någon punkt i processen.

Hur har dina tekniker för att bli mer sofistikerade över tid?

Jag har varit engagerad i machine learning för ett tag. Jag började i den akademiska världen som forskare vid ett universitet inställning. Sedan på Expedia, jag var mycket starkt engagerad i machine learning, och sedan här.

Jag skulle säga att den största förändringen har verkligen varit i tech stack under denna period, men, jag borde inte minimera förändringen i den faktiska algoritmer sig över dessa år. Algoritmiskt du se utvecklingen från på Expedia, personalisering, vi arbetade mer på relativt sofistikerad, men mer och parametriska statistiska modeller för att göra rekommendationer, saker som ovillkorlig sannolikhet,och punkt-till-punkt korrelationer. Nu, de flesta av dina recommender systems använda saker som kollaborativ filtrering för algoritmer som är optimerade för hög volym data och strömmande data.

I en automatisk sammanhang, vi har flyttat från saker som beslut träd och support vector machines nu en skog av träd, alla de enklare träd med mycket större siffror av dem… Och då mer exotiska beslut träd som har i sina löv-noder mer riktning komponenter som är till stor hjälp i vissa sammanhang.

Som en data scientist nu kan du börja arbeta på ett problem på AWS, i molnet. Sedan har ett sortiment av modeller för att snabbt distribuera mycket enklare än om du skulle tillbaka tjugo år sedan när du var tvungen att koden för en massa saker, börjar i MATLAB och importera den till C, och du gjorde det för hand.

CXOTALK ger dig världens mest innovativa företagsledare, författare och analytiker för en fördjupad diskussion inte tillgänglig någon annanstans.

0