Zillow: Machine learning and data forstyrre fast ejendom

0
166

0

Enhver, der køber eller sælger et hus ved, om Zillow. I 2006, har virksomheden indført Zillow Skøn, eller Zestimate for kort, som bruger en række forskellige kilder til data og modeller til at skabe en tilnærmet værdi for boligejendomme.

Virkningen af Zillow er Zestimate på fast ejendom industrien har været stor, for at sige det mildt.

Fra hjem køber perspektiv, Zillow er Zestimate giver betydelig gennemsigtighed omkring priser og oplysninger, der tidligere kun var til rådighed for mæglere. Selskabet har virkelig demokratiseret real ejendom information og tilføjer enorm værdi for forbrugerne.

For fast ejendom mæglere, på den anden side, Zillow er behæftet med flere vanskeligheder. Jeg spurgte en top, fast ejendom, mægler, der arbejder i Seattle, Zillow ‘ s hjemmebane, for hans opfattelse af virksomheden. Edward Krigsman sælger multimillion-dollar hjem i byen, og forklarer nogle af de udfordringer, der er:

Automatiserede metoder til værdiansættelse har eksisteret i årtier, men Zillow pakket dem teknikker til detailhandel på en stor skala. Det var deres kernekompetencer innovation. Men, Zillow data ofte ikke er nøjagtige, og at få dem til at løse problemer, der er svært.

Zillow skaber prisforventninger blandt forbrugerne, og er blevet en tredje part involveret i pre-sales aspekter af fast ejendom. Korrekte eller ej, Zillow påvirker den offentlige opfattelse af indre værdi.

Zillow marked indvirkning på fast ejendom industrien er stort, og virksomhedens data er en vigtig indflydelse på mange hjem transaktioner.

Zillow tilbyder et skoleeksempel på, hvordan data kan ændre etablerede industrier, relationer og økonomi. Moderselskabet, Zillow Gruppe, løber flere ejendomsmæglere markedspladser, der sammen skabe om $1 milliard i omsætning med, efter sigende, 75 procent online real estate publikum markedsandel.

Som en del af CXOTALK serie af samtaler med forstyrrende innovatorer, jeg inviteret Zillow ‘ s Chief Analytics Officer (der er også deres Cheføkonom), Stan Humphries, til at tage del i episode 234.

Samtalen byder på en fascinerende kig på hvordan Zillow mener om data, modeller, og dens rolle i fast ejendom økosystem.

Check out video indlejret ovenfor og læse en komplet afskrift på CXOTALK site. I mellemtiden, her er en redigeret og forkortet segment fra vores detaljerede og lange samtale.

Hvorfor har du starter Zillow?

Der har altid været en masse af data flyder rundt fast ejendom. Selv om en masse af, at data var stort set [skjult] og så havde det urealiserede potentiale. Som en data person, du elsker, for at finde den plads.

Rejser, som en masse af os var i, før, blev et tilsvarende rum, dryp med data, men folk havde ikke gjort meget med det. Det betød, at en dag ville ikke gå af, hvor ville du ikke komme med “Holy crap! Lad os gøre dette med data!!!”

I fast ejendom, multiple listing service var opstået, som var blandt de forskellige agenter og mæglere på fast ejendom side; de boliger, der var til salg.

Men den offentlige registrere system var fuldstændig uafhængig af det, og der var to offentlige registre-systemer: et til handling, og hæftelser på fast ejendom, og derefter en anden, for den skat, der ruller.

Alle, der var forskellige oplysninger. Vi forsøgte at løse for det faktum, at alt dette var offline.

Vi havde følelsen af, at det var, set fra forbrugernes perspektiv, som the Wizard of Oz, hvor det var bag dette gardin. Du var ikke tilladt bag forhænget og virkelig [tænkt], “Godt, jeg vil virkelig gerne se alle de salg, mig selv og finde ud af, hvad der foregår.” Du gerne vil have hjemmesiden til at vise dig både den centrale salg programoversigter, og kernen leje lister.

Men selvfølgelig, de mennesker, der sælger dig hjem, ikke ønsker du at se rentals sammen med dem, fordi du måske kan leje en bolig i stedet for at købe. Og vi tænker, “Vi skal sætte det hele sammen, alt i overensstemmelse.”

Vi havde tro på, at type gennemsigtighed kommer til at gavne forbrugerne.

Hvad om ejendomsmæglere?

Du kan stadig finde, at agenturet repræsentation er meget vigtigt, fordi det er et meget dyrt transaktion. For de fleste Amerikanere, den dyreste transaktion, og den dyreste finansielle aktiv, de nogensinde vil eje. Så, der fortsætter med at være en rimelig stor afhængighed af en agent til at hjælpe med at holde forbrugerens hænder, som de enten kan købe eller sælge fast ejendom.

Men hvad der har ændret sig er, at forbrugerne har adgang til de samme oplysninger, som den repræsentation, enten købe eller sælge side. Der har beriget dialogen og fremmede agenter og mæglere, der er at hjælpe mennesker. Nu en forbruger kommer til agent med en masse mere bevidsthed og viden, som en klogere forbruger. De arbejder med agenten som en partner, hvor de har fået en masse data, og agenten har en masse indsigt og erfaring. Sammen, vi tror, de gør bedre beslutninger, end de gjorde før.

Hvordan har Zestimate ændret sig, siden du startede?

Når vi først rullet ud i 2006, Zestimate var en værdiansættelse, som vi placerede på hver eneste hjem, vi havde i vores database, der på det tidspunkt, som var 43 millioner hjem. For at skabe denne værdiansættelse i 43 millioner hjem, det løb en gang om måneden, og vi skubbede et par terabyte data gennem 34 tusind statistiske modeller, som var, i forhold til, hvad der var sket tidligere et meget mere beregningsmæssigt avanceret proces.

Jeg vil bare give dig en kontekst, hvad vores nøjagtighed var dengang. Tilbage i 2006, da vi startede, var vi på omkring 14% median absolut procent, fejl på 43 millioner hjem.

Siden da, har vi gået fra 43 millioner hjem til 110 millioner hjem; vi lægger vurderinger om alle de 110 millioner hjem. Og, vi har kørt vores nøjagtighed ned til omkring 5 procent i dag, og som, fra en maskine læringsperspektiv, er ganske imponerende.

De 43 millioner hjem, som vi startede med i 2006 havde en tendens til at være i de største byområder, hvor der var meget transaktionsbeslutning hastighed. Der var en masse af salgs-og prissignaler, som er med til at uddanne modeller. Da vi gik fra 43 millioner til 110, er du nu at komme ud til steder som Idaho og Arkansas, hvor der er bare færre salg for at se på.

Det ville have været imponerende, hvis vi havde holdt vores fejlprocent på 14%, mens at komme ud til steder, der er sværere at vurdere. Men ikke alene har vi mere end fordoblet vores dækning fra 43 til 110 millioner hjem, men vi blev næsten tredoblet vores præcision fra 14 procent ned til 5 procent.

Den skjulte historie om at opnå det på er ved at indsamle enormt flere data og få en masse mere avancerede algoritmer, som kræver, at vi bruger flere computere.

Bare for at give en sammenhæng, når vi lanceret, har vi bygget 34 tusind statistiske modeller hver måned. I dag, vi opdatere Zestimate hver eneste aften og generere et sted mellem 7 og 11 millioner statistiske modeller hver eneste nat. Derefter, når vi er færdig med denne proces, vi smider dem væk og gentag den næste nat igen. Så det er en stor data problem.

Fortæl os om dine modeller?

Vi går aldrig over et amt niveau for modellering og store amter, med mange transaktioner, kan vi bryde det ned i mindre regioner i det amt, hvor de algoritmer, der forsøger at finde homogent sæt af boliger i sub-county-niveau at træne en modellering ramme. At modellering ramme i sig selv indeholder en lang række modeller.

Den ramme, der indeholder en masse forskellige måder at tænke om værdier af boliger kombineret med statistiske kriterier for klassificering. Så måske er det et beslutningstræ, at tænke om det hvad man kan kalde en “livsnyder” eller boliger egenskaber tilgang, eller måske er det en support vektor maskine kigger på forudgående salg priser.

Kombinationen af værdiansættelsen tilgang og klassificeringen sammen skabe en model, og der er en masse af disse modeller, der er genereret på, at sub-county geografi. Der er også en masse modeller, der bliver meta-modeller, hvor deres opgave er at sammensætte disse sub-modeller til den endelige konsensus udtalelse, som er den Zestimate.

Hvordan kan du sikre, at dine resultater er uvildig i den udstrækning, det er muligt?

Vi mener, at annoncering dollars følger forbrugerne. Vi ønsker at hjælpe forbrugerne med at det bedste, vi kan.

Vi har bygget op, i økonomisk sprog, en to-sidet markedsplads, hvor vi har fået forbrugere, der kommer i der ønsker at få adgang til lager og komme i kontakt med fagfolk. På den anden side af, at markedsplads, vi har fået professionelle — det virkelige ejendom mæglere, agenter, realkredit långivere, hjem eller jordforbedringsmidler — der ønsker at hjælpe de forbrugere, der gør tingene på. Vi forsøger at skabe en markedsplads, hvor forbrugerne kan finde beholdning og fagfolk til at hjælpe dem med at få tingene gjort.

Så, ud fra en market-maker i forhold til et marked-deltager, du ønsker at være fuldstændig neutral og objektiv. Alt hvad du forsøger at gøre, er at få en forbruger, som er de rigtige faglige og vice-versa, og det er meget vigtigt for os.

Det betyder, at når det kommer til machine learning-programmer, for eksempel, de værdiansættelser, som vi gør, vores hensigt er at komme op med den bedste skøn over, hvad et hjem er, kommer til at sælge for. Igen, ud fra et økonomisk perspektiv, er det forskellig fra den asking prisen af udbudskursen. I et råvarer sammenhæng, kalder du det et bid-ask spændet mellem, hvad en person kommer til at spørge efter i en bid.

I real-estate sammenhæng, vi kalder den udbudspris og salgspris. Og så, hvad nogen vil tilbyde at sælge dig hans eller hendes hus er forskellig fra en køber, der siger, “Hey, skulle du tage dette for det?” Der er altid en kløft mellem denne.

Hvad vi prøver at gøre med Zestimate er at oplyse nogle beslutninger om prisfastsættelse, så bid-ask spread er mindre, [for at forhindre] købere fra at få taget fordel af, når hjemmet var værd en masse mindre. Og, [for at forhindre} sælgere i at sælge et hus for en masse mindre, end de kunne have fået, fordi de bare ikke ved.

Vi tror, at det at have gode, kompetente repræsentation af begge parter, er en måde at dæmpe det, som vi synes er fantastisk. Der er flere oplysninger om priser beslutning om at hjælpe dig med at forstå, at tilbud-spørg ratio, hvad tilbuddet ask-spread ser ud, er meget vigtigt.

Hvor nøjagtig er den Zestimate?

Vores modeller er uddannet således, at halvdelen af Jorden vil være positive, og halvdelen vil være negativ, hvilket betyder, at der på en given dag, og halvdelen af [alle] hjem kommer til at handle over Zestimate værdi og halvdelen, der kommer til at handle nedenfor. Siden lanceringen Zestimate, vi ønskede, at dette skulle være et udgangspunkt for en samtale om indre værdier. Det er ikke et slutpunkt.

Det er ment til at være et udgangspunkt for en samtale om værdi. Den pågældende samtale, og i sidste ende, er behov for at inddrage andre midler af værdi, omfatter fast ejendom fagfolk, som en agent eller mægler, eller en taksator; mennesker, som har sagkyndig indsigt i lokale områder, og har set indersiden af et hjem og kan sammenligne det med andre sammenlignelige boliger.

Jeg tror, det er en indflydelsesrig data punkt, og forhåbentlig, er det nyttigt at mennesker. En anden måde at tænke på, at stat bare jeg gav dig er, at på en given dag, og halvdelen af de sælgere, der sælger deres boliger til mindre end Zestimate, og halvdelen af de købere, der køber et hjem for mere end Zestimate. Så det er klart, at de kigger på noget andet end Zestimate, selv om forhåbentlig, det har været nyttigt til dem på et tidspunkt i denne proces.

Hvordan har dine teknikker blevet mere sofistikerede over tid?

Jeg har været involveret i machine learning i et stykke tid. Jeg startede i den akademiske verden, som en forsker på et universitet indstilling. Så på Expedia, jeg var meget stærkt involveret i machine learning, og så her.

Jeg skulle til at sige den største ændring har virkelig været i tech stak i løbet af denne periode, men, jeg skal ikke minimere ændringen i den faktiske algoritmer sig selv i løbet af disse år. En algoritme, vil du se udviklingen fra på Expedia, personalisering, vi arbejdede mere på relativt avancerede, men mere statistisk og parametriske modeller for at gøre anbefalinger; ting som ubetinget sandsynlighed,og punkt-til-item korrelationer. Nu er de fleste af dine recommender systems bruge ting som kollaborativ filtrering for algoritmer, der er optimeret til høj-volumen data og streaming af data.

I en intelligent sammenhæng, vi har flyttet fra ting som beslutningstræer og support vektor maskiner nu en skov af træer; alle dem enklere træer med meget større antal af dem… Og så, mere eksotiske beslutning træer, som i deres blad knuder mere retning komponenter, som er meget nyttige i nogle sammenhænge.

Som videnskabsmand nu, kan du begynde at arbejde på et problem på AWS, i skyen. Så har et udvalg af modeller til hurtigt at anvende, meget nemmere end du kunne tilbage for tyve år siden, da du var nødt til at kode en masse ting, starte ud i MATLAB, og importere det til C, og du var ved at gøre det hele i hånden.

CXOTALK bringer dig verdens mest innovative virksomhedsledere, forfattere og analytikere for en dybdegående diskussion utilgængelige steder.

0