Ben Wellington
1,030,374 views • 11:48

Dziesięć tysięcy kilometrów dróg, 1000 kilometrów torów metra, 650 kilometrów ścieżek rowerowych oraz kilometr toru tramwajowego, jeśli ktoś był na Roosevelt Island.

Te liczby składają się na infrastrukturę Nowego Jorku. Oto statystyki naszej infrastruktury. Można je znaleźć w raportach agencji miejskich. Na przykład Departament Transportu prawdopodobnie poinformuje, iloma kilometrami dróg zarządza. MTA będzie się przechwalać długością torów metra. Miejskie agencje publikują statystyki. Te są z tegorocznego raportu Komisji Taksówek i Limuzyn. Można się z nich dowiedzieć, że po mieście jeździ 13 500 taksówek. Całkiem ciekawe, prawda? Ale czy zastanawialiście się, skąd pochodzą te liczby? Żeby powstały, ktoś w agencji musiał uznać: "Oto liczba, którą ktoś chciałby poznać. Oto liczba, którą obywatele chcą znać". Wracają więc do surowych danych, liczą, dodają, obliczają i wydają raporty zawierające liczby takie, jak ta.

Skąd jednak znają wszystkie nasze pytania? Mamy ich mnóstwo. O naszym mieście można zadać nieskończenie wiele pytań. Agencje nigdy by nie nadążyły. To nie za bardzo działa i urzędnicy chyba o tym wiedzą. W 2012 roku burmistrz Bloomberg podpisał ustawę, którą nazwał "najbardziej ambitnym i kompleksowym prawodawstwem otwartych danych w kraju". Pod wieloma względami ma rację. Przez dwa lata nasze miasto umieściło 1000 zbiorów danych na portalu otwartych danych. To jest naprawdę niesamowite. Kiedy je ściągasz i analizujesz zamiast liczyć taksówki, można zadawać inne pytania.

Zadałem pytanie. Kiedy w NY są godziny szczytu? Są trochę uciążliwe, ale kiedy dokładnie? Pomyślałem, że taksówki nie są jedynie numerami, są rejestratorami GPS jeżdżącymi po ulicach miasta, nagrywającymi każdy przebyty kurs. Przyjrzałem się tym danym i stworzyłem dzienny wykres średniej prędkości nowojorskich taksówek. Można zaobserwować, że od północy do 5:18 rano prędkość rośnie, a następnie zaczyna spadać. Maleje i maleje i maleje aż do około 8:35, kiedy to wynosi około 18,5 km/h. Przeciętna taksówka przemierza miasto z prędkością 18,5 km/h. Okazuje się, że ta prędkość utrzymuje się już do końca dnia. (Śmiech) Stwierdziłem, że w Nowym Jorku nie ma godzin szczytu. Jest natomiast dzień szczytu. To ma sens. I jest ważne z paru powodów. To interesujące dla planisty transportu. Jeśli chcesz dokądś sprawnie dojechać, wystarczy ustawić budzik na 4:45 rano i gotowe. W końcu to Nowy Jork.

Z tymi danymi wiąże się opowieść. Nie były one dostępne wprost. Pochodzą z "Zapytania na podstawie Ustawy o Wolności Informacji" lub Zapytania FOIL. Ten formularz jest na stronie Komisji ds. Taksówek i Limuzyn. Żeby uzyskać dostęp do tych danych, należało go pobrać i wypełnić, a potem cię zawiadomią. Zrobił to facet o nazwisku Chris Whong. Chris usłyszał: "Przynieś nam fabrycznie nowy dysk twardy i zostaw go na pięć godzin. Dostaniesz skopiowane dane". Tak powstały te dane. Chris chciał upubliczniać dane. Udostępnił je w internecie, dzięki czemu powstały te wykresy. Fajnie, że istnieją takie dane. Rejestratory GPS - fajna rzecz. Ale żeby to obywatele mieli spacerować z twardymi dyskami kopiować dane w celu upublicznienia, dane niby już "publiczne", bo dało się je zdobyć, ale nie naprawdę publiczne. Miasto może zrobić to lepiej. Nie potrzeba obywateli krążących z dyskami twardymi.

Nie każdy pakiet danych jest związany z FOIL. Stworzyłem mapę najniebezpieczniejszych skrzyżowań w Nowym Yorku w oparciu o wypadki rowerzystów. Czerwone obszary są niebezpieczniejsze. Od razu widać, że we wschodniej części Manhattanu, jest więcej wypadków rowerowych. To ma sens. W tym miejscu rowerzyści zjeżdżają z mostów. Są też inne punkty zapalne. To Williamsburg i aleja Roosvelta w Queens. Takich danych potrzeba do Vision Zero. Tego właśnie szukamy.

Za tymi danymi też kryje się historia. Te dane nie wzięły się z powietrza. Ile z was zna to logo? Kilka osób potakuje. Próbowaliście kiedyś skopiować i wkleić dane z PDFa, żeby miały jakiś sens? Więcej próbowało funkcji kopiuj-wklej, niż zna to logo. Nieźle.

Dane, które właśnie widzieliśmy, były w właśnie w pliku PDF, na setkach stron dokumentów, tworzone przez naszą własną policję. Aby je wykorzystać, trzeba by robić kopuj-wklej przez setki godzin albo być Janem Kraussem. Jan Krauss uznał: "Nie zamierzam kopiować tych danych. Stworzę program". Nazywa się "Wsparcie Bazy Danych o Wypadkach". Wchodzi na stronę policji i ściąga PDFy. Szuka ich codziennie. Ściąga znaleziony PDF i wyodrębnia informacje, tworząc tekst, za pomocą którego można tworzyć mapy, jak ta. To, że dane są tutaj i że mamy do nich dostęp... Każdy wypadek to wiersz tabeli. Wyobraźcie sobie, ile to PDF-ów. To, że mamy do nich dostęp, jest super, ale nie publikujmy ich w formacie PDF, zmuszając ludzi do pisania programów dekodujących PDF-y. To marnowanie czasu mieszkańców. Jako miasto możemy zrobić to lepiej.

Dobrze, że administracja de Blasio udostępniła te dane kilka miesięcy temu, i teraz rzeczywiście jest do nich dostęp, ale wiele danych wciąż jest zagrzebanych w PDF-ach. Dane kryminalne są dostępne tylko w PDF. Również budżet miasta. Budżet miasta dostępny jest tylko w formacie PDF. Nie tylko nam trudno go przeanalizować. Ustawodawcy, którzy głosują nad budżetem, też dostają ten PDF. Prawodawcy nie mogą przeanalizować budżetu, za którym głosują. Jako miasto stać nas na więcej.

Jest wiele danych, które nie są ukryte w plikach PDF. To przykład stworzonej przeze mnie mapy najbrudniejszych cieków wodnych w Nowym Jorku. Jak mierzę poziom brudu? To trochę dziwaczne. Zmierzyłem poziom pałeczek z grupy coli, który jest miarą masy kałowej w wodzie. Im większe kółko, tym brudniejsza woda, duże kółka - brudniejsza, małe - czystsza. Na mapie widać cieki powierzchniowe. To dane miejskie za ostatnie pięć lat. Cieki powierzchniowe są brudniejsze. To ma sens, prawda? Dowiedziałem się dzięki temu paru rzeczy. Po pierwsze: nie pływaj w niczym, co ma w nazwie "potok" lub "kanał". Po drugie: znalazłem najbrudniejsze cieki w Nowym Jorku dzięki jednemu pomiarowi. Potok Coney Island, nie kąpielisko Coney Island. To po drugiej stronie. W potoku Coney Island 94% próbek pobranych przez ostatnie 5 lat miała tak wysoki poziom kału, że pływanie tam byłoby niezgodne z prawem stanowym.

Nie ma się czym chwalić w miejskim raporcie. Nie znajdziecie tego na głównej stronie nyc.gov. ale mimo to fajnie, że dotarliśmy do tych danych. Ale znowu, nie było to łatwe, bo dane nie były na otwartym portalu. Na otwartym portalu można zobaczyć tylko fragment, rok lub parę miesięcy. Znajdowały się na stronie Departamentu Ochrony Środowiska. Każdy z tych linków to arkusz Excel i każdy jest inaczej zbudowany. Każdy jest inny: trzeba je kopiować, organizować. Potem można stworzyć mapy. Miasto powinno to standaryzować.

Do tego celu zbliża się Socrata ze stroną Otwarty Portal Danych NYC. Znajduje się tam 1100 zestawów danych, bez wad, o których mówiłem. Ich liczba rośnie. Można ściągnąć dane w dowolnym formacie, CSV, PDF lub Excel. Można je ściągnąć w dowolnej chwili, ale problem w tym, że każda agencja inaczej koduje adresy. Tu mamy nazwę ulicy, skrzyżowania,, ulicę, dzielnicę, adres, budynek, adres budynku. Nawet mając ten portal, znów tracisz czas, ujednolicając pola adresowe. To nie najlepsze wykorzystanie czasu obywateli. Możemy zrobić to lepiej. Możemy standaryzować adresy, stworzyć więcej map takich, jak ta.

To jest mapa hydrantów w Nowym Jorku, ale nie byle jakich hydrantów. 250 hydrantów o największych przychodach z mandatów za złe parkowanie. (Śmiech) Sporo mnie ta mapa nauczyła. Naprawdę ją lubię. Pierwsze - nie parkuj na Upper East Side. Po prostu nie. Wszędzie dostaniesz mandat. Znalazłem też dwa najbardziej dochodowe hydranty w całym Nowym Yorku, oba na Lower East Side, przynoszące ponad 55 000 dolarów rocznie z mandatów za parkowanie. Trochę mnie to zdziwiło, więc trochę poszperałem. Okazuje się, że stoi hydrant, następnie "przedłużenie krawężnika", 2 metry chodnika i dopiero miejsce parkingowe. Kierowcy sądzili, że hydrant jest daleko, więc wszystko jest w porządku, było specjalnie namalowane miejsce parkingowe. Tylko że policja nie zgadzała się z wyborem miejsca i dawała mandaty. Nie tylko ja je znalazłem. Przejeżdżający samochód Google Street View odnalazł te same mandaty.

Napisałem o tym na moim blogu, I Quant NY, i DOT odpowiedział mi tak: "Chociaż DOT nie otrzymał żadnych skarg w odniesieniu do tego miejsca, sprawdzimy znaki drogowe i dokonamy odpowiednich poprawek ". Pomyślałem - typowa urzędnicza odpowiedź. Zapomniałem o sprawie.

Kilka tygodni później, stało się coś niesamowitego. Przemalowali to miejsce. Pomyślałem, że to przyszłość otwartych danych. Pomyślcie, co tu zaszło. Przez pięć lat w tym mylącym miejscu wystawiano mandaty, obywatel to zauważył, powiedział o tym miastu i w parę tygodni problem został rozwiązany. Wiele osób uważa dostęp do danych to nadzór. ale tu chodzi o partnerstwo. Obywatele mogą być lepszymi partnerami dla władz i nie jest to takie trudne. Potrzeba tylko paru zmian. Jeżeli udostępniasz dane dla FOIL, widzisz, że ktoś wciąż o nie prosi, to jest znak, że trzeba je upublicznić. Jeżeli jako agent rządowy wypuszczasz dane w formacie PDF, niech prawo wymaga, żeby publikować je wraz z danymi źródłowymi, bo te dane skądś się wzięły, choć nie wiem skąd, więc można je publikować wraz z PDF-em. Przyjmijmy standard otwartych danych. Zacznijmy od ujednolicenia adresów, Nowy Jork jest liderem w otwartych danych. Mimo problemów jesteśmy absolutnym liderem. Jeżeli ustalimy standard dla otwartych danych, inni za nami podążą. Władze stanowe, rząd, inne kraje. Niewiele brakuje, żeby za pomocą jednego programu tworzyć mapy informacji ze 100 krajów. To nie science fiction. Jesteśmy naprawdę blisko.

Kto na tym skorzysta? Nie tylko John Krauss czy Chris Whong, lecz setki nowojorskich organizacji, aktywnych grup. Tysiące ludzi uczestniczy w spotkaniach, w weekendy, po pracy przyglądają się danym żeby ulepszyć nasze miasto. Na przykład grupa BetaNYC założyła citygram.nyc, gdzie można zasubskrybować skargi komunalne w okolicach domu lub biura. Wpisujesz adres i dostajesz listę lokalnych zażaleń. Dąży do tego nie tylko techniczna społeczność, ale też planiści miejscy, jak studenci, których uczę w Pratt, aktywiści polityczni, każdy, obywatele z różnych środowisk. Małymi, stopniowymi zmianami możemy uwolnić pasję i zdolności naszych obywateli, żeby wykorzystać otwarte dane i usprawniać nasze miasto, czy to jednym zestawem danych, czy jednym miejscem parkingowym.

Dziękuję.

(Brawa)