公告版位
我是公告

目前日期文章:201211 (4)

瀏覽方式: 標題列表 簡短摘要

今天參加青平台OpenData 講座 – 「開放資料」與「開放街圖」 當地圖不再只是地圖時
這個講座主要是在分享 Open Street Map (以下簡稱OSM)
我覺得我有得到很多想法,我也在我個人的 TODO 清單又加了一些我想要做的東西
不過也因為我在聽到一些事情有些疑問我發問了兩次,事後想想我覺得我發問方式好像會給人一種感覺
就是「這個問問題的人是心裡覺得 Google Map 就很夠用了,幹嘛來用 OSM」
我想要澄清一下,因此來貼這則部落格文,並且說明我覺得 OSM 應該怎麼做比較好。

我先說明一下,我是反對 Google Map 獨大的人,也很希望 OSM 計劃能夠茁壯
而我對於反對 Google Map 獨大我的具體作法是
當我用手機要找地方時我會先開 Apple Map ,找不到我要的地方我再改用最近上架的 Nokia Here Map 
再找不到我逼不得已才會去用 Google Map
目前雖然其他兩家圖資都遠不如 Google Map ,但是等他們未來越來越強,我就可以越來越不需要用 Google Map
也算是給其他家個機會
至於 OSM 我是不知道有沒有類似 Google Map/Apple Map/Nokia Here Map 這種基本應用
所以我目前沒在用 OSM
如果有的話,我也會讓他插隊在前面先來用他。 

我個人認為,圖資可以被分成兩種
一種是「基本圖資」 ,像是疆域圖、水文、、道路圖、重要地標...
另一種是「應用圖資」,像是房價實價登錄資料、郵筒位置、無障礙評比地圖、原住民文化說明地圖、某企業分店位置...
只是基本圖資與應用圖資有時候分野會很模糊,例如說便利商店位置分布能不能算是基本圖資?郵筒位置算不算基本圖資? 

OSM  的目標應該是希望將地球上所有的圖資都以 open data license 讓全世界都可以取用
用 wiki 的形式讓全世界都能編修
這個方向很完美,我也樂見其成

我今天的第一個發問,是針對 Dennis 在分享他建立郵筒地圖的時候,因為他編修過程是用 Google Map ,再把結果丟到 OSM 上
這樣子其實有點吊詭,就是講了這麼多「不該讓Google Map獨大,請大家來用OSM」,結果過程中還是用了Google Map

再來是其中有一位老師是在做原住民文化地圖的,他目前的作法是產生 KML 在 Google Map 上顯示
我的第二次發問簡單說是想問,有什麼辦法可以說服這位老師把 KML 改成在 Open Street Map 上面顯示?

其中我第一個問題其實心裡本來就有答案了,答案就是 OSM 現在就是基本圖資不足,無法作到類似 Geocoding 的功能(將地址轉換成經緯度或是經緯度轉換成地址),因此除了 Google Map 似乎真的沒什麼好的選擇,未來 OSM 基本圖資豐富了,這個問題自然就迎刃而解。

而第二個問題的部分,我想了想之後我覺得我想錯方向了,也許 OSM 的人也跟我一樣想錯方向
現在那位老師是用 KML(原住民文化地圖) + Google Map 來呈現
與其說服他把這組合改成 KML(原住民文化地圖) + Open Street Map
是不是改成 Open Street Map(原住民文化地圖) + Google Map 會更好?

推廣 Open Data 的人總是會想要一步到位,希望全世界都可以把全部東西都 Open
因此會希望全世界的開發者馬上都把 Google Map 全部改掉
但是做應用的開發者心裡想的,卻是希望我服務能趕快給別人看,我底層用 Google Map/Apple Map/Bing Map/Open Street Map 完全不是重點
我知道 Google Map 未來可能會在我變大的時候要跟我收錢,那我那時候再換掉不就得了?
為什麼我要為了「給 Open Data 一個機會」而一開始就把底層換成目前圖資完整度以及基本應用還有待進步的 OSM
結果是讓使用者體驗變差?

與其這樣,我覺得要推廣 Open Street Map 應該轉個方向
今天因為 Open Street Map 的基本圖資還不夠完備,因此我不強求你要完全使用 Open Street Map
至於你的基本圖資的部分用 Google Map 也沒有關係
但是希望你能夠將你所產生的應用圖資(Ex: KML) 丟上 Open Street Map
這樣子你的圖資也能夠被大家廣為使用。
而且今天應用圖資多了,自然就可以透過這些應用圖資還原出更多的基本圖資出來。

至於基本圖資的部分,今天的講座主要講的是希望大家一起來畫地圖
這件事又回到 Open Gov Data 的議題了
其實剛剛講的資本圖資像是疆界、河流、道路、地標這些資料,政府手上全部都有
只要政府願意 open ,這部分幾乎是瞬間解決
而且政府也有定期維護資料正確性的的義務
如此一來,Open Street Map 的基本圖資完備了,那麼把 OSM(原住民文化地圖) + Google Map 改成純 OSM 又有什麼問題呢?

結論就是,我覺得台灣的 OSM 現在假如想要成長,優先應該做的事有兩個
1. 鼓勵大家把自己的應用圖資推上 Open Street Map
2. 推動政府 Open Data 以增進 Open Street Map 的基本圖資
至於叫開發者把基本圖資都從 Google Map 轉移到 Open Street Map 這件事還是之後再說吧
這樣做會讓大家比較容易第一時間就對 Open Street Map 有所排斥,結果反而收到反效果。 


文章標籤

榮尼王 發表在 痞客邦 PIXNET 留言(0) 人氣()

前幾天開始有網友在 PTT 就可板發起「[3000p] 讚美馬英九徵文比賽」,主要是為了要回應英國經濟人的「Ma, the bumbler」
沒想到這個討論串引出了非常多創意奔放的內容,其中今天早上出現了一篇 tourgogo 的「二目惟懼」,真的是神對啊!
讓我覺得在微網誌上 140 字無法訴說我對他的佩服,就決定來 po 一篇了。

4bbdb0c62c3f4  

周星馳電影唐伯虎點秋香的原句是

對穿腸:十口心思,思民思國思社稷。
唐伯虎:八目共賞,賞花賞月賞秋香。

其實這句對的並不是很好,「十口心思」正好是 (十 + 口 + 心) = 思 ,並且帶有著十個人一起在憂國憂民的意思
而電影中唐伯虎所對的八目共賞,(八 + 目) = 貝 ,但是 (貝 + 共) 並不是賞 ,這邊其實感覺就輸了一截了
(剛也去教育部異體字字典查過了,賞並沒有共貝這種寫法的古字。)
(更新一下,剛剛查到這句對子其實應該要對「八目尚賞」才對,只是電影為了白話點改成八目共賞,結果就變成對錯了)

但在今天早上 tourgogo 的文章 中,他的句子是

飲酒馬:十口心思,思民思國思社稷。
唐伯虎:二目惟懼,懼中懼日懼美青。

(目 x 2 + 惟) = 懼!!!

而且這句話還有「雙眼中只帶著恐懼,怕中國怕日本怕老婆」的意思
真的是神對啊!

 

只能說這次的徵文比賽真的很多台灣的天才都出現了
前幾天有一篇 belleaya 的神文改寫兒時記趣,把「鞭數十,驅之別院」改寫成「蛆吱別怨」已經是一大經典

這邊我跟比較不熟 PTT 文化的人說明一下
在 PTT 上面討論政治文時,會把支持藍的稱為蛆蛆(大概是因為藍的很支持與祖國統一,而祖字跟蛆很像)
把支持綠營的稱為吱吱(印象中好像是藍營的認為支持台獨的是猴子?)
所以會有藍蛆和綠吱的名詞出現
之前也有很有創意的「吱聲堂」和「蛆城市」來表示藍營綠營人聚集的地方 XD
所以「蛆吱別怨」這句話意思就很明白了 XD

 

只能說時局越亂,就會有越多的人才出現 XD

榮尼王 發表在 痞客邦 PIXNET 留言(2) 人氣()

[20121121 update]
1. 剛剛發現之前爬的資料沒有存到座標,所以我剛剛把程式改了一下並且更新 realprice20121117.zip 了,不過我發現他座標的算法好像改了,所以之前的一萬七千筆我有保留座標在 old_pos 變數上..先來研究看看新舊座標是差在哪裡...

=========分隔線=========

呼,終於把九月的實價登錄資料爬完了,資料數量從 17,826 筆增加到了 41,078 筆
內政部把總價和門牌改成圖片這件事本來真的有點讓我想放棄爬資料的,因為改圖片這件事讓我原來的爬資料程式邏輯整個無用
還好我後來在洗澡時想到解決方式,這次總算還是把資料跑出來了

廢話不多說了

Dropbox 位置: https://www.dropbox.com/s/q11dzzhmo3oc5md/realprice20121117.zip
Google Drive 位置: https://docs.google.com/file/d/0B_CxAZD9rYXMNm1PeWtGakl2TlE/edit

不過因為內政部這次把地址和總價改成圖片,因此將圖片還原回文字這件事讓我花了不少功夫
總價部份我應該是全部還原了,但是 41,078 筆中有 4,767 筆資料是我沒有 100% 確定數字是正確的
因為這 4,767 筆是用 OCR 加上我一筆一筆檢查確認的,不敢保證是否有疏漏(我也檢查了快一小時)
不過應該也有 95% 以上的準確度吧
這 4,767 筆靠 OCR 加人工檢查的資料放在  http://ronnywang-public.s3.amazonaws.com/opendata/realprice/20121117/guess.html
如果有人有更好的 OCR 工具或是有閒的話也可以再幫我驗算一次,如果有錯我就馬上修正資料囉 

在輸出的 json 中,如果是我無法確定數字正確的部份,我在 fields 那個欄位有增加一個 "交易總價原始圖檔" 資料
這一欄的資料會長成 "A2CB10110020011-01.png" 這個樣子
只要到 http://ronnywang-public.s3-website-ap-northeast-1.amazonaws.com/opendata/realprice/20121117/totalprice/A2CB10110020011-01.png 就可以看到原始圖片
所以如果要做服務的人也可以把這圖片加進去讓 user 可以看到來自實價登錄網站上總價圖片
同樣地址的圖片我也有放在  http://ronnywang-public.s3-website-ap-northeast-1.amazonaws.com/opendata/realprice/20121117/address/[caseNo]-[caseSeq].png

而原始圖片 41,078 筆資料的打包檔我也放在 Dropbox 和 Google Drive 了 

地址原始圖片 Dropbox 22.37M: https://www.dropbox.com/s/4p9ol2xjib6v9zk/images-address-20121117.zip
總價原始圖片 Dropbox 14.2M: https://www.dropbox.com/s/bajbhbsan4vvol7/images-totalprice-20121117.zip

而門牌的部份有 16,393 筆資料我無法抓出文字的(因為我沒有中文 OCR 工具),不過因為已經有座標資訊了,大部份的應用這些資訊應該都足夠了

最後再來碎碎念一下
如果這次內政部網站不惡搞把總價改成圖片,其實我的爬資料程式是可以程式跑下去就等他跑完,新的匯出檔就產生好了
這樣之後我的人工部份幾乎就是打個指令按下 enter ,剩下就是上微網誌發文請大家下載了
但是內政部這次這樣一搞我為了解決圖片問題昨天大概花了四個小時再那邊檢查

很多人會認為爬資料的人本來就是一種惡意行為,政府讓我們這些人難做是正確的
但是我想聲明幾點,有看我程式的人應該會知道,我爬資料的過程,每一個連線之間都會 sleep 0.5 ~ 1 秒,只是為了讓爬資料的過程所造成的 loading 不要超過人類的操作
另外我把資料爬出來之後,其他人就可以直接拿我的資料,不需要再去爬一次,這樣子也可以減少很多人也去爬資料
如果政府今天能自己放出一個打包檔,鬼才會想去寫程式爬資料
這些資訊既然政府決定公開了,就不應該用防賊的方法這樣處理
很多話已經有很多人說過了,我也不多說了

Code for Tomorrow-奶娘國家的KPI

全台實價登錄網站 -恭喜內政部成功開倒車 

和人民做朋友真的這麼難?民間版全台實價登錄網站的哀歌 

榮尼王 發表在 痞客邦 PIXNET 留言(3) 人氣()

投影片放在 slideshare

http://www.slideshare.net/ronnywang_tw/2012-php-conf-slide-pixnet-php-15004028

榮尼王 發表在 痞客邦 PIXNET 留言(0) 人氣()

找更多相關文章與討論