ringoさん
VIEW
日本の住所の正規化が無理ゲーだと話題に「京都は同じ住所表すのに7種類の表現」「新潟は漢字同じで読み違いの地区が存在」などなど
トレンドに「住所の正規化」が。
これの苦労話がたくさんツイートされてる。
ケ問題とか同一町名とか文字地番とか文字街区とか旧字新字とか小字有無とか、1-2は1丁目2番地なのか1番地2なのかとか。
これが難しいから商売になるんだろうけど、知らない人から見ると、え?簡単でしょ?なんだなぁ。 https://t.co/whqp00E7Y5
住所の正規化、どれだけ沼が深いかっていうと・・・経産省公式のツールが「一見すると正しいが、実は漢数字ではない住所」を無理やり処理してる。「ニ丁目」(カタカナのニ)とか。
t.co/7gGGNzvVXi
t.co/d7qWPU0BTC
住所の正規化ライブラリなかなか辛そうに見える
デジタル化はこういう根本のところからやっていかないとどんどん負債が溜まって進まないんですよ https://t.co/8KbiAKD8Dn
京都の通りの名前のパターン数、同名の別住所があるのはマジで狂ってんぞ!!!!!!!住所の正規化やら表記の揺れやら、京都だけでもまずやってみてもろて!!!!!
かなりのテストケースが京都にはある
(まだある、まだまだある) https://t.co/BnPKYFqnAb
ちなみに住所の正規化を行うにはまず数字の正規化を行う必要があって、まずこれが大変。
たとえば「五丁目」は「5丁目」に正規化したくなるのが人情ですが、そうすると「花巻市十二丁目」という地名が「花巻市12丁目」って正規化されて「一郎」を「1郎」って書いちゃったみたいなバグになる。
ジオコーディング(住所表記の揺らぎを判断しつつ正確な場所を特定すること)って物凄く難しくて、Googleが大金をつぎ込んで開発しているGoogle Maps Platformですら「それなりの割合で」外すんですよね。
マイナンバーが絡むと色眼鏡がかかるんだろうけど・・・住所照合、ほんと沼ですよ。 t.co/0d8QFHryfk
Excelで実用レベルの住所名寄せ(正規化)を実現できたらスーパーハカーを自称しても誰も文句言わないと思う。
なお人類の入力はほんと多岐に渡るというか想像を軽々超えて来ます。途中英語になってるなんてのもあるし番地とビル名が繋がってる(しかも数字始まり)とかもいくらでも。 t.co/5z2WnBMAoD
住所の正規化で真っ先に思い出すの「埼玉県春日部市八丁目」(”八丁目”が地名)なのよね
某官公庁「先生、申告書の住所表記が欠落してる相続人がいます。春日部市のどこの八丁目ですか」
私「だから春日部市の八丁目。そういう地名」
某官公庁「…あ、あるんですね…」
『丁目』→『-』変換ダメなんよ
「住所の正規が難しい…」とお悩みの自治体のお客様。そもそも今ある住所をそのまま正規化しようというのが無理な話です。
それより区画整理して新しい住所を振りましょう。弊社では「偶然にも大火災が起きて一帯が灰燼に帰し、区画整理が必要になる」ところまでのトータルソリューションを提供します
住所の正規化の話にしても、マイナンバーがらみの誤登録や重複のニュースにしても、そもそも国民個人を1意の存在として処理できるようにしてそれらを防ぐための存在がマイナンバーで、そこへレガシーシステムをつなげていく移行期だからこその問題なんやで、という前段がいつも抜けていてモヤる。
住所の正規化がいかに難しいかで盛り上がっていて、なんか嬉しい😊
住所関連の開発、個人的にもかなり長い時間をかけたのですが、一番ヤバいと思ったのは
・新潟県新潟市北区東栄町(とうえいちょう)
・新潟県新潟市北区東栄町(ひがしさかえまち)
という2つの「異なる」地域が存在することです。
「住所の表記揺れなんてExcelで正規化できるでしょwww」にエンジニアの皆さんがお怒りのようですが、我々銀行員は「銀行なんてフィンテックとAIと仮想通貨に駆逐されるでしょwww」という世論を生暖かい目で見守っております(*´ω`*)