東京電力の力を片仮名のカ「東京電カ」や「ス卜口ンチウム」などの隠語で検索すると、普段決して見ることが出来ない内部資料が見れてしまうと大手掲示板で話題となっております。そのような裏技があるのであろうか、早速検索を試みると確かにPDFの資料など表に出てこないような資料が検索され閲覧も可能だ。はたしてこれはどのような意図で流出しているのであろうか。
―実際に検索してみる
実際に検索してみますと確かに東京電力に関連するPDF文書が確認できます。これが機密文書なのかそれとも公にしても問題ないものなのかは明らかになっていないが「公開不可」と記載されているものもあるため、何らかの形で流出して閉まっている資料ではないかと思われる。
―意図的に対策しているとの声もあるが
原子カ(カタカナのカ)で検索して驚いた。情報公開は義務なのに電力会社は原子力(ちから)でなくて意図的に多くの情報でカタカナのカを利用して検索逃れ。東京電力は東京電カ(←カタカナ)。似た漢字やカタカナと漢字で似た形は多いから、きっと他にも沢山やってる。
— 中山幹夫 (@nakayamamikio) 2014, 6月 8
この問題は既にツイッターや大手掲示板で拡散しておりまして、意図的に検索から逃れる為の対策ではないかという声もある。
とはいえ、検索から逃れる為であればそもそも公開しなければよい。何らかの影響(手違い・ミス)等で普段見れない資料が表に出てきてしまっている恐れがある。
―PDFの文字認識による検索ミスの可能性
いずれもPDFなので、インデクシング前のテキスト化の問題と思われ@T_akagi @hibikilla30: →RT 本当だ。原子カ(カタカナのカ)で検索すると公的資料がめっちゃ出てくる。逆SEO対策か… pic.twitter.com/5iGXMAKaX2
— Dan Kogai (@dankogai) 2014, 6月 8
PDFは、テキスト文書と手書き文字の認識機能(OCR)の検索機能がある。おそらくOCRの検索が誤って「東京電カ(片仮名のカ)」と認識してしまった可能性がある。その結果が現在表示されているという可能性だ。
また、エンジニアの小飼弾さんも「いずれもPDFなので、インデクシング前のテキスト化の問題と思われ」とPDF文書に関係する誤認識であると推測。
ただ、それら資料をオンラインに公開してしまって問題ないのかは不明だ。ネット上にPDFを公開している方は是非とも同様の被害にあわないように注意したい。
(ライター:たまちゃん)
コメント