2012年4月3日火曜日

検索よけ/ 検索エンジン避け対策/ 同人用語の基礎知識


J禁P禁サイトでは死活問題にもなる検索エンジン避け対策

 「検索避け」(検索よけ) とは、Yahoo! や Google、MSNサーチ や goo などの、いわゆるロボット型検索エンジンの検索結果に自分の運営する同人系の ホームページ や 掲示板、あるいは ブログ などを反映させないよう、様々な対応を行うことです。

 一般に、検索エンジンの表示結果に自分のサイトなどを積極的に反映させるテクニックを 「検索エンジン最適化」、SEO (エスイーオー/ セオ/ Search Engine Optimization/ サーチエンジン最適化) などと呼びますが、その逆のことをするので、「逆SEO」 などとも呼びます。

 なお 「ロボット型検索エンジン」 とは、ロボット、すなわちウェブサイトの情報をリンクなどを辿って収集するプログラムが自動的に情報を集め、蓄積してゆくタイプの検索エンジンです。

 別の方式に登録型検索エンジン、ディレクトリ型検索エンジン (原則として検索エンジンの管理者、もしくはサイト開設者が手動でページ情報を登録してゆくタイプ) と云うのもありますが、現在は2大ポータル、Yahoo!、Google ともに、スピーディで膨大な情報を取得できるロボット型検索エンジンがその主力となっています (どちらもディレクトリサービスを持ってはいますが)。 従って 「検索避け」 の場合の対策は、「ロボット避け」 とほぼ同じといった感じです。

「同人サイト」、検索避けの実際の対策の方法は…?

 方法、やり方には色々なものがありますが、サイトなどの開設者 (管理人) が行う対策と、閲覧者側が行う対策 (サイト管理人などが利用者にやってくれるようお願いする) の、大きく分けて2つの対策があり、それぞれはさらに、プログラムやスクリプトなどを使って技術的に行う対策と、利用者などの利用方法、使い方に関わる対策の2つに別れます。

 また単に検索避けの対策 (検索結果に反映させない) というより、アクセスそのものの制限 (パスワード請求制 など) や、あるいはリンクポリシー (リンクを貼る場合のお願い)、利用者に守って欲しい利用上のルール、つまりマナーや規約だったりも、これらの考えに含めてまとめて扱う場合も多いようです。

不必要に無関係の人の目に晒して起こる問題を避ける工夫

 これらの 「人目に触れることを前提とした インターネット 上にデータを置きながら、できるだけ不特定の人の目に触れるのは避ける」 という意識は、同人、とりわけ女性向けのアダルト、同性愛などを扱う同人サイトや、芸能同人、いわゆるナマモノと呼ばれるサイトではおなじみの意識、考え方だったりします。

 こうした世界のことを良く知っている人、同じような問題意識やマナー、志を持っている人ならば安心して見せることができるけれど、無関係の人に見られるとトラブルになったり大騒ぎになったりするのを避けたいとの意識から、必要に迫られて呼びかけられるようになったものが多く、多くは対処療法、やむを得ないギリギリの選択である場合が少なくありません。

 こうしたサイトを作る人、あるいは見る人は、そうした前提が 「過去の様々な不快な出来事」 を経て存在することを意識して、なるべく行動した方が良いと思います。

 もちろん無視しても法律で罰せられる訳でもなく、単なるマナー、暗黙のお約束、紳士協定みたいなものですが、自分の好きな同人の ジャンル、好きな サークル、作家、何より 「自分自身」 を、おかしな騒動に巻き込まれるリスクから遠ざけるよう注意深く行動するのは、様々な人が参加する ネット の世界ではとても大切なことです。

具体的な検索避け対策、その方法は…?

 結論から云ってしまうと、ネット上にデータとしてアップロードしている以上、完全な検索避けは不可能です。 絶対に人に見られたくないものは、絶対にネットに上げるなってのは、最終的な回答だったりします。 また最近では SNS (ソーシャルネットワークシステム) も普及し、例えば mixi などに管理者権限で参加者を制限できるコミュニティを作ったり、あるいはレンタルSNSで自分だけのSNSを作ることも簡単な時代になりました。

 検索エンジン避け対策とアクセス制限は似て非なるものですが、最終的にはどちらも目的はほぼ同じ、切っても切れない似た者同士です。 万全を期すなら、通常のウェブサイト (ホームページ) やブログ、掲示板などを使わず、SNSなどを積極的に利用するようにしましょう。 細かく検索避け対策をするより、ずっと楽でしかもかなり有効です。

 なお既存のウェブサイトを既に持っていて、これを捨てるのは難しい…なんて事情がある場合は、以下に具体的な対策方法をまとめてありますので、参考になさってみてください。 システム上完全に制限するのは不可能ですが、やらないよりはかなりマシ、な対策も結構あります。 ただし検索エンジン側の善意を前提としているので、いわゆる 「お行儀の悪い検索エンジン」 にはあまり効果がないです。 「検索避けをやっています」(問題意識をちゃんと持っています) という、同じ同人関係者らに対する単なるポーズ、みたいな感じもありますが…。


日付にクライアントを維持する方法

robots.txt や、METAタグ によるアクセス制限

 独自ドメインを使い、レンタルサーバなどで好きなディレクトリ (フォルダ) に好きなファイルを置ける場合には、

user-agent: *
disallow: /

といった内容を記述したテキストファイル (メモ帳やテキストエディタで作成) を、最上位のディレクトリに robots.txt という名前で保存しておけばOKです。

 プロバイダなどのホームページサービスやブログなどでそれが無理な場合は、各ページファイル (HTML ファイル) の中の冒頭付近、 と の間に、METAタグ として次のような文字列を記述します。


 (このページのインデックス化を禁止)

 (このページのリンクをたどることを禁止)

 (このページの情報をキャッシュすることの禁止)

全部まとめると、

になります。

 ちなみにこれらの検索避けは w3c 勧告による正当性のあるものですが、完全ではありません。 検索エンジンによっては対応していない場合もありますし、以前は対応していたのに、何かの拍子に非対応になる場合もあります。 気休め程度…と云ってしまったらあれですが、やらないよりはマシ、程度の認識で過信しないことが大切です。

 ただしこれらのタグを入れてないのを同じジャンルのサイト管理人や同人関係者に見られると、「危機感がない」「対策をしないとはけしからん」「こういうサイトがあると迷惑」 なんて判断をされる場合もあるので、効果があろうがなかろうが、とりあえず 「入れておくのがマナー」「常識」 のような感じになってますね。

 また上記2つの方法、下記の対策もそうですが、そのうちのどれか1つだけではなく、いくつかの方法を併用するのも常識になっているようです。

.htaccess で特定ドメイン や IP を弾く対策

 「.htaccess」 とは、Apach サーバ上に設置することで利用ユーザの制限や許可、拒否、各種設定が行えるテキストベースの設定ファイルです。 メモ帳などで簡単に作れますし、記述方法も解説サイトがたくさんあってそれほど難しくありませんが、利用しているウェブサーバ (レンタルサーバやホームページスペース) が、.htaccess の設置を許可している場合に限ります。

 実際の記述は、次のようになります。

order allow,deny
allow from all
deny from .(ここにドメインや IP を記入)

 最後の 「deny from .」 は、改行していくつでも指定できます。 例えば abcdefg.com からのアクセスを弾く場合は、

deny from .abcdefg.com

 となり、abcdefg.com と 1234567.com を弾く場合は、

deny from .abcdefg.com
deny from .1234567.com

 と、2行に分けて指定できます。
IP ではじく場合、例えば 100.100.100.100 を弾くなら、

deny from 100.100.100.100

 となります。 末尾を省略することもできます。 省略すると、前方で一致したものすべてが弾く対象になります。 例えば、

deny from 100.100.

 とすると、「100.100.0.0」〜「100.100.255.255」 全てが排除対象になります。

 検索エンジンのアクセス拒否の場合、検索エンジンのドメインや IP を弾くような記述にして、自分のウェブサイトの最上位ディレクトリに設置します。 ただし多くの検索エンジンがプロバイダ業務などを兼ねていて、検索エンジンによるアクセス要求と、そのプロバイダを利用している一般ユーザのアクセス要求とが、同じドメインになっていて区別が困難な場合も少なくありません。 その場合は可能な限り、検索エンジンのドメインや IP を細かく具体的に記述する必要がありますが、数が多く、また検索エンジンによってドメインの使い方も様々で (ドメインでは弾けないものも多い)、実はあまり決定打となるような記述方法がありません。

 実際にやるとなると、弾くべきドメインや IP のリスト作りで挫折しかねない面倒くささです (一覧ではじいている人は、画像類の無断転載を防ぐための中国、韓国系サイトの閲覧制限を含め、1,000行オーバー当たり前みたいになってます…)。 ただし、掲示板などにスパムの自動書き込みなどをされる場合には、それが特定のアドレス、IP (海外からだったり、日本などで余り一般的でないプロバイダなどの場合) だった場合は、まとめて排除することもできて便利です。

 なおこの 「.htaccess」 を使い、HTTPで定義される初歩的なパスワード認証設定 (認証ダイアログが表示され、IDとパスワードによるアクセス制限ができる 「Basic認証」「基本認証」) を行うこともできます。 大雑把な指定では、アクセス認証をページごとに行うのではなく、まとめてディレクトリ (フォルダ) ごとに全てのページ、ファイルに制限をかけることができるので (個別設定も可能)、お手軽ながら、検索避け対策や無関係な人の閲覧をある程度防げる実用性もあります。


ACH転送は何ですか

セキュリティソフトのインストールなど、ウェブサーバの設定で特定ドメイン や IP を弾く対策

 スパム避けやセキュリティ対策によく使われる IP filter や iptables をサーバにインストールしてアクセス要求を弾く方法で、かなり抜本的に検索エンジン避けができるものの、自宅でウェブサーバを立ててサイトを運営しているような状態の人でないと難しい方法です。 また徹底した対策がかなり困難な点は、「.htaccess」 利用とあまり変わりません。

頻繁に URL 変更 (ディレクトリやページファイルのリネーム) などを行う

 定期的にサイトの URL を変えるのは、サイト開設者、閲覧者ともにかなり面倒なものですが、一時期はかなり見かけた方法でした。 仮に検索エンジンにサイトデータを拾われても、アクセスしたらそのページはその場所に存在しないので、内容を外部に漏らさずに済みます。 現在の検索エンジンの多くがキャッシュ表示機能を持っているので、そうした検索サイトに対しては無力になります。 ただし検索避けの META タグやキーワードに注意を払うなど他のワザと複合すると、セキュリティもかなり上がります。

 実際にこの方法をやっているサイトなどでは、サイト管理者が利用者、巡回者を完全に把握し、それらへ 「変更した新しい URL を個別にメールなどで通知する」 というような運営パターンを取っています。 例えば 「メルマガ」 のようなものを発行し、1ヶ月ごとに新しい URL を通知して変更を繰り返したりするわけですね。 仮に無関係な人が紛れ込んでいたとしても、こうした定期的な 「ふるい」「フィルタリング にかけて落とすことができますし、利用者にも定期的なメールで注意喚起ができるなど、それなりのメリットもあります。

 また勝手に望まないリンクを貼られてしまったり、どこかの掲示板などに URL が貼られて 「晒される」 ような状態になっても、その URL でアクセスができなくなりますから、無関係な人にコンテンツを見られる可能性をほぼシャットアウトすることができます。

キーワード、文字列配慮による対策…伏字やぼかし、スラッシュぶつ切り

 検索エンジンのインデックスや検索結果の表示を得るためのアクションには、特定の文字列 (キーワード) が密接に関連しています。 例えば 「鈴木一郎」 というタレントのサイトをやっているとして、サイト上に 「鈴木一郎」 とか 「すずきいちろう」、「ichiro SUZUKI」 などの文字列が一切含まれていなければ、原則としてそのキーワードでのインデックスは比較的されにくくなります (実際は、関連キーワードに基づくインデックス化もあるので、完全ではありません/ 後述)。

 従って、例えばあまり使われていない 「すずいち」 とか 「いっちー」 とかのような愛称とかニックネーム、あるいは 「素図気 位置楼」 のような 誤変換、当て字、「す○き いち○う」 のような 伏字 にすると、検索避けにかなりの効果があります。

 またスラッシュで文字をぶつ切りにする方法 (スラッシュ切り) もあります。 例えば 「いちろう」 なら、「い/ち/ろ/う」 なんて感じにすると、「いちろう」 というつながったキーワードとして認識されず、「い」「ち」「ろ」「う」 のぶつ切り言葉になり、通常のひらがなの羅列に埋没して検索ワードとして意味がなくなります。 「スラッシュが入っていると読みにくい」 場合には、ピリオド 「.」 を代わりに入れる場合もあります。 「い.ち.ろ.う」 となりますが、「/」 よりはずっと読みやすい感じです。

 ただしタレント名などを伏字にしたりぶつ切りにしても、そのタレントの活動内容 (例えば出演したドラマ名や共演者の名前、発売した楽曲のタイトル、コンサートの名称などなど) がそのままでは、結局それらが符合 (キーワードマッチ) して検索結果に出てくるケースもありますし、特定伏字と特定名称との組み合わせがネット上にいくつかある場合、検索サイトの検索システムがそれらを学習し、「その文字列が一切含まれていない」 場合でも、他のサイトの内容からの学習内容などを反映して、ひょっこり出てくる場合もあります。

 それではと、そのタレントに関わる全ての固有名詞の文字列を当て字や伏字、スラッシュでぶつ切りにしたり、あるいはぼかして書くなどで対応することにするとなると、これはかなり大変ですし、第一読みづらくて仕方ありません (実際にやっているところも多いですが、ほとんど暗号文の解読状態です…)。

 さらに掲示板やコメント欄などがあると、サイト利用者がうっかり伏字にせずに書き込んでしまうかも知れません。 その都度 「伏字にしてください!」 と注意したり、書き込みを削除したり、書き込みルール (カキコルール) として設定するのも良いですが、これも実際にやるとなるとかなり大変でしょう。

 まったくやらないよりは、多少意識した方が良いとは思いますが、これも 「やらないよりは多少はマシ」、程度の対策かなと思います。


平均的な受託者の関係が最後にどのくらいいます

 なお 「/」 は読みにくいから 「.」 にしました → 「.」 では効果がない、「/」 にしろ、なんて議論もあるようですが、いろいろ試してみたところ、「効果があるかないかはケースバイケース」 といった感じです。 いずれにせよ 「私はちゃんと対策してます」 というメッセージを出す意味が強いような感じもしますが、どうなんでしょうか。

リンク設定、アクセス解析関連への対策

 検索エンジンのロボットは、リンクを辿って新しいページの読み込みと、情報の整理やインデックス化を行います。 従って、外部からのリンクを一切貼っていないページで、しかもトップページに index.html などのブラウザや検索サイトのロボットが自動読み込みするファイル名も使わずにサイトを構築して、「その URL を予め知らないとアクセス不能」 な状態でサイトを運営する場合があります (ページ全体、あるいは一部のページのみ隠しページとする場合、2つの方法があります)。 その場合は、URL 請求制 サイト などと呼んだりします。

 このやり方ならば、原則として無関係のユーザーや検索エンジンのロボットが入ってこれず、検索エンジンのデータベースにそのページを記録することはできなくなります。 自分のホームページスペース (サーバのディレクトリ) の中に適当な名前の HTML ファイルを置いて、見せたい人、許可を与えた人にだけその URL を教えれば、完全に外部を遮断することができます (index.html が存在しないとディレクトリの中身が全て見えてしまう仕様のサーバもあるので、index.html は何もないダミーとして入れておくといいでしょう)。

 ただしこれにはいくつかの盲点があり、それぞれの盲点に対する対策があります。

ツールバーなどによる、閲覧ページ情報の外部配信

 一部のツールバー (ブラウザに検索窓や機能を付加するためのプラグインツール) には、利用者がどのサイトを見ているかを外部に配信するタイプのものがあります。 ツールバーを配布している企業などが、ユーザがどんなサイトを見ているかの傾向を調査するためにこうした情報を利用しているのですね。 たいていのツールバーには、情報の外部配信を拒否するオプションがあるので、これを忘れずに選ぶよう、サイト開設者だけでなく、利用者にも告知する必要があります。

アクセス解析を避けるための対策

 アクセス解析とは、サイト開設者が自分のサイトに接続してきたユーザの数や内容を調べるためのもので、サイトのデータを置いてあるサーバのアクセスログを解析することで様々な情報が得られます。 ユーザの情報そのものは、IP (利用しているプロバイダなどのアクセスしたポイントの情報) やブラウザの種類、OS の種類が分かる程度なのでたいした情報ではありませんが、問題は、「このページへ、どこのリンクから飛んできたか」「このページの前にどのページを見ていたか」「このページの次にどこのページに行ったか」 などの情報が分かってしまう点でしょうか。

 一部のサイトでは、こうした 「どのページからこのページに飛んできたか」 を 「逆アクセスランキング」 のような形で公表している場合もあり、その場合は予期せぬ形で URL が外部に出てしまうケースがあります。

 また検索エンジン避けとは直接関係がありませんが、例えばあるタレントの同人サイトをやっていたとして、その利用者がそのタレントの公式サイトを見た後にその同人サイトにアクセスしたら、公式サイトの管理者のアクセス解析によっては、公式サイトに同人サイトの URL が知られてしまうケースもあります (古いブラウザのバグを利用したもの)。 そのタレントさんの所属事務所が、同人サイトの存在を快く思っていなかったりすると、これが発端でトラブルが起こる可能性もあります。

 対応としては、お気に入り (ブックマーク) などを使ってサイトにアクセスするにしても、一旦無関係なサイト (例えば自分の外部向けページや、Yahoo! のトップページなど) を間に挟みワンクッション置いて接続するとか、公式サイトや逆アクセスを公表しているサイトと別窓であっても検索避けしているサイトと同時に開かないとかの対応が必要になります。 ただし指が滑ってマウスを誤操作して開いてしまったりは人間ですから避けられませんし、それを自分だけでなく利用者全てに徹底するのも大変です。 誤ってリンクなどを踏んでしまったりすることを、「誤爆」 などと呼びますが、2006年頃から 「タブブラウザ」 も普及し、その可能性は高まっているといえます。

 また1台のパソコンを家族で使っている場合などは、「そもそもブックマーク (お気に入り) に入れることすら危険」「閲覧して、履歴を残すことすらダメ」 なんてことになってしまいます。


ソーシャルブックマークへの対応

 2000年代になって、「はてなブックマーク」(はてブ) や 「Yahooブックマーク」、「Googleブックマーク」、「ニフティクリップ」 などなど、オンライン でそのままブックマークをするソーシャル系ブクマが人気です。 これに登録されると検索エンジンが必ずやってきますので、自分は元より、利用者にも自分のサイトを登録したりしないよう、お願いする必要があります。 万が一登録されてしまったら、登録ユーザに削除をお願いするか、運営元にデリートをお願いするしかありません。

万が一、検索結果に拾われてしまったら…

 自分のサイトが検索結果に反映しているかどうかは、自分のサイトの名前や URL で検索してみたらわかります (エゴサーチ)。 またオプションで、「site:www.○○.com」 といった感じで、URL の頭にオプション記号 「site:」 をつけることで、その URL 内のインデックスされた一覧を表示させることができるので、それで細かくチェックすることもできます。

 万が一、拾われては困るページが検索結果に反映している場合は、検索エンジンを運営している企業に、検索結果の削除を依頼することもできます。 それぞれの検索サイトのメニューに通報や削除要請といったリンクがあるはずですので、自分のサイトで見られてはまずいと考えているページがインデックスされていたら、そこから依頼するのもひとつの手です。

「ウェブマスター ツール」 や 「サイトエクスプローラー」 も活用

 また Google の「ウェブマスター ツール」 や、Yahoo! の 「サイトエクスプローラー」 などに自分のウェブサイトを自分のアカウントで登録し、どのページが反映しているのか、どこからリンクされているのか、細かくチェックする方法もあります。 本来は、自分のサイトを積極的に検索エンジンに反映させるためのサービスですが、チェックにももちろん使えます。

 とりわけ2008年5月に日本版の beta版 が公開された Yahoo! 「サイトエクスプローラー」 は優秀で、例えば自分のサイトの特定ページを検索結果から除く (非表示にする) こともできるようになっています。 また 「悪意のあるサイトからのリンクを検索エンジン的に無効」 にすることもできます (スパムサイトからの被リンクで、こちらのサイトがスパム判定されるのを防いだり)。 こうした方法を使うのもひとつの手でしょう。

 ただし、第三者が勝手に登録するのを防ぐため、登録したサイトが間違いなく登録者本人のサイトであるのを 「メタタグ」 や認証キーの入った特定 HTML ページのアップロードで証明する必要があり、ブログなどでメタタグや HTML ページのアップロードがし辛い場合には、使うことができません。

結局、パスワードで守るのが確実な検索よけなんでしょうね

 このページの上の方で書いている通り、完全に検索エンジンを避けるのはかなり難しいのが現実です。 それでもネット上にデータをアップロードする必要がある場合は、やはりパスワードによるアクセス制限がある程度確実な方法だと思います。 仮に検索エンジンに一部のページが反映されてしまったとしても、それを見ようとするものがパスワードを持っていなければ見られることはないのですから、技術的に不特定多数にデータを見られたくないのなら、これがもっとも確実に近い方法だと思います。

なんだかんだいって、利用者が漏らす場合が多いんです…そしてその発端は…

 膨大な数の検索よけのルールを利用者にお願い、あるいは 「強制」 して、そのあまりの数や度々の警告、それもかなりキツい調子の警告などに利用者が 「逆ギレ」 して悪意を持たれてしまったら、どんな制限をしても無意味になってしまいます。 あるいは 「あなたは同人マナーがないから、もううちのサイトには二度と来ないでください」 と絶縁状を叩きつけられたマナーに不案内の利用者が、腹いせにどんな報復をしてくるかもわかりません。

 パスワード制 (パスワード請求制) にも運用上の難しさはあるのですが、新しい技術やサービスなどを色々試してみる柔軟性も大切かと思います。 また利用者の側も、「いろいろ制限があってウザイ」 と思う前に、サイト開設者の悩みや不安に思いをはせる配慮は持ちたいものです。 実際、多くの同人サイト、とりわけ女性向けのジャンルの女性作家さんやサイト管理者さんの中には、胃に穴が開くほど神経をすり減らして運営を続けている場合もあります。 「いろいろ口うるさいけど、サイトの 中の人 も大変なんだ」 と、鷹揚に見てあげたいものです。

 サイト開設者、利用者が争っても、誰も喜びませんし、良いこともないのですから…。



These are our most popular posts:

とりネットの検索詳細/とりネット/鳥取県公式サイト

1:検索方法 ・左側の「検索メニュー」より、検索したい用語の頭文字をクリックして検索し てください。 ・上部にある「フリーワード検索窓」に検索したい用語を直接、入力して検索し てください。 なお検索は、用語の部分一致、用語の読みがな(ひらがな)、用語の完全 ... read more

分からないパソコン用語を調べる - ワトソンのパソコン教室 - MB-Support ...

検索エンジン」用語解説. 検索エンジンとは、インターネット上に存在する目的の情報を 探し出す検索システムのこと。 検索エンジンは、キーワードによって、調べたい情報を 検索できる仕組みで、サーチエンジンとも呼ばれています。検索エンジンは、ページに 掲載 ... read more

検索エンジン

検索用語に関連するドキュメントとウェブ ページのリストが表示された検索結果ページが 、Google により生成されます。このページには、関連性が最も高い検索結果がページ最 上部に表示されます。デフォルトでは、すべての検索用語が含まれるページのみが返 ... read more

用語集

この記事は、いくつかの Firefox の用語と一般的なインターネットの用語を定義します。 ... URL や検索したい用語を入力するための、Firefox ウィンドウウインドウ 上部にある フィールドとそれに関連するボタン。Awesome バーやアドレスバーとも呼ばれます。 read more

Related Posts



0 コメント:

コメントを投稿