hiro4869のメモ帳

気になった記事のリンクをメモしているブログです。興味分野はセキュリティ/ネットワークなどです

メモ書き(2019年03月15日)

閲覧記事

【セキュリティ ニュース】標的型攻撃が「Slack」や「GitHub」を悪用 - コード入手やコマンド実行の通知手段に(1ページ目 / 全3ページ):Security NEXT

KINEZOは映画館の係員でもパスワードを覗ける - 35歳からの中二病エンジニア

“高音質”なWi-Fiルーター!? 1台3役のASUS「Lyra Voice」で豊かな新生活を - INTERNET Watch

人気バトルロイヤル「フォートナイト」の起動ソフトがSteamのデータをこっそり収集していたことが判明 - GIGAZINE

Facebookのアバター作成技術がすごすぎて「本物と見分けが付かない」と話題に - GIGAZINE

顔認識技術の利用を規制する法案、米で提出 - CNET Japan

「意識変わった」「風邪が減った」 しっかり寝ると報酬がもらえる「睡眠報酬制度」を導入した企業の“その後” (1/2) - ITmedia NEWS

睡眠時間のバラツキが血糖値に悪影響をおよぼし深刻な健康問題を引き起こす可能性 - GIGAZINE

「監視の目的とは何か?」問いかけよう

本日の可処分時間(6h)

  • twitter (1h)
  • ジョギング (1h)
  • 掃除 (1h)
  • 残り (3h)

読んでいる本

メモ書き(2019年03月14日)

閲覧記事

IBMがAI顔認識のトレーニングにFlickrの写真利用--ユーザーの同意がないとして物議 - CNET Japan

トレンドマイクロ、法人組織のサイバーセキュリティ教育に活用できるガイドブックを無償公開 - クラウド Watch

「私は既に萎縮している」 セキュリティエンジニア、兵庫県警に情報公開請求 「いたずらURLで摘発」問題で - ITmedia NEWS

「誰がインターネットを発明したのか?」ということでネット黎明期の功労者をGoogleが解説 - GIGAZINE

「医療データは闇市場でクレカ情報より約20倍の値がつく」 医療IoT機器のセキュリティを死守するために (1/2) - ITmedia NEWS

パスワードの不要な世界はいかにして実現されるのか - FIDO2 と WebAuthn の基本を知る: Tender Surrender

本日の可処分時間(8h)

読んでいる本

メモ書き(2019年03月13日)

閲覧記事

「いたずらURL」補導にCoinhive事件、“警察や法律を頼れない時代”に私たちがすべきこと (1/3) - ITmedia NEWS

違法ダウンロード規制拡大法案、今国会提出見送り リーチサイト規制も - ITmedia NEWS

オランダ当局がCookieウォールはGDPRの要件を満たさないと判断 | TechCrunch Japan

本日の可処分時間(8h)

  • 筋トレ (2h)
  • 昼寝 (2h)
  • youtube (2h)
  • 残り (2h) 用事が立て込むとついついyoutubeを見たり、寝たりしてしまうので、どうにかしていきたい。コーヒーで昼寝は防げそう。

読んでいる本

メモ書き(2019年03月11日)

閲覧記事

本日の可処分時間(10h)

  • ジョギング (1h)
  • 事務手続き (2h)
  • twitter (1h)
  • 書類作成 (2h)
  • 残り (2h)
    翌日に重たい用事があると、勉強とか手につかなくなってしまうの治したい

    読んでいる本

メモ書き(2019年03月10日)

閲覧記事

警察におけるサイバー人材募集の悩ましい現実(山本一郎) - 個人 - Yahoo!ニュース

なぜストレスを感じると甘いものや炭水化物を食べたくなってしまうのか? - GIGAZINE

本日の可処分時間(14h)

読んでいる本

メモ書き(2019年03月09日)

閲覧記事

「みんなで逮捕されようプロジェクト」がネット上で拡散中~サイバー犯罪対策課は「自分の子どもにもそんなことが言えるのか」と反発:データ・マックス NETIB-NEWS

「いたずらURL貼って補導」がIT業界の萎縮をまねく理由 (1/2) - ITmedia NEWS

「あれはウィルスなのですか?」 – Takamichi Saito – Medium

Apple、2020年にはARヘッドセットの量産開始か〜クオ氏予想 - グノシー

飲食店、お客さんが自分のスマホで注文から決済までする時代がやってくる(かも) | ギズモード・ジャパン

【それってネット詐欺ですよ!】 銀行振込時の第2暗証番号カードの再発行通知が来た 【被害事例に学ぶ、高齢者のためのデジタルリテラシー】 - INTERNET Watch

【セキュリティ ニュース】2018年下半期の攻撃トラフィック、上半期の3.5倍 - 8割強が「telnet」狙い(1ページ目 / 全1ページ):Security NEXT

コインハイブは不正指令電磁的記録に該当するか? - warbler’s diary

本日の可処分時間(12h)

読んでいる本

robots.txtとは?

簡潔に


以下、詳細

TLで以下のような呟きを見かけました。

恥ずかしながらrobots.txtがなんなのか分からなかったので調べてみたところ、他にも色々知らないことが出てきたのでメモることにしました。
一番簡潔にまとまっていたのが以下の文章だと思ったのでこれに沿って調べてみようと思います。

robots.txtはクロール最適化の一種であり、SEO対策上でも重要です。



robots.txtとは | SEO用語集:意味/解説/SEO効果など [SEO HACKS]より

検索エンジンとクロール

まずクロール(クローラー)という言葉を調べてみました。

クローラー(Crawler)とは、Googleなどのロボット型検索エンジンがWEB上のファイル(HTML文書だけでなく、画像・PDFまで含む全般)を収集するためのプログラムのことです。クローラーによって収集されたデータがインデックス化され、巨大な検索データベースが作成されます。「ロボット」「スパイダー」などとも呼びます。



クローラーとは | SEO用語集:意味/解説/SEO効果など [SEO HACKS]より


クローラ(Crawler)とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。「ボット(Bot)」、「スパイダー」、「ロボット」などとも呼ばれる。 主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用される。 (中略)
一般にクローラは、既知のHTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録する。また、既知のファイルが存在しないことを検出した場合はデータベースから削除する。



クローラ - Wikipediaより

検索エンジンではクローラーというプログラムを用いてWEB上のページ情報をリンクを辿りながら収集。その情報をインデックス化し検索用のデータベースを作成する。ということのようです。
ではクローラーを最適化するとは?

クロール最適化とは、サイトの重要なページにクローラーの訪問数を増やすことで、SEO改善に繋げることです。トップページのような重要なページをよりクローラーに訪問・評価してもらい、検索結果上よりも上位に表示させることが目的です。
これはクローラーの2つの特徴を前提としています。一つ目は、クローラーは内部リンクや被リンクを辿ってやってくることです。サイト内で多くのリンクを獲得しているページには、クローラーも多く訪れます。二つ目は、ドメインごとにクローラーが訪問するページ数には限りがあることです。限られた中で、重要なページに多くクロールしてもらうことが大切です。



robots.txtとは | SEO用語集:意味/解説/SEO効果など [SEO HACKS]より

限られた回数で行われるクロールを、意図したページに集中させることで、より有用なページとして検索結果を上位に表示させることが出来る。というまとめが出来ると思います。

SEO対策

最近、何かと耳にしますが一応意味を引用しておきます。

SEOとは、”Search Engine Optimization” の略であり、検索エンジン最適化を意味する言葉です。検索結果でWebサイトがより多く露出されるために行う一連の取り組みのことを”SEO対策”と呼びます。



SEO対策(検索エンジン最適化)とは | SEO基礎知識 [SEO HACKS]

クローラーが訪問する回数を上げたり、Googleで言うとサイトをhttpsに対応させるなどがSEO対策にあたると思います。

robots.txtの書き方

先程から何度も引用していますが、以下のサイトに書き方まで載っています。 www.seohacks.net
サイトのroot直下に「robots.txt」というファイルを置いて、内容を記述します。クローラーといっても種類があるようなのでサイトの例のように対象とするクローラー名と対象とするページ(ディレクトリ)を指定します。

User-agent: Googlebot-Mobile

Disallow: /           

この例の場合は『Googleモバイル用クローラー「Googlebot-Mobile」は、全てのWEBページにアクセスしてはいけない』という設定になります。
下記の例の場合

User-agent: *

Disallow: /cgi-bin/

『全てのクローラーは、 /cgi-bin/ のディレクトリにアクセスしてはいけない』となります。

まとめ

つまり呟きに貼ってあるrobots.txtでは「Megalodon」というクローラー(ウェブ魚拓)は全てのWEBページにアクセスしてはいけない(実際は「*」ではなく「/」または「/*」としなければならないはず)。のでウェブ魚拓を拒否してるということになるようです。(インデックス化されないため、ウェブ魚拓のサイト内での検索でヒットしなくなる)

2019年03月10日追記

先日のまとめ部分で「ウェブ魚拓のサイト内での検索でヒットしなくなる」と書きましたが、「キャッシュ自体ブロックできる」ようです。(ブロックとは言ってもrobots.txt自体に強制力はない)
参考サイト: 初心者にも分かる!robots.txtの作り方