アサトの実験blog

Pythonでの自動化とか、IT関連で興味のあるテーマについて色々実験する場所です

Kaggle: Titanic: Machine Learning from Disaster(内容)

さて、Kaggleです。 Prarctice Skillsの所に行くと

Competition Description

The sinking of the RMS Titanic is one of the most infamous shipwrecks in history. On April 15, 1912, during her maiden voyage, the Titanic sank after colliding with an iceberg, killing 1502 out of 2224 passengers and crew. This sensational tragedy shocked the international community and led to better safety regulations for ships. One of the reasons that the shipwreck led to such loss of life was that there were not enough lifeboats for the passengers and crew. Although there was some element of luck involved in surviving the sinking, some groups of people were more likely to survive than others, such as women, children, and the upper-class. In this challenge, we ask you to complete the analysis of what sorts of people were likely to survive. In particular, we ask you to apply the tools of machine learning to predict which passengers survived the tragedy.

Practice Skills

・Binary classification ・Python and R basics とあって、その下に動画なんかも貼ってあります。当然全部英語です。 まあ一応私 TOEIC 900点とったこともあり、この程度の英語であれば平気です(ちょっと自慢げ)
さらっと英語を読んでみると ・タイタニック号の沈没は歴史上もっとも有名な難破です。 ・1912年 4/15日、処女航海中に、タイタニックは氷山にぶつかって沈み、2224人の乗客及乗組員のうち、1502人が死亡。 ・センセーショナルな悲劇は国際コミュニティにショックを与え、船の安全基準をよくする動きにつながりました。 ・難破がそれだけの生命を失う事故に至った理由の一つは、乗客及び乗組員のための究明暴徒が十分になかったことです。沈没から生き残るいくつかの幸運もあったものの、いくつかのグループの人々はその他のグループの人々より生き残っていました。例えば、女性、子供、および上流階級の人々です。 ・このチャレンジでは、どのような種類の人々が生き残りそうであるかの分析をあなた方に競っていただきます。我々は、どの乗客が悲劇から生き残るかを予想する機械学習のツールを適用していただきます。

実践スキル

二項分類 Python 及び R の基礎 ということで、要は Pythonとか Rを使って、どの乗客が生き残るかを予想する機械学習ツールの開発を行うってことですね。(きっと) そもそも二項分類(Binary Classification)って何?って感じですが。。まあチュートリアルやればわかるようになる。。と信じてみます。

閑話 今実際にコンペが行われているものとしては、

TGS Salt Identification Challenge | Kaggle

がありますね。賞金 100,000 $ だそうです。一人で勝ち取ればウハウハですね(夢)

f:id:asato418:20180911230501p:plain

Overview (概要)のDescription(記述)を読み終えると、その下には Evaluation(評価) Tutorials (チュートリアル) Frequently Asked Questions (よくある質問。いわゆる FAQ) があり、さらに上のメニューには Data, Kernels, Discussion, Leaderboard, Rules, Team という項目があります。 まあ、素直に Evaluation, Tutorialsへと進みます。 Evaluationには、

Goal

It is your job to predict if a passenger survived the sinking of the Titanic or not. For each PassengerId in the test set, you must predict a 0 or 1 value for the Survived variable.

Metric

Your score is the percentage of passengers you correctly predict. This is known simply as "accuracy”.

Submission File Format

You should submit a csv file with exactly 418 entries plus a header row. Your submission will show an error if you have extra columns (beyond PassengerId and Survived) or rows. The file should have exactly 2 columns: PassengerId (sorted in any order) Survived (contains your binary predictions: 1 for survived, 0 for deceased)
と書かれてます。 まあ要するに、先ほど概要の所で書いてあった、生き残り予測をおこなって、正確性を競うってことが書いてあります。で、ファイルフォーマットは 892, 0 893, 1 というように、乗客IDと、生き残ったか(1), なくなったか(0) かというフォーマットで提出するってことのよう。
長くなったので、チュートリアルは次の記事に書きます