データサイエンスセッション

間違っていても理解できるなら機械学習モデルは使える？

機械学習（ML）モデルは、DataRobotのようなツールを使うことで、簡単に大量に生成することができるようになりましたが、どのモデルを選ぶのが正しいのでしょうか？精度や、計算速度のような今までのモデル選択指標に加え、モデルの解釈可能性は、MLモデルを現実問題の解決に応用する上でしばしば決定的な要素として上がります。本講演では、革新的な手法を使って、MLモデルが学習したパターンと、モデルが計算する予測値の根拠をどうやって説明できるようになるのかをお話します。

Elastic Stackを利用して
データから様々な気づきを見つける

Elastic Stack (Elasticsearch, Logstash, Kibana, Beats)が様々なユースケースで利用され、日々のデータから様々な気づきを発見するのに利用されています。本セッションでは、Elastic Stackの概要といくつかのユースケース及びデモを予定しています。

Combining Watson and Spark
for Analysis

昨今データ活用の重要性が説かれて久しく、Hadoop/Sparkといった技術要素が非常に注目されています。また、AIのワードと共にWatsonなどのCognitiveシステムにも注目が集まるようになってきました。本講演ではWatsonとSparkを組み合わせたレコメンドのサンプルを通して機会学習とBigdataの近未来についてとAI・Cognitive時代の課題について見ていきます。

ストリーミング IoT センサーデータを使った
機械学習パイプライン

実際の物理的なセンサーが生成したデータを処理する分散機械学習パイプラインに興味がありますか？MapR コンバージド・データ・プラットフォームで動作する最先端の H2O フレームワークを利用して実装された大規模 IoT 機械学習パイプラインをぜひご覧ください。本発表では、東京を拠点とするスタートアップ企業が開発した実際に動作する IoT センサーを取り上げます。そして、リアルタイム予測を実現する機械学習パイプラインをどのように構築したかをステップ・バイ・ステップで解説します。この発表は基本的な機械学習の理解があるエンジニア・データサイエンティスト向けです。デモで使用したコードとデータは公開を予定しています。

Hadoop / Spark を中心とした
データエンジニアリング & データサイエンス基盤

Cloudera Enterprise を使うことで、エンタープライズグレードの Hadoop / Spark 基盤の運用・構築が可能となります。大規模データを活用するにはどのように基盤を作れば良いのか、それらをどのように活かせば良いのか、データエンジニアリングとデータサイエンスの観点から SQL-on-Hadoop や Spark、Python を活用した機械学習についてご紹介いたします。

ライフシフト時代における新たな数理統計学
方法論適用による金融工学概念と
健康管理のパラダイムチェンジ

このセッションでは主に医療・社会インフラ・生活インフラに的を絞り、統計解析／バイタルデータ／オペレーションズ・リサーチを利活用した、「より豊かな世の中になるため」の打ち手・方法論・心構え・必要となる体制などをご紹介いたします。

NLP4L 〜情報検索における性能改善のためのコーパスの活用とランキング学習

情報検索における性能指標としては再現率と精度がよく知られていますが、普段あまり意識することはないでしょう。しかしこの2つの指標を見つめ直すことで、ユーザの検索エクスペリエンスを改善するためのヒントが見えてきます。これらの指標に基づき情報検索の性能を改善する手順をわかりやすくご案内します。またそのための手段として、企業資産であるコーパスの活用とランキング学習の実際について、NLP4L のデモを交えながら説明します。