2017年 11月 の投稿一覧

セミナーレポート: 第2回Google Cloud Inside Games & Apps

Pocket

GoogleがGoogle の中のテクノロジーを知れる場。として開催しているエンジニア向けセミナー「Google Cloud Inside Games & Apps」に参加してきましたので、レポートします。

Google Cloud Inside Games & Apps 2017/11/22水

主に、Google Cloud Platformを利用したデータアナリティクス関連に関する内容です。

アジェンダ

  1. Google Cloud 下田 倫大「基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群」
  2. 株式会社リクルートライフスタイル 南谷 和毅 氏 「データプロダクトを支えるビッグデータ基盤」
  3. 株式会社プレイド 牧野 祐己 氏「」

Google Cloud 下田 倫大「基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群」

GCP上でのデータ分析の基本的考え方

データ分析のワークフロー」

  • 集める
  • 貯める
  • 処理する
  • 分析する
  • 可視化する

データサイエンス + データエンジニアの構成で仕事をすることが多い。

「データサイエンティスト」

ビジネス課題に対してデータを利用して科学的に課題を解決する

「データエンジニア」

データセットを用意するためのインフラを構築/運用/保守する

データサイエンティスト + データエンジニア うまくいかないことが多い。

サーバ負荷等気になる等
課題、守備範囲が分かれている

データ分析を簡単に効率的に。

「Cloud Pub/Sub 」(Cloud Publish/Subscribe)

大量に高速に安価に集めて保存
イベントメトリックなどをストリーミングで収集

Cloud Strage

オブジェクトのストレージサービス
生ログ、ファイルなどデータの保存場所

「Cloud Dataflow」

高速に、サーバレスでデータ処理
パイプラインのストローミングとバッチ実行をサポートする
フルマネージドどのデータサービス

特徴

フルマネージド
最適な実行パスのための自動グラフ最適化
ジョブのAuto Sacale
ジョブの動的な負荷のリバランシング

Cloud Dataproc」

マネージドhadoop, spark

「Cloud Dataprep」

GUIベースのデータ準備ツール
Cloud Dataflow上に構築され、コードは不要
データソース:CSV, JSON …
データ変換のレコメンド

データの分析(集計/検索)

大量のデータに素早くアクセス
BigQuery
ペタバイト級のデータも低料金で保存
フルマネージドのデータウェアハウス
スキーマの設定が不要
同時に複雑な処理が行える
生ログをストリーミングで挿入できる

データの分析(機械学習)

No Ops でのモデル作成 / 学習済みモデルへの提供
Cloud ML Engine
フルマネージドのTensorFlowの実行環境
分散学習やバッチ/オンライン予測も実行可能

ML APIs

学習済みモデルに対してデータを適用することのできるサービス

TensorFlow

機械学習のライブラリ
自由度高いが、使いこなすのは知識必要

Cloud ML Engine

マネージドなTensorFlow実行で環境
インラウフラはGCPに任せる

ML APIs

特定のタスクの学習済みモデルをAPI経由で利用
e.x. ) 翻訳、画像認識
モデルに変更はくわえられない
やりたいことにハマれば良い選択肢

データの可視化

「Cloud Datalab」

インタラクティブなデータの探索、分析、可視化、機械学習のための使いやすいインタラクティぶなツール
Jupiter notebookのクラウド版
オープンソースとしての開発
GCPの各サービスとのインテグレーション GCS, BigQuery

「Cloud Data Studio 」

データ可視化 / レポートサービス
定期的な定型的なレポート出力に向いている。
BIツールではない。

分析環境 on GCPのメリット

事実上無制限にスケールする
小さく初めて、同じ構成でそのまま使い続けられる

PaaS / Saa Sのみので構築できる
専任のインフラエンジニアが事実上不要

データの活用に専念できる

「データプロダクトを支えるビッグデータ基盤」リクルートライフスタイル南谷氏

アジェンダ

  • データプロダクトを支えるビッグデータ基板の設計
  • インフラ設計背景、 GCPプロダクト選定の背景
  • ノウハウ

クライアント向けBIツール を作っている

データプロダクト基板設計 意識

①誰もがデータを自律的に活かせる基板
このデータの意味を誰に聞けばいいんだろ
このデータをあるDBに入れたい、毎回頼む
データ処理したいけど、負荷が高い他に影響しないか。

→ 本質でないことに労力を避けない

② PDCAを高速に回しデータから価値をうむ基板
データの取り込みからユーザー提供までをトライアンドエラーで一気通貫できるインフラ

③ 誰もがデータから価値を生み出せる。
他領域への横展開が容易な基板
誰もがデータプロダクトを開発・運用できる基板
凄腕エンジニアでなくても開発できる。

アーキテクチャ

Datarobot も使っている。

データ処理 機械学習

コストを抑えるため us-central-1リージョンを利用

用途に合わせて最適なプロダクト/ 使い方をする

BigQuery 日次バッチ コストを意識。事前に用意できるデータ 9割型

Cloud Dataflow

SQLでもかけるが、将来性を考えて
BigQueryでパフォーマンスが出ない。
Javaではなくデータ処理に適しhたPythonを採用

Apache beamドキュメントを参考 Dataflowのドキュメント古い場合も
開発デバッグはDirectRunner (ローカル実行モード)を利用。

BigQuery オンライン

事前にデータを準備難しい
e.x. A,B,C店舗のD商品とF日とG日のデータが欲しい

Dataroboto(機械学習)

YAMLを書くだけでBigQueryのデータを使って誰でも簡単に予測可能できるようにしている

データロード

レイテンシーを意識し、BigQueryなどで加工したデータはDatastoreへ保存

Memcacheの更新について

Dataflow -> NDB使えない、毎度flushで初期化

データ表示

十数行のコードでデータ加工したデータがユーザーに届くようにAPIを設計
App Engine +Datastore + Memcache + BigQuery

RedShiftとBigQueryをどのように使い分けているか

基本は慣れているRedShift。BigQueryクエリ投げ放題プランで気軽に使えるので、BQも使っている。

「データアナリティクスの新たないっぽとそれを支えるインフラ」PLAID牧野祐己氏

PLAID (プレイド)牧野祐己氏
主にリアルタイム解析システムの開発

データ分析のステップ

「処理」
古典統計
ベイズ統計 & Machine Learning ☆ここがHOT 非線形モデル、ディープなやつ。人の解釈が必ずしも必要とされない
「理解」
理解
モデルの作成 -> Science
「意思決定」

課題より現実的な意思決定、創造につなげようとすると元お動的で複雑なモデルが必要

→ 結構難しい

→ 人を挟んで、意思決定や想像をさせる
その結果に基づく学びを取り入れる、制御や強化学習的なスタンス
意思決定も取り組んだアナリティクス が有効と考え、これができるシステムを作っている。

それに必要なこと

感じさせる

意思決定につながる可視化(!= data visualization) 類推 自然な理解
多様なデータをまとめる
すぐに意思決定、創造

→ 具体的にはWeb接客、KARTEというサービスを提供。
リアルタイムにWebサイト嬢のアクションが行えるプラットフォーム

大量データの代表的な処理方法

「バッチ処理」
最短数秒で大量のデータを処理
BigQuery, Presto, Spark, Hadoop
「ストリーミング処理」
秒以内で短時間のウィンドウのデータを処理
Spark Streaming, Storm

秒以内に全データの解析処理結果が欲しい

→ 作った。ただし、解析軸は決定

なぜGCPなのか

コストパフォーマンスが良い

Bigtableのポイント

主にリアルタイム分析

BigQueryのポイント

ニアリアルタイムのユーザー軸以上の解析にしよう
Streaming Insertがバッファリングなど考えないで良いので非常に便利
中間レイヤが少なくて済む
データ連携が用意

おわりに

GCPで何の問題が解決できるのか、短時間で理解が深まり有意義でした。
次回は 2018年2月に開催予定となっていて、次回も楽しみです。

第 2 回 Google Cloud INSIDE Games & Apps 開催のお知らせ

全コース1200円!オンライン学習Udemyがブラックフライデーセールを実施中!

Pocket

世界最大級のオンライン学習プラットフォームのUdemy
(ユーデミー)が、ブラックフライーデーセールを実施中です!
なんと、全コース1,200円(一部除く)となる大規模なセールとなっています。
Udemyで行われる最大級のセールなので、学習したいことがある方は一度チェックすることをおすすめします!

限定セール期間:2017年11月16日(木)17:00〜29日(水)17:00

米国シリコンバレー発祥のUdemyは、学びたい人と教えたい人をつなぐCtoCの学習マーケットプレイスです。

Udemyは、一度コンテンツを購入すると、半永久的に学習ができる仕組みなので、安く買えるときにまとめ買いして、徐々に消化していくのがおすすめですよ!

専門書を買うと、数千円する内容が動画で学習できて1,200円とは、書籍を買うより安いなんて、革命が起こったとしか言いようがありません!

プログラミングの講座が充実しています。

プログラミング入門講座

私も、Udemyで講師として、初心者向けプログラミングコースを公開しているので、よかったらぜひチェックしてみてください!

Linuxサーバー構築運用入門 (CentOS7, PHP7, Apache, MySQL, WordPress対応)

Linux操作を基礎から学習. さくらのVPSを設定して独自ドメインのhttps対応オリジナルブログをWordPressを使って公開できるコース!最新CentOS7, Apache2.4, MySQL5.7, PHP7使用. 初心者向け講座.

はじめてのJavaScriptプログラミング入門講座

JSを基礎から学習してUI/UXに優れた動的なWebアプリ開発ができる初心者向けコース!jQueryを使わないJavaScriptのコーディングが学習できます。

Ruby on Rails 5入門 -Rubyプログラミングの基礎から学べる-

人気のWebアプリケーションフレームワーク Ruby on Railsの基礎を短時間で習得できます!

講師目線でピックアップしたコースをご紹介

せっかくの大型セールですし、私もUdemy講師としてプラットフォームを盛り上げて行きたいので、講師をやっている立場から見ておすすめ出来るコースを紹介いたします!

みんなのディープラーニング講座 ゼロからChainerとPythonで学ぶ深層学習の基礎

初心者向けディープラーニングのコース。ニューラルネットワーク用ライブラリChainerとプログラミング言語Pythonを使って、深層学習の基礎を習得できる

【キカガク流】人工知能・機械学習 脱ブラックボックス講座 – 初級編 –

機械学習の参考書を「閉じてしまった人」への再入門に最適な講座です。

【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門

分析コンテストに参加しながら回帰分析による売上予測、機械学習での顧客ターゲティングなど実践的なビジネス課題でデータ分析の一連の流れが身につくコース。

【R言語でらくらく解析】ビジネスマンのためのデータ分析入門

データ分析ツール「R」を使って、ビジネスデータの分析ができるようになりましょう。データサイエンスに興味のあるかた、大量のデータを快適に分析したいかたにおすすめの入門講座です。

最短で学ぶReactとReduxの基礎から実践まで

近年急速にJavaScript開発のスタンダードとなりつつあるReact.jsとReduxをゼロからコードを書きながら学べるコース

ブラックフライデーセールとは?

ブラックフライデーは日本ではあまりなじみがないのですが、アメリカを中心に行われる、11月の第4金曜日に行われる大規模なセールのことです。

この日は正式の休暇日ではないが、休暇になることが多いそうですよ。

おわりに

ぜひUdemyのブラックフライデーセールでプログラミング講座などを購入して、お得にスキルアップしましょう!!

 0から始める「ユーデミー」

AIセミナー「90分でわかる! 教えてカナコさん! AIってなあに?」学習レポート

Pocket

AI入門セミナー「90分でわかる! 教えてカナコさん! AIってなあに?」が、とても分かりやすかったのでまとめました。

講師は、大西加奈子氏
専門は対話システム。
開催日は2017/11/15

難しいことを、簡単に話すには深い理解が無いと難しいので、カナコさんは相当なスキルの持ち主だなと感じました!

アジェンダ

  • そもそもAIとはなにか
  • AIとビジネス
  • AIで将来はどうなるのか

テーマ1 そもそもAIとはなにか

Q1. どこまでがAI?

AI, 機械学習、ディープラーニングの関係は?
最近AIとよばれる、機械学習が用いられていることが多い
人工知能 > 機械学習 > ディープラーニング

「AI」 という言葉はフィクション小説に出てくる言葉みたいなモノ.研究の現場では使われない。
「機械学習」「ディープラーニング」は現実に存在する技術

AIで○○、は言ったモノ勝ちのようになっている。売り言葉のようなものになっている。

機械学習って?

人間がルールを与えるのでは無く、AI自身が与えられたデータからルールを作り出す。

具体例:パンに合う飲み物を教えてくれるAIを機械学習でつくってみましょう。
データを元に考えてデータには無い組み合わせにも答えてくれる。これが機械学習。

ディープラーニング

ディープラーニングの利用は、適材適所。必ずしも優れていると言うことでは無いが、良い成果を出すことが多い。

これまでの機械学習とディープラーニングの違い

「これまでの機械学習」

予め人間が、データの特注を与える必要がある※職人技が必要。
例)メールのスパム判定
品詞の情報を使った方が良い佐宗だ
助詞は学習に影響しないように、削除しておいた負が良さそうだ

「ディープラーニング」

予め特徴を与える必要がない。簡単なのに精度が高い。
データを投げ込むだけなので、とっつきやすい。
職人技を磨いて来た人に勝てるケースもあり、業界に衝撃が走った。
一体どうしてこの結果になったか分からないので、理由が分かる必要がある課題の場合には厳しい。

Q2 AIスピーカーやチャットボットおなど自動返答するモノは全部AIなのか?

チャットボット:今、質問したら返答が帰ってくるコンピュータのことを指す。広い意味で使われてる。
AIと言っても間違いでは無い。
ただし、ルールを全てプログラミングしたものに、AIを使っているという人は居ないはず。

チャットボットにはどんな種類があるのか

タスク指向:

何か目的を達成するために対話する
例)
天気が知りたい
メールが書きたい
あるものを買いたい
しりとりをしたい

非タスク指向:

ただ話をするだけ。雑談
例)
独り言を言う
話を聞いて欲しい

今、チャットボット導入が簡単で見た目的にも分かりやすいので、おすすめ。
タスク指向 + 非タスク指向 の組み合わせが多い。
ただし、タスク指向に重きを置いたものが多い。
タスク指向の方が商用にも耐えられる。

チャットボット事例

NTTドコモ 自然対話エンジン
IBM Watson
Microsoft “りんな”の技術
Nextreer minarai
アドバンストメディア AmiAgent

音声用の対話システムとテキスト用の対話システムは別物なんでしょ?

⇒よくある誤解。音で入力しても、一旦テキストに変換されている。

チャットボットのレベル感

項目 概要 対話自由度 発話リスク
質問応答 質問応答に特化したシステム
シナリオ対応 人が書いたシナリオに沿って対話する
自由対話 (必ず答える) 選択型 人力(手動) 改め人でで作成した複数の応答文から、自動で1つを選択して応答
選択型 統計(自動) Webなどから大量にデータを集め生成した応答文から、自動で1つを選択して応答
生成型  予め応答分を保有せず、都度生成  高  高

 

注意!

統計(自動)と生成型 は難しい。
現状、あまり使われていない。チャレンジしている会社もあるが、時々炎上している。
やりたい事とリスクを鑑みて決める。

補足

発話リスク:コンピュータがやばいことを言うリスク。もはや何を言うか分からない。
コンピュータに倫理を教えることができない。

シナリオ対応:揺らぎ吸収に機械学習が使われていて、自由度高い。

まとめ

AIの定義は人による
機械学習の凄いところは、人間がルールをああてるのではなくAI自身が与えられたデータからルールを作り出す。
チャットボットにいろいろな技術があるが、高度な技術を使えば良いというモノではない。

テーマ2 AIとビジネス

Q3 AIを活用して業務を行うのに必要とされる人材・スキルとは?

必要な力

解きたい課題をAIで解ける課題に落とし込む力。

具体的には?

何が出来るか?

AIが得意なことに課題を落とし込めるか
AIが得意なことは限られている

どこまでできるか?

AIはどの程度まで精度を担保できるか
AIに100%の精度を求めるか
細かい数学などは、分からなくても使える。

具体例

作業内容

歌にカラオケの映像を付ける
シチュエーション毎に動画が準備されており、それを可視に交わせて組み合わせる

人が行った場合の課題

動画の選定に時間が掛かる

目的

自動化して、作業時間を80%カット
ただし、人が行ったように精度が高い

・「分類」という問題に落とし込める(AIが最も得意)
・「可視を動画に分類する」という問題

※多くの問題は分類することで解ける!!

Q4 AIに使うのにどれくらいのお金が掛かりますか?

前提として、やりたいことによって、大きく変わる。

AI導入コスト 2種類

データを集めるコスト
機械学習されるマシンを購入するコスト

※ これからは、機械学習する上でデータがどれだけあるかが重要

Q5. AIを導入したいのですが、自社でどこまでやるべきなのかどこから外注すべきなのかを教えて下さい。

解きたい課題をAIで解ける課題に落とし込むところまでして、
早い段階で、外注しても良い。

まとめ

AI導入に必要な人材・スキルは「課題をAIで溶けるように落とし込むちから」
AI導入のコストのほとんどは「データを集めるコスト」

テーマ3. AIで社会はどうなるか?

Q6. AIのとって変わられる職種とそうで無い職種

AIの台頭で完全になくなる仕事は無い。
ただし、AIと人の棲み分けが行われる。
統計的な情報や経験に基づいて行う仕事は、AIによって仕事の形が大きく変化する可能性がある。

ドラえもんの登場は、研究段階でも見えていない。

例) 医師
様々な患者の症状を見て、どの病状かを推測する

AIが得意な分野

Q7 2045年問題。AIは人間の知能を超えると思いますか?

もう少し具体的にならないと、わからない。
人間の知能という概念は無い。比較対象が無い。
ものによっては、超える。ものによっては超えない。

Q8 AIがプログラミングを無視して暴走する可能性はないのか。

所詮はプログラムなので可能性は無い。

Q9. AIについて学ぶためにおすすめの本や映画は

書籍

映画

もし、会話ができるOSがあったらという話
チャットボットに恋をする。それは、恋なのか。

アラン・チューリング。
史実に基づいている。

まとめ

AIの台頭で完全になくなる仕事は無いが、仕事の”形”は変わる
SF映画のような出来事は当分起こらない
対話に関しては、まだブレイクスルーが足りていない。

おわりに

IT Searchで連載もやっているので、更新が楽しみですね。
専門家が話すと、夢のあるAIのイメージが崩れはしますが、私たちエンジニアはいわゆるAIで出来る事出来ないことを把握して、ビジネスに活かしていきたいと思いました。

関連リンク

90分でわかる! 教えてカナコさん! AIってなあに?| IT Search+