PyCon JP 2日目の感想。
キーノート
pandasとDaskコミッターによるキーノート。pandasは汚いデータを分析できる形に落とすのが得意。コミット時はデータの後方互換性、速度低下ないよう気をつけて いる。ブログを書くのもOSSコントリビュート。pandasでは機能別の有識者一覧がある。
コミッターの得意分野をちゃんとSpecialitiesとして可視化するのは他のOSSでも転用できそう。Railsでも似たようなものあるんだろうか。
Pythonで実現する4コマ漫画の分析・評論 2017
Pythonで4コマ漫画を分析する話。Google OCRではゴミが多いのでルールベースで補正。dlibでアノテーションし人物検出したが精度が出なかった。簡単なCNNも試したが過学習してしまった。
オープンスペースで聞いた感じだと手元のノートPCで1から学習させているようなので、ファインチューニングすればもっと改善できる気がする。無料の範囲でさっと試すならAzureのCustom Vision Service?
経験上、同じネットワーク構造でもGPU使うと速度だけでなく精度や収束も改善するので課金も大事だと思う。
Geospatial data analysis and visualization in Python
Pythonの各種ライブラリを使って食べログデータを可視化する話。geopandas, folium, OSMnx等を仕様。時系列でのレビューの変遷を見ている。
レストランやコンビニの立地の候補選定に今すぐ使えそう。シェア自転車の置き場とかでもいいかもしれない。
機械学習におけるデータの再現性について
機械学習で並列に研究開発しているとデータの取得が自動化されておらずヒューマンエラーがおきやすい。データそのものはクラウドにおいて、持ってくる部分はakagiを使うと簡単にできる
SELECK見ているとゲーム系の会社はShotgunの採用が増えている。ゲーム系のアセットはファイル容量重いので、そこらへんの管理ツールうまく機械学習に流用できると楽か。
ディープニューラルネット確率的プログラミングライブラリEdward
たくさん参考文献紹介されていたので後で読む。Pyconは引退とおっしゃられていたのが残念。また聞きたい。
Pythonにおけるデバッグ手法
Pythonで使えるデバッガの紹介。pdb, ipdb bptb, pudb等とにかくたくさん。
こんなにあるのか。まずはipdb入れました。
SREエンジニアがJupyter+BigQueryでデータ分析基盤をDev&Opsする話
大きな会社でデータ分析基盤を整える話。ModelとViewをの構造を統一してデータの整合性を整えた他、Jupyter NotebookとBigQueryでパイプラインを構築している。
地道な作業の連続でExcelの数字あわせるのが辛そうだった。小さな会社がスケールした時にこうならないようにするのには何が一番きくんだろう。Excel禁止?