PyConJP 2015に参加した #pyconjp
はじめてPyConJPに参加してきました。
スライドまとめは以下が詳しいです。techstars.jp
最近、会社ではJupyter notebookの伝道師として振る舞っており1 、その結果として空前のpandasブームを巻き起こしました。 データ分析/機械学習といえばPythonだよね、というのは1年以上も前からわかっていたのですが、pandas-tdを契機に使い始めてからかなり傾倒しています。2
そんなpandas周りの話やデータ分析の他社事例が聞ければと思って参加したPyConですが、想像していた以上に参加者のdiversityを感じました。 海外からのスピーカーや参加者も多く、Ruby Kaigiのような国際カンファレンスに近いなという印象を受けました。 また、スタッフや登壇者含め会場の女性の割合が高いため、PyLadiesの効果が出ているんだろうなーという印象を受けました。もしかしたら、RailsGirlsよりもPyLadiesの方が範囲が広いからコミュニティとして長く続いていくのだろうか、とも思いました。
さて、参加して聞いた発表の中でも特に面白かったものを抜粋しようと思います。
pandasによるデータ加工時の注意点やライブラリの話
pandasによるデータ加工時の注意点やライブラリの話 from Masashi Shibata www.slideshare.net
pandasのDataFrameは便利だけど中のデータが保証されないから辛かったので、panads-validator作ったよというc-bataさんの話。 JSON schemaっぽいなと思いました。
Daskの話とpandas internal
speakerdeck.com speakerdeck.compandasとDaskのコミッターであるsinhrksさんの発表。 pandasはSciPyの10倍以上のCythonの塊であるとかCategorical Value3 を使ったほうが速くなるよとか、pandasの速度出すためのtipsや背景がしれたのは良かったです。また、データ量が増えてきたらDaskのDataFrameを使うと並列処理できるよ、というのも知っていたけどマイクロベンチとともに提示されると使って見たい気持ちが高まりました。
この2つの発表だけで元が取れた感じがしました。
Pythonで作って学ぶ形態素解析
Pyconjp2015 - Python で作って学ぶ形態素解析 from Tomoko Uchida www.slideshare.net
IPADICを使って、pure pythonで実装されたMeCab互換の形態素解析器janomeについて、作者のmoco_betaさんが丁寧に解説してくれました。特にFSTの話はなるほど、図解が分かりやすく良かったです。ただ、いつもフォントサイズが小さいのはなんでだろう…。
なお、janomeの話聞いて帰ってからテンションが上がったので一人sprintしてTinySegmenter.jlを作ってしまいました。
アドネットワークのデータ解析を支える技術
アドネットワークのデータ解析チームを支える技術 from hagino 3000 www.slideshare.net
Voyage groupでこの夏MLSSにも参加された hagino3000さんのデータ解析チームの話。
特に、14ページ目の広告の広告主、メディア、オーディエンス、Voyage groupのプレーヤーに応じた4つの取り組むべき問題が分かりやすかったので引用します。
アドネットワークのデータ解析チームを支える技術 from hagino 3000
また、BigQuery版のpandas-tdであるpandas.io.gbqの存在が分かったのも収穫でした。VoyageさんでもJupyter notebookをリポジトリで管理して情報を共有しているとのことなので、自分の選択は間違っていなかったなという気持ちです。
雑感
はじめていったPyConJPですが、600人近くの規模を少ないスタッフで取りまとめてくださっているのは感服しました。また、参加者・発表者の diversity が高かったのも良かったです。
また、普段Pythonを使わない人としてはaodagさんのPackaging最前線はありがたかったです。結構Webのドキュメントはバージョンばらばらで何をやればいいんだっけ、とかWheelなんで嬉しいの?とかわかっていなかったので、初心者には助かりました。
全般的にもう少し事例紹介よりもコアな技術的な話が増えるといいなぁという気もしていたのは、メインがPythonのユーザーじゃないからなのかな。