unite関数は、データフレームの列を結合するための関数で、複数の列を結合して新しい列を作成することができます。 unite関数は、以下のような構文を持ちます。 unite(data, col, ..., sep = "_", remove = TRUE) data : データフレーム col : 新しい列名 ..…
pandas.DataFrameに対してSQLのcase whenと同じことをして、新しい列を作る方法がはいくつかあるようなので、まとめておく。 元データ import pandas as pd import numpy as np df=pd.DataFrame({'fruit':['Strawberry','Apple', 'Peach', 'Banana', 'grapes…
下記のようなディレクトリ構成になっているときに、いい感じにファイル名のyyyy-MMを順番に取得して、処理をしたいときはpd.period_range()が便利です。 GA_log ├── 2017-01.parquet ├── 2017-02.parquet ├── 2017-03.parquet ├── 2017-04.parquet ├── 2017-…
pandas.date_range()とは pandas.date_range()は、pandasライブラリの関数で、datetime型のindexを作成するために使用されます。戻り値はDatetimeIndexオブジェクトであり、生成された日付がインデックスとして格納されます。この関数は、start引数とend引数…
こういったtweetなんかもあって、沖縄と東京どっちあが暑いんだ?と思うようになり、実際どうなのか気象庁のデータを使ってみて沖縄と東京のどちらが暑いのかを何となく確認します。 対象データ 期間:2000年から2021年までの8月 元データ:気象庁 Japan Met…
date型のベクトルをfor文で繰り返し処理をするときに工夫が必要だったのでその対応方法をまとめました。 理由はわからないが、date型のベクトルから要素をfor文で取得するとnumeric型で取得してしまうらしいです。対応方法として思いついたのはseq_along()を…
Rでfor文を使って処理した結果を新しいベクトルに追加するのに躓いたので書き留めておきます。わかりやすくするためにいろいろ寄り道するように書いてあります。 今回はfor文を使ってvctという変数に対して各要素に2倍した値を新しいベクトルに追加してみた…
NPBの年間観客動員数は2013年から増加しているらしい*1。もう少し細かいデータを見てみたいなと思ったのでスクレイピングでNPBの年間観客動員数をRを使って取得して、前処理までしたので記事にしてみました。 今回スクレイピング対象のページはこちらです。 …
matplotlibでグラフを作成するときに、目盛りの数字を3桁カンマ区切りにする方法をざっと探したけどあまりピンとくるものがなかったので書き留めたいと思います。 個人のブログですので内容に誤りがある場合があります。きちんとした情報が必要なときはきち…
アプリとかゲーム業界とかでよくあるらしいFQの集計方法のサンプルを書きます。 FQについてはこちらの記事がわかりやすいと思います。 連続性は今回は無視したFQになります。 データ作成 DROP TABLE IF EXISTS training.access_log; CREATE SCHEMA IF NOT EX…
下記の「『継続して○○した日数』とその最大値をSQLで求める」というのをローカルのPostgresで試してみたのですがいろいろとうまくいかなかったので、試行錯誤してPostgres版を作成しました。 tech.tvisioninsights.co.jp ちなみにただの感想ですが、これ考え…
pandas 強力なPythonデータ分析ツールキット pip install pandas import pandas as pd できることが多すぎるので例は省略します。 pypi.org matplotlib グラフ作成に使う import matplotlib.pyplot as plt import random normalvariate = [random.normalvari…
グループごとに個数・平均値・中央値など複数の集計を出したいときにdf.groupby().agg()を使うと便利ですよ。 これは個人のブログなので間違いがあるかもしれませんので、正しい情報が欲しい人は公式ドキュメントを読んでください。 サンプルコード import p…
毎回決定木を試みるときにどうやって書くのかさっぱり忘れていて、いちから探しているので、とりあえず自分のためにメモを書いておこうと思います。 完全にメモですので、間違いなどがあると思います。参考程度にして、ご自身で実装される際はきちんと公式ド…
個人的なブログですので、内容に誤りがある場合があります。間違いのない情報が欲しい場合は公式ドキュメントを読んでください。優しい方は間違いを指摘していただけると嬉しいです。 つい先日まで、tweepyでツイートのテキスト情報を取得するときはなぜか日…
※ 個人的なメモですので、間違いがいあるかもしれません。 推定量とは サンプルから得た統計量をもとに、母集団のパラメータを推定するとき、サンプルの統計量のこと 一致推定量 サンプルサイズが大きくなると、推定量がだんだんと真のパラメータに近づく 不…
PILを今まで使ったことがなく、備忘録のために記録していきます。 あくまでも自分の備忘録です。 コピペの部分が多くまだ使いかたが良くわからないので、間違いなどあれば教えていただけると嬉しいです。 PILはOpenCVのように複雑な処理(この辺りはよくわか…
tweepyを使うことで、自分をブロックしているユーザーの一覧が取得できるようです。 コード import tweepy consumer_key = '***' consumer_secret = ' *** ' access_key = ' *** ' access_secret = ' *** ' auth = tweepy.OAuthHandler(consumer_key, consum…
プロ野球選手のデモグラ情報取得するためのpython 書きましたー
因子分析 ・測定変数の相関行列を求める 相関行列を求める理由は、因子数を決定することを目的としている? 今のところこれは何のために求めて、何に利用されるのかは不明 積率相関係数を使うのではなく、順序尺度として四分位相関係数などを用いると良いら…
R ・積み上げグラフ データを行列にする必要があるので「matrix」を用いる 下記の場合。18行1列となる(らしい) > PTS = t$PTS> PTS [1] 5078 5072 4942 4857 4766 4754 4753 4683 4644 4522 4495 4494[13] 4418 4416 4370 4328 4276 4253 > dm=matrix(PTS,…
単語 ・環境変数 https://wa3.i-3-i.info/word11027.html OS)が提供するデータ共有機能の一つ。 Windows7/8/10→アイコン表示→コントロールパネル→システム→システムの詳細設定環境変数 ・変数 https://wa3.i-3-i.info/word11027.html プログラミング言語にお…