先日、社内勉強会でScala的なプログラムにするためには、という話題が出たのでそのまとめです。
例題
勉強会で出たプログラム例をまとめて例題を作りました。
- テキストファイル内の欧文単語を単語の長さで以下の三種類に分類してオブジェクトに設定する
- 短 : 3文字以下
- 中 : 7文字以下
- 長 : 8文字以上
以下ではこの例題にそって説明していきます。
準備
分類した単語を設定するオブジェクトとしてcase classのWordsを中心としたクラスとコンパニオンオブジェクトを用意しました。
例題はテキストファイルを解析して、case class Wordsに解析結果を設定する処理になります。
package sample case class Words( smalls: Vector[String], middles: Vector[String], larges: Vector[String] ) { def +(word: String): Words = { if (word.length <= 3) copy(smalls = smalls :+ word) else if (word.length > 7) copy(larges = larges :+ word) else copy(middles = middles :+ word) } def +(words: Words): Words = { copy( smalls ++ words.smalls, middles ++ words.middles, larges ++ words.larges ) } def ++(words: Seq[String]): Words = { words.foldLeft(this)(_ + _) } override def toString() = s"small:${smalls.length}, middle:${middles.length}, large:${larges.length}" } object Words { val empty = Words(Vector.empty, Vector.empty, Vector.empty) def apply(word: String): Words = empty + word def apply(words: Seq[String]): Words = empty ++ words def getTokens(s: String): Vector[String] = s.split(" ").filter(_.nonEmpty).toVector }
Java風プログラム
JavaもJava 8でストリームAPIが追加されましたし、Functional Javaのようなアプローチも色々あるので、モダンJavaは事情が異なりますが、古くからJavaを使っているベテランプログラマ程Java 5〜7時代のプログラミング・スタイルがスタンダードだと思います。
この古めのJavaスタンダード的なプログラムをここではJava風プログラムと呼ぶことにします。
それではJava風プログラムです。
def calcWords(filename: String): Words = { val buf = new ArrayBuffer[String] // ArrayBuffer中心ロジック val in = new BufferedReader(new InputStreamReader(new FileInputStream(filename), "UTF-8")) try { var s = in.readLine while (s != null) { buf ++= getTokens(s) s = in.readLine } } finally { in.close() // リソースの解放が手動 } val smalls = new ArrayBuffer[String] val middles = new ArrayBuffer[String] val larges = new ArrayBuffer[String] for (x <- buf) { // アルゴリズムの配置がトランザクションスクリプト的 if (x.length <= 3) smalls += x else if (x.length > 7) larges += x else middles += x } Words(smalls.toVector, middles.toVector, larges.toVector) }
ボクもJavaからScalaに移行した当初はこのようなプログラムを書いていました。
ポイントは以下の3つです。
- ArrayBuffer中心ロジック
- リソースの解放が手動
- アルゴリズムの配置がトランザクションスクリプト的
問題 : ArrayBuffer中心ロジック
Javaプログラムでは、データの集まりを作成する処理はjava.util.ArrayListとfor文などのループを組み合わせるのが定番です。
JavaからScalaに移行したての時期は、Scalaプログラムでもこの作戦を踏襲して上記のようなプログラムを書くことが多いと思います。java.util.ArrayListの代わりにscala.collection.mutable.ArrayBufferを使います。
Better Javaという意味では問題はないのですが、よりScala的、関数型プログラミング的にステップアップしたい場合には、この作戦を捨てる必要があります。
関数型プログラミングでは不変オブジェクトを使って副作用なしで処理を行うことが基本です。つまり、可変オブジェクトであるscala.collection.mutable.ArrayBufferを使った瞬間にこの基本が崩れてしまうため、関数型プログラミング的ではなくなるわけです。
問題 : リソースの解放が手動
Javaではローンパターン的なDSLを用意することが難しいため、リソースの解放がtry文を使った手動になってしまう事が多いと思います。
Scalaではリソース解放の処理を自動的に行なってくれるDSLが多数用意されているのでできるだけそれらの機能を使うようにするのが得策です。
問題 : アルゴリズムの配置がトランザクションスクリプト的
ArrayBufferを使うことでできる限り性能劣化を避けるという方針の悪い側面として、アルゴリズムの部品化を阻害するという問題があります。
たとえばArrayBufferを使ったアルゴリズムの一部を性能劣化を起こさず部品化する場合、ArrayBufferを持ちまわすようなインタフェースとなり、インタフェースが複雑化します。
また、ArrayBufferを意識した部品の場合、ArrayBuffer以外のデータ構築用のオブジェクトには適用できないので、データ構築用のオブジェクト毎に部品を用意する必要が出てくるという問題もあります。
インタフェースが複雑化した部品は結局使われないようになりがちなので、結果としてアプリケーション・ロジック内によく似たアルゴリズム断片がベタ書きされるようなケースが多くなります。
めぐりめぐって部品化が進まずプログラム開発の効率化が阻害されるという悪循環に入ることになります。
この問題への対応策は前述したように「多少の性能問題には目をつぶる」覚悟をした上で、不変オブジェクトを使った関数型プログラミングに移行することです。
性能問題対策
ArrayBufferを多用するアルゴリズムを採用する意図としては性能問題があります。
上級者ほど性能問題を重要視しているので、関数型的な不変オブジェクト中心のアルゴリズムには本能的な拒否反応があると思います。
この問題への対応ですが「多少の性能問題には目をつぶる」につきます。
Java的な感覚でいうと、そもそもScalaの生成するコードはかなりオーバーヘッドが高いのでArrayBufferを採用して部分的に性能を上げても他の所でもオーバーヘッドが出るため、結局Javaと全く同じものにはなりません。
それであれば中途半端に性能改善するよりScalaのパワーを活かした開発効率を重視する戦略を採るのが得策です。
余談 : ListBuffer
java.util.ArrayListに対応するScala側のコレクションとして、「List」つながりでscala.collection.mutable.ListBufferを選んでしまうケースがあるかもしれません。
scala.collection.mutable.ListBufferはscala.collection.mutable.ArrayBufferと比べると性能的にかなり不利なので、余程のことがなければ採用することはありません。
そもそもArrayBufferは使わないようにしようという議論ですが、仮にjava.util.ArrayList相当のコレクションが必要になった場合はListBufferではなくArrayBufferを使うようにしましょう。
Scala的プログラム
前述のJava風プログラムの改良版としてScala的プログラムを4つ用意しました。
基本形
まず基本形です。
def calcWords(filename: String): Words = { var strings = Vector.empty[String] for (in <- resource.managed(new BufferedReader(new InputStreamReader(new FileInputStream(filename), "UTF-8")))) { var s = in.readLine while (s != null) { strings = strings ++ getTokens(s) s = in.readLine } } strings.foldLeft(Words.empty)(_ + _) }
対策 : ArrayBuffer中心ロジック
ArrayBufferを使わず不変オブジェクトであるVectorを使うようにしています。
Vectorは不変オブジェクトですがvarと複写を併用することでアルゴリズム内では内容を更新しながら処理を進める効果を得ています。
var strings = Vector.empty[String] ... strings = strings ++ getTokens(s)
varとVectorのこのような使い方は定番のイディオムです。
対策 : リソースの解放が手動
ファイルアクセスを伝統的なjava.ioを使って行う場合は、ストリームの解放処理が問題となります。
このような処理を記述する時によく利用するのがScala ARMです。
Scala ARMの使い方の一つとして上記のプログラムのようにfor式とresource.managedを組み合わせる方式があります。
resource.managedの引数にリソースのライフサイクルを管理したいオブジェクトを設定すると、for式の終了時に自動的にリソースを解放してくれます。
対策 : アルゴリズムの配置がトランザクションスクリプト的
単語の振り分けアルゴリズムの呼出しは以下の場所で行っています。
strings.foldLeft(Words.empty)(_ + _)
振り分けアルゴリズムはcase class Words内で定義した部品(メソッド)を、非常に簡単にcalcWords関数から呼び出して使用できており、トランザクションスクリプト的な問題は解消しています。
アルゴリズム部品の利用に貢献しているのが畳込み処理を抽象化した関数であるfoldLeftコンビネータです。ArrayBufferとfor式を使って記述しているアルゴリズムの多くはfoldLeftまたはfoldRightコンビネータで記述することができます。
VectorとはfoldLeftが相性がよいので、ArrayBufferとfor式を使いたくなったらVectorとfoldLeftの組合せの解を考えてみるのがよいでしょう。
大規模データ問題
上述のScala基本形ですが、Java風版から引き継いだ本質的な問題点として大規模データに対応できないという問題があります。
というのは、ArrayBufferに一度全データを格納するため、データ量がメモリに載らない程大規模になった場合にプログラムがクラッシュしてしまうからです。
ArrayBufferを使わずデータ読み込みのwhile式の中にすべての処理を押し込めばこの問題には対応できますが、部品化とは真逆の一枚岩の見通しの悪いアルゴリズムになってしまいます。
大規模データ問題は後述のパイプライン・プログラミングやMonadicプログラミングで解決することができます。
余談 : Iteratorパターンの本質
forロープで記述したアルゴリズムをより関数的なやり方で記述する方法について参考になるのが以下のページです。
foldLeft/foldRightで記述しきれない複雑なforループもApplicativeとTraverseという機能を使って部品化を進めながら記述できるということのようです。より本格的な関数型プログラミングを追求する場合は、こちらの方面に進むことになります。
Try
関数型プログラミングでは、関数の実行結果は関数のシグネチャに完全に記述されていることが基本です。このため、暗黙的に関数の制御フローを乱す「例外」は関数型プログラミング的には好ましくない言語機能です。
とはいえ実用的には非常に便利なのでScalaプログラムでも日常的に使用するのは問題ないと思いますが、関数ワールド的なプログラムを書きたい場合はscala.util.Tryモナドを使うのが基本です。
Tryモナドを使った版は以下になります。
def calcWords(filename: String): Try[Words] = Try { var strings = Vector.empty[String] for (in <- resource.managed(new BufferedReader(new InputStreamReader(new FileInputStream(filename), "UTF-8")))) { var s = in.readLine while (s != null) { strings = strings ++ getTokens(s) s = in.readLine } } strings.foldLeft(Words.empty)(_ + _) }
関数の処理全体をTryで囲むだけなので簡単ですね。
scalax.io
基本形ではリソース解放の汎用的な解としてScala ARMを紹介する目的でjava.ioによるファイルアクセスを行いましたが、Scala的にはファイルアクセスにはscalax.ioを使うのがお勧めです。
scalax.ioを使った版は以下になります。
import scalax.io.{Resource, Codec} def calcWords(filename: String): Words = { implicit val codec = Codec.UTF8 Resource.fromFile(filename).lines(). map(getTokens). foldLeft(Words.empty)(_ ++ _) }
対策 : リソースの解放が手動
ファイルからの入力処理はリソースの解放も含めてResource.fromFile関数が全て行ってくれます。
対策 : ArrayBuffer中心ロジック&アルゴリズムの配置がトランザクションスクリプト的
関数型プログラミングの常道であるパイプライン・プログラミングの一環としてmapコンビネータとfoldLeftコンビネータを使って処理を記述します。
この方式を取ることで自然に「ArrayBuffer中心ロジック」が解消されます。また、アルゴリズムの部品かも進むので「アルゴリズムの配置がトランザクションスクリプト的」も解消されます。
対策 : 大規模データ
scalax.ioの方式では、Scala基本形に残っていた「大規模データ問題」も解消されています。「大規模データ問題」を解消しつつ部品化も行えているのがパイプライン・プログラミングの効用です。
scalaz-stream
Scalaらしさを越えて、Monadicプログラミングを追求したい場合はscalaz-streamを使うとよいでしょう。
まず準備としてWordsをMonoidとして定義しておきます。
implicit object WordsMonoid extends Monoid[Words] { def append(lhs: Words, rhs: => Words) = lhs + rhs def zero = Words.empty }
その上でscalaz-streamを使った版は以下になります。
import scalaz.concurrent.Task def calcWords(filename: String): Task[Words] = { implicit val codec = Codec.UTF8 io.linesR(filename). map(getTokens). runFoldMap(Words(_)) }
scalax.io版とほぼ同じような処理になります。
Processモナドを使っているので本来は高度なフロー制御ができるのですが、この例のような単純なデータ読込みだとフロー制御を使う場所はないのでscalax.ioとの違いはでてきません。
scalax.io版との違いは、結果がTaskモナドで返される点です。
TaskモナドはScalaのTryモナドとFutureモナドを合わせたような機能を持つモナドです。前出の「Try」版ではTryモナドで結果を返しましたが、同じような用途と理解すればよいと思います。
まとめ
Java風プログラムのScala的でない点を指摘した上で、Scala的プログラムの解を4つ上げました。
それぞれ長短があるので適材適所で使い分けることになります。
なお、今回はScala ARMを紹介する都合上java.ioによるファイルアクセスも使用していますが、実務的には例題のようなテキストファイル処理はscalax.ioを使うのが効率的です。scalax.ioを基本線に考え、機能不足が判明した場合に、java.io(またはjava.nio)やscalaz-streamを使う方式を検討するのがよいでしょう。