2016年8月31日水曜日

クラウド・アプリケーション・モデリング

製品開発を通じて色々と経験を積むことができたので、一度腰を落としてクラウドアプリケーション開発向けの開発手法について考えてみることにしました。何回かに分けて考察していきたいと思います。

考察する開発手法は以下の2つの機能で構成されています。

  • 開発プロセス
  • モデル体系(メタモデル)

今回は開発プロセスの全体像についてまとめます。

クラウドアプリケーションは、スクラッチで開発するケースもあると思いますが、主流はクラウドアプリケーション向けのプラットフォーム上で必要な機能のみを開発することになるのではないかと推測しています。

この場合、クラウドアプリケーションの開発手法はクラウドアプリケーションのプラットフォーム上での開発を前提としたものが重要になってきます。

本稿ではこの前提の上で、クラウドアプリケーションのプラットフォーム上でのクラウドアプリケーション開発向けの開発手法をテーマにします。

アプリケーション開発の基盤となるクラウドプラットフォームをApplication Cloud Platform(以下ACP)と呼ぶことにします。

背景

クラウドアプリケーションは以下のような既存のアプリケーションの複合体と考えることができます。

  • a) 消費者向けUX指向のBtoCアプリケーション
  • b) 基幹システムや外部システムとの連携を行うInB, BtoB的な業務アプリケーション
  • c) 利用者同士を結びつけてコミュニティを構築するPtoPアプリケーション
  • d) 統合運用・管理システム
  • e) 蓄積されたデータに対する分析・評価基盤

このような複雑なシステムをスクラッチで開発することはコストもかかりますし、長期の開発期間を必要とするためビジネス的にタイムリーなタイミングでリリースすることが難しくなります。

ACPは上記のような機能をビルトインしたプラットフォームであり、UXを実現するWeb/モバイルアプリと必要最小限のサーバー機能を開発するだけで、アプリケーションを開発することができます。

このようにACP上で動作するアプリケーション開発を行う場合、スクラッチでアプリケーション全体を構築する場合とは、異なった開発手法になってきます。

また、クラウドアプリケーションではアプリケーション開発の力点が、「アプリケーションを開発」することから、「ビジネスを駆動」することに移っていることも見逃すことができません。 

単にアプリケーションを構築するだけでは不十分で、ビジネスのライフサイクルの中でアプリケーションの開発、運用、評価から次のビジネス設計に繋がるサイクルをまわしていく仕掛けを構築し、ビジネスに組込んでいくことが求められます。

以上のような点を念頭に置いたアプリケーションの開発手法が必要になってきます。これが本稿のテーマです。

開発プロセスの全体像

開発プロセスは4つのアクションで構成されます。

  • Business Modeling :: ビジネス設計を行います。
  • Development :: ACPアプリケーションの開発を行います。
  • Operation :: アプリケーションを配備して運用します。
  • Evaluation :: アプリケーションの動作結果を分析しビジネスや開発にフィードバックします。

これらの4つのアクションで一種のPDCAサイクルを構成します。



Business Modelingは、ビジネスレイヤーでの目標、価値などの分析を行いビジネスプロセスなどを用いてビジネス設計を行います。このビジネス設計の中で必要とされるアプリケーション・プログラムの責務が明らかになるので、これをDevelopmentアクションで開発を行います。

Developmentアクションでは、Business Modelingの成果物をベースにアプリケーションの開発を行います。Developmentアクションは必要に応じて繰り返し開発を行います。

クラウドアプリケーションにおいて重要な点として、アプリケーションの運用によって得られた各種データを分析してビジネスに対するフィードバックするというビジネス改善サイクルをどのようにして構築してビジネスに組込んでいくのかという点があります。

伝統的なアプリケーション開発ではこの活動はあまりフォーカスされていなかったので開発プロセスとしては中心的な話題にはなってこなかったと思います。(そもそもプログラムを作るのが大変だったので、そちらへの対応で力を使いきってしまっていたといえるかもしれません。)

一方、クラウドアプリケーションの場合ビジネス改善サイクルの構築とビジネスへの組み込みをいかに短く効率よく行うのかという点が主要な論点の一つとなっていると思います。1つにはACPによって複雑なバックエンドシステムを持つプログラムを開発することが簡単になったこと。また、ビッグデータ的なデータ活用技術の実用化によってビジネスにフィードバックするデータの分析が安価かつ容易にできるようになりました。

Operationで分析に必要なデータを蓄積すること、Evaluationで蓄積したデータを効率よく解析・分析してビジネスやアプリケーションの改善に必要なフィードバックを作成する作業をいかに行うのかという点が重要になります。

これらの2つのアクションではACPがプラットフォームとして提供するデータ分析基盤が非常に重要になります。

ACPのデータ分析基盤では、Operationアクションで各種データを標準形式で採取し、分析に適した形の分析データに再構成して管理します。Evaluationアクションではこれらの分析データを元に、各種分析を行いビジネスやアプリケーションへのフィードバックを作成します。

また、Business Modelingでは単にアプリケーションの要求仕様を抽出するだけでなく、全体ビジネスの中でのアプリケーションの位置付け、ビジネスの目標、価値といったものを踏まえてビジネス改善サイクルを組み込んだビジネス設計も同時に行うことになるでしょう。

開発の流れ

Developmentアクションでの開発の流れは以下になります。

  • Requirement
  • Design
  • Implementation
  • Test
  • Integration Test

開発の各アクティビティは標準的なものです。

ただし、ACPを使う場合ターゲットのプラットフォームは決まっているためPSM(Platform Indepent Model)を作成するAnalysisは効果が薄いので省略しています。必要に応じてDesignの中で行うとよいでしょう

これらのアクティビティは流れ作業的に順番にこなしていくのではなく、適切なプロジェクト運営のもと効率のよい順序で作業していくことになります。

目安としては、図で示した通りDevelopmentアクション全体のイテレーション、Design, Implementation, Testのイテレーションを想定しています。

サブシステム毎の開発手順カスタマイズ

図はDevelopmentアクションのRealization部を詳細化したものです。



ここでは複数のサブシステムを個別に開発し、最終的に結合する開発を想定しています。

図では特に重要なものとしてPresentation, Service Extension, Configurationを示しています。

Presentation

PresentationはWebやiOS/AndroidといったMobileアプリの開発です。このRealizationは以下の3つのactivityで構成されることを想定しています。

  • UX Design :: 画面設計を行います。
  • Implementation :: アプリケーションを実装します。
  • Test :: アプリケーションのテストを行います。

UX Designは画面設計や画面とAPCの提供するAPIなどの接続関係を設計します。

UX Designで行う画面設計はRequirementとの境界線が曖昧になりますが、開発中に顧客の意見を取り入れながら画面の調整を行う作業はUX Designの一環とします。(逆にRequirementでは、ペルソナやユースケースで利用者の体験する物語とドメインモデルの定義といった抽象度の高い成果物が中心となります。)

プロジェクト運営はアジャイル的なものを想定しています。

UX Design, Implementation, Testはこの順番に行うのではなく、作業の都合に合わせて任意の順番で行っていきます。

Service Extension

Service Extensionは、ACPが提供する拡張メカニズムに則ったプラグイン的な機能です。

ACP内に配備することで、ACPに対してアプリケーションが必要とする機能拡張を行います。

プロジェクト運営は計画駆動型を想定しています。

Service Extensionでは、基幹システムとの接続など、仕様がrequirement activityで明確に定義されるケースが多いと考えられるので計画駆動型が適していると考えています。もちろん、小規模開発など、場合によってはアジャイル型のプロジェクト運営が適しているケースも多いでしょう。

Configuration

アプリケーション向けのACPの振る舞いをカスタマイズパラメータとして設定します。

ここでは意図を明確にするために、独立した開発として示していますが、小規模開発の場合はPresentationなどの作業内で行われることになると思います。

Web/Mobileアプリ開発プロセス

「概要」の図に示す開発プロセスは汎用的な大きめの開発手順になっています。

さらに「サブシステム毎の開発手順カスタマイズ」の図ではPresentation, Service Extension, Configurationといった開発ターゲットごとの開発手順としてカスタマイズしています。



クラウドアプリケーションで多い形態は、フロントエンドのWeb/MobileアプリケーションのみUX重視で開発し、バックエンドサービスはACPのものをそのまま利用するものです。

このような開発では、多少ACPに対するconfigurationが発生しますが、基本的には従来技術であるWeb/Mobileアプリケーションの開発手法をそのまま用いてクラウドアプリケーションを開発できます。

Web/Mobileアプリ・プロファイルではこのような開発を想定したカスタマイズを行っています。

OperationやEvaluationはACPが自動的に提供してくれるため、開発エンジニアが特別に何かを開発する必要はありません。ただ、ACPが提供するAPIを使用する手順などで、何らかの意識は必要なのでWeb/Mobile開発者向けのユーザーガイドなどで、この点は明確化しておくことになるでしょう。

まとめ

今回はACPをベースにした、クラウドアプリケーションの開発プロセスの全体像についてざっくり考えてみました。

面白いテーマなので、引き続き考えていることをブログ化していきたいと思います。

2016年7月31日日曜日

[SDN] Generalized type constraints

Scalaの持つ型機能にGeneralized type constraintsがあります。訳語がよく分からなかったのでここでは型制約と呼びます。

Scalaプログラミングの要諦は、いかにプログラムのバグをコンパイルエラーで検出するか、だとすると型制約はこの目的を進めるために有効な言語機能です。使えるところではきっちりと使っていきたいところです。

そんなこともあり型制約の利用方法の最新状況が気になったので調べてみました。

型制約については先達の素晴らしい解説があります。

調べた範囲では、型制約の利用方法は上記ブログで取り上げている以下の2つにつきるようです。

  • 型によって有効になるメソッド
  • ビルダ

また上記の調査をしている最中に以下の用途もあるかもというのを思いつきました。今の所使用例は見かけていませんが、もしかして有効かもという使い方です。

  • 状態/状態遷移

おさらいも含めて上記3つの使い方について説明します。

型によって有効になるメソッド

「型によって有効になるメソッド」は型制約の基本的な使い方です。型制約が元々想定している利用方法だと思います。

以下では型パラメタTを持ったケースクラスResourceを定義しています。

openFileメソッドは「<:<」による型制約定義でResourceが保持しているリソースがFile(またはFileのサブクラス)だった時のみ有効となります。

case class Resource[T](r: T) {
    def openFile(implicit ev: T <:< File): InputStream = {
      new FileInputStream(r)
    }
  }

この目的で型制約を使うことによって以下の効能があります。

  • よく使われる特定のリソース向けのメソッドを簡単に定義できる。(この機能がないとトレイトの継承といった大掛かりな仕組みを使う必要がある。)
  • 有効でないリソースに対して誤ったメソッドが呼ばれることを防ぐ。
  • リソースの型がFileに定義された状態でメソッドの実装を行うことができる。
コンパイルエラーによる検出

コンパイルエラーとなる例です。

数値100を格納したResourceを作成し、openFileメソッドを呼び出します。

val r = Resource(100)
    val in = r.openFile

このコードは以下のように型チェックでコンパイルエラーとなります。このように誤った使い方をした場合、コンパイルエラーとして検出することができるわけです。

[error] .../Main.scala:45: Cannot prove that Int <:< java.io.File.
[error]     val in = r.openFile
[error]                ^
[error] one error found

ビルダ

型制約の使い方として有名なのがビルダです。

ビルダで必須項目が設定されていない状態でビルドを行うコードはコンパイルエラーになります。

以下のUrlBuilderはjava.net.URL用ビルダの例です。

import java.net.URL
import UrlBuilder._

case class UrlBuilder[HasProtocol <: YesNo, HasHost <: YesNo] private (
  private val _protocol: Option[String] = None,
  private val _host: Option[String] = None,
  private val _port: Option[Int] = None,
  private val _file: Option[String] = None
) {
  def isCompleted = _protocol.isDefined && _host.isDefined

  def protocol(s: String) = new UrlBuilder[Yes, HasHost](
    Some(s), _host, _port, _file)
  def host(s: String) = new UrlBuilder[HasProtocol, Yes](
    _protocol, Some(s), _port, _file)
  def port(s: Int) = copy(_port = Some(s))
  def file(s: String) = copy(_file = Some(s))

  def build(implicit ev1: HasProtocol =:= Yes, ev2: HasHost =:= Yes): URL =
    (_protocol, _host, _port, _file) match {
      case (Some(s), Some(a), Some(p), Some(f)) => new URL(s, a, p, f)
      case (Some(s), Some(a), Some(p), None) => new URL(s, a, p, "")
      case (Some(s), Some(a), None, None) => new URL(s, a, "")
      case (Some(s), Some(a), None, Some(f)) => new URL(s, a, f)
      case _ => throw new IllegalStateException(s"Illegal parameters $this")
    }
}

object UrlBuilder {
  sealed trait YesNo
  sealed trait Yes extends YesNo
  sealed trait No extends YesNo

  def builder = new UrlBuilder[No, No]()
}

型パラメタに設定する目的のトレイトYesNoとそのサブトレイトYes、Noを定義しています。

UrlBuilderは2つの型パラメタHasProtocolとHasHostを定義していて、いずれもトレイトYesNoとそのサブトレイトを型として設定できるようにしています。

ポイントはbuildメソッドで型制約「=:=」を使って型パラメタHasProtocolとHasHostの型をYesに限定しているところです。こうすることで型パラメタHasProtocolまたはHasHostにYesが設定されていない場合はコンパイルエラーとなります。

型パラメタHasProtocolにYesが設定されるのは、protocolメソッドが呼ばれてprotocolが設定された時です。また型パラメタHasHostにYesが設定されるのは、hostメソッドが呼ばれてHostが設定された時です。

つまり必須項目であるプロトコルとホストが設定されていない状態でbuildメソッドを使ってURLを生成しようとするとコンパイルエラーとなるわけです。

使い方

以下のようにprotocolとhostを設定後にbuildメソッドを呼び出すとコンパイルエラーにはなりません。

UrlBuilder.builder.protocol("http").host("example.com").build
コンパイルエラーによる検出

UrlBuilderにパラメタを設定しないでbuildメソッドを呼び出します。

UrlBuilder.builder.build

すると以下のようにコンパイルエラーとなります。

[error] .../Main.scala:16: Cannot prove that sample.UrlBuilder.No =:= sample.UrlBuilder.Yes.
[error]     UrlBuilder.builder.build
[error]                        ^

状態

型制約の使い方として「型によって有効になるメソッド」と「ビルダ」以外に、状態や状態遷移の記述にも使えるのではと思いついたので、そのアイデアの紹介です。

状態や状態遷移の操作に対するバグをコンパイル時に検出できればメリットは非常に大きいと思います。ただ、イベント駆動プログラムのような動的な処理で使用できる範囲は狭いと思われるので、ぴったりフィットするユースケースがあるかは将来課題です。

GreetingServiceは、指定された範囲に挨拶メッセージを送るサービスです。

以下の2つの状態を持ちます。

  • Openされているか否か
  • Assignされているか否か

GreetingServiceは全世界にメッセージを送る場合は、大量配信になるため復数のリクエスをと同時実行できないので、事前にリソースをアサインする必要があるという設定です。

import java.net.URL
import GreetingService._

case class GreetingService[IsOpened <: YesNo, IsAssigned <: YesNo] private (private val _url: URL) {
  def open()(implicit ev1: IsOpened =:= No, ev2: IsAssigned =:= No) = new GreetingService[Yes, IsAssigned](_url)
  def close()(implicit ev: IsOpened =:= Yes) = new GreetingService[No, IsAssigned](_url)
  def assign()(implicit ev1: IsOpened =:= Yes, ev2: IsAssigned =:= No) = new GreetingService[IsOpened, Yes](_url)
  def release()(implicit ev1: IsOpened =:= Yes, ev2: IsAssigned =:= Yes) = new GreetingService[IsOpened, No](_url)

  def helloLocalArea(msg: String)(implicit ev: IsOpened =:= Yes) {
    // do send to local area
  }

  def helloWorldWide(msg: String)(implicit ev1: IsOpened =:= Yes, ev2: IsAssigned =:= Yes) {
    // do send to world wide
  }
}

object GreetingService {
  sealed trait YesNo
  sealed trait Yes extends YesNo
  sealed trait No extends YesNo

  def create(url: URL) = new GreetingService[No, No](url)
}

上記2つの状態を型パラメタIsOpenedとIsAssingedで記述します。

型パラメタに設定する型はビルダで使用したYesNo, Yes, Noと同じ方式のものです。

GreetingServiceのポイントはopen, close, assign, releaseの各メソッドが「=:=」による型制約定義でGreetingServiceの状態によって以下の制約を持っていることです。

open
オープンもアサインのされていない時のみ可
close
オープン済みの時のみ可
assign
オープン済みで未アサインの時のみ可
release
オープン済み、アサイン済みの時のみ可

closeメソッドはエラー処理などでアサイン状態にかかわらずクローズしたいケースを想定してアサインの制約は設定していません。

使い方

GreetingServiceは以下のようにして使います。

val url = UrlBuilder.builder.protocol("http").host("example.com").build
    val srv = GreetingService.create(url)
    val opened = srv.open()
    opened.helloLocalArea("local")
    val assigned = opened.assign()
    assigned.helloLocalArea("local")
    assigned.helloWorldWide("world")

openメソッドでオープンした後のGreetingServiceではhelloLocalAreaメソッドでローカル向けのメッセージ送信ができます。

assignメソッドでアサインした後のGreetingServiceではhelloLocalAreaメソッドでのローカル向けのメッセージ送信に加えて、helloWorldWideメソッドで全世界向けのメッセージ送信が可能になっています。

コンパイルエラーによる検出

誤った使用をコンパイルエラーで検出できるか見ていきます。

まずオープン前のGreetingServiceでメッセージを送る場合です。

val url = UrlBuilder.builder.protocol("http").host("example.com").build
    val srv = GreetingService.create(url)
    srv.helloLocalArea("local")

無事helloLocalAreaメソッドがコンパイルエラーになりました。

[error] .../Main.scala:50: Cannot prove that sample.GreetingService.No =:= sample.GreetingService.Yes.
[error]     srv.helloLocalArea("local")
[error]                       ^

次にオープン済みで未アサインの場合に全世界向けメッセージ送信する場合です。

val url = UrlBuilder.builder.protocol("http").host("example.com").build
    val srv = GreetingService.create(url)
    val opened = srv.open()
    opened.helloLocalArea("local")
    opened.helloWorldWide("world")

こちらも無事helloWorldWideメソッドがコンパイルエラーになりました。

[error] .../Main.scala:58: Cannot prove that sample.GreetingService.No =:= sample.GreetingService.Yes.
[error]     opened.helloWorldWide("world")
[error]                          ^
ユーティリティメソッド

GreetingServiceを引数にするユーティリティメソッドでも型パラメタのチェックを行うことができます。型チェックをしたくない項目は「_」にしておけばよいようです。

def sendToLocalAreal(srv: GreetingService[Yes, _]) {
    srv.helloLocalArea("local")
  }

  def sendToWorldWide(srv: GreetingService[Yes, Yes]) {
    srv.helloWorldWide("world")
  }

使い方は以下になります。

val url = UrlBuilder.builder.protocol("http").host("example.com").build
    val srv = GreetingService.create(url)
    val opened = srv.open()
    sendToLocalAreal(opened)
    val assigned = opened.assign()
    sendToWorldWide(assigned)

状態遷移

「状態」の発展形です。

表現できる範囲は限定的ですが、状態遷移を型パラメタを使って実現することも可能です。

以下のGreetingServiceは前述のGreetingServiceと機能は同じですが、型制約の実現方法を変更しています。

具体的には、GreetingServiceは未オープン⇔オープン済⇔アサイン済の階層構造で状態遷移を行うので、この状態遷移の構造を反映した型を使用します。

import java.net.URL
import GreetingService._

case class GreetingService[+State <: OpenState] private (private val _url: URL) {
  def open()(implicit ev: State <:< Closed) = new GreetingService[Opened](_url)
  def close()(implicit ev: State <:< Opened) = new GreetingService[Closed](_url)
  def assign()(implicit ev: State <:< Opened) = new GreetingService[Assigned](_url)
  def release()(implicit ev: State <:< Assigned) = new GreetingService[Opened](_url)

  def helloLocalArea(msg: String)(implicit ev: State <:< Opened) {
    // do send to local area
  }

  def helloWorldWide(msg: String)(implicit ev1: State <:< Assigned) {
    // do send to world wide
  }
}

object GreetingService {
  sealed trait OpenState
  sealed trait Closed extends OpenState
  sealed trait Opened extends OpenState
  sealed trait Assigned extends Opened

  def create(url: URL) = new GreetingService[Closed](url)
}

まず型制約の用の型としてOpenStateトレイトを定義し、このサブトレイトとしてClosedトレイトとOpenedトレイトを、OpenedトレイトのサブトレイトとしてAssignedトレイトを定義しました。

OpenedトレイトとAssignedトレイトのサブトレイト関係で状態遷移の階層構造を表現しています。

OpenState, Opened, Assignedのトレイトを使用してopen, close, assign, releaseの各メソッドが「<:<」による型制約定義によりGreetingServiceの状態によって以下の制約を課しています。この例ではトレイト間のサブクラス関係も利用するので「=:=」ではなく「<:<」を使用しています。

open
Closedの時のみ使用可(オープンもアサインのされていない時のみ可)
close
Openedの時のみ使用可(オープン済みの時のみ可)
assign
Openedの時のみ使用可(オープン済みの時のみ可)
release
Assginedの時のみ使用可(オープン済み、アサイン済みの時のみ可)

前出の「状態」との違いはassignメソッドの制約条件が若干違うことですが、基本的には同等のものとなっています。

使い方

GreetingServiceの使い方は前出の「状態」のものと同じです。

val url = sample.UrlBuilder.builder.protocol("http").host("example.com").build
    val srv = GreetingService.create(url)
    val opened = srv.open()
    opened.helloLocalArea("local")
    val assigned = opened.assign()
    assigned.helloLocalArea("local")
    assigned.helloWorldWide("world")
コンパイルエラーによる検出

コンパイルエラーによるエラー検出も前出の「状態」のもの基本的には同じになります。

まずオープン前のGreetingServiceでメッセージを送る場合です。

val url = sample.UrlBuilder.builder.protocol("http").host("example.com").build
    val srv = GreetingService.create(url)
    srv.helloLocalArea("local")

無事helloLocalAreaメソッドがコンパイルエラーになりました。

[error] .../Main.scala:36: Cannot prove that sample2.GreetingService.Closed <:< sample2.GreetingService.Opened.
[error]     srv.helloLocalArea("local")
[error]                       ^

次にオープン済みで未アサインの場合に全世界向けメッセージ送信する場合です。

val url = sample.UrlBuilder.builder.protocol("http").host("example.com").build
    val srv = GreetingService.create(url)
    val opened = srv.open()
    opened.helloLocalArea("local")
    opened.helloWorldWide("world")

こちらも無事helloWorldWideメソッドがコンパイルエラーになりました。

[error] .../Main.scala:44: Cannot prove that sample2.GreetingService.Opened <:< sample2.GreetingService.Assigned.
[error]     opened.helloWorldWide("world")
[error]                          ^

まとめ

Generalized type constraintsはかなり以前(2.8)からある機能ですが、新しい使い方などが登場していないかという確認の意味もあり利用方法について調べてみました。

特に新たしい使用方法は見つけることはできませんでしたが、調べている中で「状態/状態遷移」の実装方法について思いついたことがあったので形にしてみました。うまくするとフィットする利用方法が見つかるかもしれません。

Generalized type constraintsについては、当初は暗黙変換も対象にする型制約「<%<」があったのですが、最近の版では使えなくなっているようです。この型制約があると「型によって有効になるメソッド」の応用で色々と技が使えそうだったのですが、色々負担の大きそうな機能なのでいたしかたなさそうです。

いずれにしてもGeneralized type constraintsが強力な機能であることを再認識しました。使えそうなポイントを見つけて製品開発にも適用していきたいと思います。

諸元

  • Java 1.7.0_75
  • Scala 2.11.7

2016年6月30日木曜日

foldの小技

関数型プログラミングではfold系の畳込み処理が多用されます。

composableという観点からはMonoid (Scala Tips / multiplication) やState Monad (State的状態機械2016)を使う形に持ち込むのが筋がよいと思いますが、1回限りのロジックに適用するには手間が掛かり過ぎる感じです。

このためListやVectorのfoldLeft/foldRightメソッドを使った畳込みを使うケースが多くなります。

たとえばリストを逆にするリバース処理をfoldLeftによる畳込みで書くと以下のようになるのが普通です。

def reverse[T](xs: List[T]): List[T] = {
    xs.foldLeft(List.empty[T])((z, x) => x :: z)
  }

この畳込み処理で最近愛用しているのが以下のようにcase classを用いる方法です。

def reverse[T](xs: List[T]): List[T] = {
    case class Z(result: List[T] = Nil) {
      def apply(rhs: T) = Z(rhs :: result)
    }

    xs.foldLeft(Z())(_(_)).result
  }

リバース処理のような簡単なロジックだと「普通」の書き方の方がシンプルですが、少し複雑な処理になってくると逆にcase class方式の方がいい感じになります。(あくまで私見です)

少し複雑な場合

たとえばFloatのListによるデータの平均値を求める処理を以下のような畳込み処理で記述するとします。

def average(xs: List[Float]): Float = {
    val a = xs.foldLeft((0.0F, 0))((z, x) => (z._1 + x, z._2 + 1))
    a._1 / a._2
  }

この方式で、複雑なデータ構造の畳込みをしようとするとタプルを使うケースが多くなりますが、「_1」といった記述がでてくるため可読性がよくありません。少し複雑な処理を書いているとかなりストレスになります。

また、畳込み処理後に「a._1 / a._2」で平均値の計算をしますが、ロジックが畳込み部と最終結果計算部の2つに別れてしまうのも個人的にはやや不満です。

case class方式

この平均値の計算処理はcase classを用いる方式では以下のようになります。

def average(xs: List[Float]): Float = {
    case class Z(sum: Float = 0.0F, length: Int = 0) {
      def apply(rhs: Float) = Z(sum + rhs, length + 1)
      def result = sum / length
    }
    xs.foldLeft(Z())(_(_)).result
  }

まず重要なのは、case class内のインスタンス変数として適切な名前をつけることができるので可読性がよくなる点です。

case class Zでは、畳込み処理の中の一要素の累積処理をapplyメソッドで行っています。また、最終結果の平均値の計算をresultメソッドで行っています。このように処理を適切なメソッドに分けてさらに1つのクラス内にまとめて記述できるので、プログラムも書きやすいですし、可読性も高まります。

畳込み処理の記述は「xs.foldLeft(Z())(()).result」として書いていますが、これは必ずこの形になります。「xs.foldLeft(Z())(()).result」は決まり文句として覚えてしまえばよいので、ロジックの記述はクラスZに集中することができます。

また、この例では使っていませんがcase classのcopyコンストラクタ機能が積算処理の記述にとても便利です。

まとめ

foldLeft/foldRightによる畳込み処理を記述する際にcase classを使ってみたところ、具合がよかったので自分用のコーディングパターンにしているものを紹介しました。

case classは関数型言語的にはタプルの進化形で直積の意味を持ちますが、オブジェクト指向言語的には通常のクラスであり、インスタンス変数やメソッドなどを定義して使用することができます。今回のイディオムはある意味両方のパラダイムを融合させたものということができるかもしれません。

実用的な観点から重要なのは畳込み処理の関数型的な記述を、case classの実装というオブジェクト指向的な記述に置き換える事ができることです。ボクの場合はオブジェクト指向の方がプログラムは書きやすいので、case class方式の方が書いていて楽ということだと思います。

諸元

  • Java 1.7.0_75
  • Scala 2.11.7

2016年5月8日日曜日

Breezeで行列式

大規模データに対する本格的な分析を行うためには線形代数は避けて通れません。

そこでScalaで広く使われている線形代数ライブラリBreezeを調べてみることにしました。

最終的には大規模データに対して分散演算を行いたいのでSparkのMLlibが有力候補ですが、MLlibもBreezeを使っているようなのでMLlibを使うときにもそのまま役に立ちそうです。

一応電気工学科を出ているので線形代数は習ったはずなのですが、すっかり忘れてしまったので「ゼロから学ぶ線形代数」(以下、ゼロ線)を参考にしています。以下に出てくる用語はこのゼロ線をベースにします。

目的

Breezeの基本的な使い方として以下の項目を調べます。

  • ベクトルの表現
  • 行列の表現
  • 行列式の計算
  • 連立一次方程式の解

準備

build.sbtは以下になります。

name := "breeze-sample"

version := "1.0"

scalaVersion := "2.11.7"

scalacOptions ++= Seq("-Xlint", "-deprecation", "-unchecked")

val scalazVersion = "7.2.0"

libraryDependencies ++= Seq(
  "org.scalanlp" %% "breeze" % "0.12",
  "org.scalanlp" %% "breeze-natives" % "0.12",
  "org.scalanlp" %% "breeze-viz" % "0.12"
)

initialCommands in console := "import breeze.linalg._"

sbtをconsoleモードで起動する場合は以下になります。

$ sbt console

ベクトルの表現

BreezeではベクトルはDenseVectorオブジェクトで記述します。

ベクトル\(\vec a = \begin{pmatrix}1 \cr2 \cr3\end{pmatrix}\)をDenseVectorで作成すると以下になります。

scala> val a = DenseVector(1, 2, 3)
a: breeze.linalg.DenseVector[Int] = DenseVector(1, 2, 3)

行列の表現

行列式を求めるために、2つのベクトル\(\vec{a} = \begin{pmatrix}3 \cr2\end{pmatrix}\), \(\vec{b} = \begin{pmatrix}7 \cr{-}5\end{pmatrix}\)を作成します。

scala> val a = DenseVector(3, 2)
a: breeze.linalg.DenseVector[Int] = DenseVector(3, 2)
scala> val b = DenseVector(7, -5)
a: breeze.linalg.DenseVector[Int] = DenseVector(7, -5)

次に\(\vec{a}, \vec{b}\)から行列を作成します。

scala> val m = DenseMatrix(a, b)
m: breeze.linalg.DenseMatrix[Int] =
3  2
7  -5

ここで気になることがあります。

ゼロ線の記法では\(\vec{a} = \begin{pmatrix}3 \cr2\end{pmatrix}\), \(\vec{b} = \begin{pmatrix}7 \cr{-}5\end{pmatrix}\)から\(\begin{pmatrix}3 & 7 \cr2 & {-}5\end{pmatrix}\)という行列を作っていますが、DenseMatrixの表示形式では\(\begin{pmatrix}3 & 2 \cr7 & {-}5\end{pmatrix}\)になっています。

ゼロ線の表記方法と比べると転置した形になっています。これはDenseVectorがカラムベクトルであるものの要素を横に並べた表記になっているので、これに合わせてカラムベクトルを横に並べる表記にしているのではないかと推測します。

ここではこの解釈で確認を先にすすめることにします。

行列式の計算

行列の1次従属/1次独立の判定式は以下になります。(ゼロ線 P.26)

\(\vec{a} = \begin{pmatrix}a \cr c\end{pmatrix}\), \(\vec{b} = \begin{pmatrix}b \cr d\end{pmatrix}\)に対して、

\[\begin{matrix}ad {-} bc = 0 & ⇔ & \vec{a}と\vec{b}は1次従属 \cr ad {-} bc \ne 0 & ⇔ & \vec{a}と\vec{b}は1次独立\end{matrix}\]

この\(ad {-} bc\)の式を行列式(determinan)と呼び以下のように定義します。(ゼロ線 P.28)

\[\rm{det}\begin{pmatrix}a & b \cr c & d\end{pmatrix} = ad {-} bc\]

Breezeでは行列式の計算を行う関数detを提供しています。2つのベクトルからdet関数で行列式を計算する関数は以下になります。

def 行列式(a: DenseVector[Double], b: DenseVector[Double]): Double =
    det(DenseMatrix(a, b))

この関数を使って行列式の各種法則が動くことを以下のプログラムで確認しました。法則名はゼロ線によります。(ゼロ線 P.30)

val a = DenseVector(3.0, 2.0)
    val b = DenseVector(7.0, -5.0)
    val c = DenseVector(-5.0, 4.0)
    val k = 10.0
    println(s"行列式: det(a,b) = ${行列式(a, b)}")
    println(s"一致退化法則: det(a, a) = ${行列式(a, a)}")
    println(s"交代法則: det(a,b) = ${行列式(a, b)}, det(b,a) = ${行列式(b, a)}")
    println(s"分配法則: det(a, b + c) = ${行列式(a, b + c)}")
    println(s"分配法則: det(a, b) + det(a, c) = ${行列式(a, b) + 行列式(a, c)}")
    println(s"分配法則: det(a + b, c) = ${行列式(a + b, c)}")
    println(s"分配法則: det(a, c) + det(b, c) = ${行列式(a, c) + 行列式(b, c)}")
    println(s"スカラー倍法則: det(ka, b) = ${行列式(k * a, b)}")
    println(s"スカラー倍法則: det(a, kb) = ${行列式(a, k * b)}")
    println(s"スカラー倍法則: kdet(a, b) = ${k * 行列式(a, b)}")

結果は以下になります。

5 07, 2016 10:44:10 午前 com.github.fommil.jni.JniLoader liberalLoad
情報: successfully loaded /var/folders/s_/qy3xzz_s22g99nh0x8dgrfjm0000gn/T/jniloader5473535094494407732netlib-native_system-osx-x86_64.jnilib
行列式: det(a,b) = -28.999999999999996
一致退化法則: det(a, a) = 0.0
交代法則: det(a,b) = -28.999999999999996, det(b,a) = 28.999999999999996
分配法則: det(a, b + c) = -6.999999999999999
分配法則: det(a, b) + det(a, c) = -6.9999999999999964
分配法則: det(a + b, c) = 25.0
分配法則: det(a, c) + det(b, c) = 25.0
スカラー倍法則: det(ka, b) = -290.00000000000006
スカラー倍法則: det(a, kb) = -289.99999999999994
スカラー倍法則: kdet(a, b) = -289.99999999999994

以下の部分はBreezeがネイティブの数値計算ライブラリを使用していることを情報として出力しているようです。

5 07, 2016 10:44:10 午前 com.github.fommil.jni.JniLoader liberalLoad
情報: successfully loaded /var/folders/s_/qy3xzz_s22g99nh0x8dgrfjm0000gn/T/jniloader5473535094494407732netlib-native_system-osx-x86_64.jnilib
行列式

行列式の計算結果は-28.999999999999996となりました。期待していた結果は-29ですから、少し丸め誤差が出るようです。

\(ad {-} bc\)を文字通り計算すると丸め誤差が出るはずはないので、行列演算の汎用ロジックとして内部で何か難しい計算を行っているのだと推測できます。

Breezeを使う場合(あるいは線形代数ライブラリの一般的な仕様として)、丸め誤差が出ることを前提で考えて、必要な有効桁数で四捨五入していく必要があるということのようです。

この前提を受け入れると、(適当なところで四捨五入すると)行列式の計算結果として-29を得ることができました。

一致退化法則

一致退化法則は0.0を得ることができました。

交代法則

交代法則はベクトルを入れ替えることで行列値の符号が変わることが確認できました。

分配法則

以下の2つの計算が丸め誤差を許容すると同じ値-7になることが確認できました。

\begin{matrix}\rm{det}(\vec{a}, \vec{b} + \vec{c}) & ⇒ & \rm{det}\begin{pmatrix}3 & 7 + ({-}5) \cr 2 & {-}5 + 4 \end{pmatrix} \cr\rm{det}(\vec{a}, \vec{b}) + \rm{det}(\vec{a}, \vec{c}) & ⇒ & \rm{det}\begin{pmatrix}3 & 7 \cr 2 & {-}5\end{pmatrix} + \rm{det}\begin{pmatrix}3 & {-}5 \cr 2 & 4\end{pmatrix} \cr\end{matrix}

また以下の2つの計算が同じ値25になることが確認できました。

\begin{matrix}\rm{det}(\vec{a} + \vec{b}, \vec{c}) & ⇒ & \rm{det}\begin{pmatrix}3 + 7 & {-}5 \cr 2 + ({-}5) & 4 \end{pmatrix} \cr\rm{det}(\vec{a}, \vec{c}) + \rm{det}(\vec{b}, \vec{c}) & ⇒ & \rm{det}\begin{pmatrix}3 & {-}5 \cr 2 & 4\end{pmatrix} + \rm{det}\begin{pmatrix}7 & {-}5 \cr {-}5 & 4\end{pmatrix} \cr\end{matrix}

スカラー倍法則

以下の3つ計算とも丸め誤差を許容すると同じ値-290になることが確認できました。

\begin{matrix}\rm{det}(k\vec{a}, \vec{b}) & ⇒ & \rm{det}\begin{pmatrix}10 × 3 & 7 \cr 10 × 2 & {-}5 \end{pmatrix} \cr\rm{det}(\vec{a}, k\vec{b}) & ⇒ & \rm{det}\begin{pmatrix}3 & 10 × 7 \cr 2 & 10 × ({-}5)\end{pmatrix} \cr {}k\rm{det}(\vec{a}, \vec{b}) & ⇒ & 10 × \rm{det}\begin{pmatrix}3 & 7 \cr 2 & {-}5\end{pmatrix}\end{matrix}

連立一次方程式の解

行列式の応用として連立一次方程式の解を求めてみます。

行列式を使って連立一次方程式を解くための公式としてクラメールの法則があります。(ゼロ線 P.35)

連立方程式\(\left\{\begin{array}{ll}ax + by = e\\cx + dy = f\\\end{array}\right.\)

を\(\vec{a}=\begin{pmatrix}a \cr c\end{pmatrix}\)と\(\vec{b}=\begin{pmatrix}b \cr d\end{pmatrix}\)を用いて、\(x\vec{a} + y\vec{b} = \vec{p}\)と表すとき、\(\rm{det}(\vec{a}, \vec{b}) \ne 0\)ならば、解$x$, $y$がただ1つ存在し、

\[x={\rm{det}(\vec{p}, \vec{b}) \over \rm{det}(\vec{a}, \vec{b})},  y={\rm{det}(\vec{a}, \vec{p}) \over \rm{det}(\vec{a}, \vec{b})}\]

となる。

クラメールの法則を使って連立一次方程式を解く関数を以下に定義します。

def 連立一次方程式(a: DenseVector[Double], b: DenseVector[Double], p: DenseVector[Double]): (Double, Double) = {
    val x = det(DenseMatrix(p, b)) / det(DenseMatrix(a, b))
    val y = det(DenseMatrix(a, p)) / det(DenseMatrix(a, b))
    (x, y)
  }

この関数を使って以下の2元連立1次方程式を解きます。

\[\left\{\begin{array}{ll}3x + 7y = 1\\2x {-} 5y = 20\\\end{array}\right.\]

この方程式を以下の3つのベクトルで記述し、これに先ほどの関数を適用します。

\begin{matrix}\vec{a} & = & \begin{pmatrix}3 \cr 2\end{pmatrix} \cr\vec{b} & = & \begin{pmatrix}7 \cr {-}5\end{pmatrix} \cr\vec{p} & = & \begin{pmatrix}1 \cr 20\end{pmatrix}\end{matrix}

val a = DenseVector(3.0, 2.0)
    val b = DenseVector(7.0, -5.0)
    val p = DenseVector(1.0, 20.0)
    val (x, y) = 連立一次方程式(a, b, p)
    println(s"x = $x, y = $y")

実行結果は以下になりました。

x = 5.000000000000001, y = -2.0000000000000004

丸め誤差をならすと、結果は x = 5, y = 2 となります。

正しい解が得られたようです。

まとめ

線形代数ライブラリBreezeをお試しで使ってみました。

まず入り口ということで行列式と連立一次方程式を動かしてみましたが、法則通り動くことが確認できました。

実際に使ってみた結果の注意点として以下の2つが出てきました。

  • 行列の表記方法(ベクトルから作成した時の縦横方向)
  • 丸め誤差

行列の表記方法については、ドキュメントなどを調べてみた範囲ではよく分かりませんでした。連立一次方程式の解は正しくでてきたので、今回の解釈でよさそうなのではないかと考えています。継続して、使いながら解釈の補強をしていく予定です。

丸め誤差に関しては、確率計算のような用途ではほぼ問題にならないと推測しますが、今回応用例として用いた連立1次方程式では無視できない問題です。このあたりは使用時に注意する必要がありそうです。

諸元

  • Java 1.7.0_75
  • Scala 2.11.7
  • Breeze 0.12

2016年4月30日土曜日

型安全イコール判定 - ScalazとScalactic

Scalaプログラミングのはまりポイントとして頻出頻度が高く影響も甚大なのは、==メソッドとcontainsメソッドの型チェックだと思います。

この2つのメソッドは(多分Javaとの互換性の問題で)、引数に定義されている型がAnyであるため事実上型チェックが効かない仕様になっています。

具体的には以下のような処理がコンパイルエラーにならず通ってしまうという問題です。

scala> "1" == 1
"1" == 1
res112: Boolean = false

scala> List(1, 2, 3).contains("1")
List(1, 2, 3).contains("1")
res113: Boolean = false

いずれの場合も、常に判定結果はfalseになり、意図した処理でないことは明らかですがScalaコンパイラはエラーとして弾いてくれません。

Scalaは型チェックが厳しいので、きちんとプログラミングしていればケアレスミス的なバグはほとんどでないのですが、逆に出る場合は==メソッドとcontainsメソッドのあたりに集中するというのがボクの実感です。

例題

==メソッドとcontainsメソッドの問題がよく発生する例として、クラスで保持しているプロパティの型がOptionのケースがあります。

以下の例ではcityの型がOption[String]となっています。

case class Person(name: String, city: Option[String])

特によくバグになるパターンとしては最初に:

case class Person(name: String, city: String)

として(Optionなしの)String型で定義していたものを、機能追加などでOption[String]に変更した場合です。このような場合には、コンパイルエラーで影響箇所が検出されることを期待しているわけですが、==メソッドとcontainsメソッドを使っている場所はエラーにならず、ロジック的に常にfalseとなるため、即バグになってしまいます。

準備

説明では以下のクラスとデータを使用します。

case class Person(name: String, city: Option[String])
  val cities = Vector("Yokohama", "Kawasaki", "Kamakura")
  val person = Person("Taro", Some("Yokohama"))
  val persons = Vector(
    Person("Taro", Some("Yokohama")),
    Person("Jiro", Some("Kawasaki")))
ScalazとScalactic

==メソッドとcontainsメソッドの問題に対応するための機能を提供するライブラリとしてScalazとScalacticを使ってみます。

ScalazはMonadicプログラミング向けのライブラリの1機能(型クラスEqual)として==メソッド問題の解を提供しています。

一方Scalacticは、Scalatestのスピンオフ機能で==メソッド問題を中心にオブジェクト操作の便利機能を提供するライブラリです。

ダメロジック

ダメロジックとして==メソッドとcontainsメソッドの例を順にみていきます。

==メソッド

Personのcityプロパティの方はOption[String]なのでStringと比較しても意味がないのですが、以下のように==メソッドでは比較できてしまいます。

person.city == "Yokohama"

コンパイルは通りますが、実行結果は必ずfalseになってしまいます。

containsメソッド

Personの集まりからcitiesに登録された市に所属する人を抽出する処理です。

persons.filter(x => cities.contains(x.city))

本来比較できないPersonのcityプロパティのOption[String]と、citiesに入っているStringを比較していますが、コンパイルエラーになりません。

しかし、containsメソッドの結果は必ずfalseになるため、全体の実行結果は必ず空の集まりが返ってきてしまいます。

Scalazによる解

まずScalazの提供する機能を使ってみます。

準備として以下のimportを行います。

import scalaz._, Scalaz._
==メソッド

Scalazでは、型チェックあり版の==メソッドとして===メソッドを提供しています。

エラー検出

オブジェクトの同定比較として==メソッドの代わりに===メソッドを用いると型チェックしてエラー検出するようになります。

person.city === "Yokohama"
[error] .../src/main/scala/sample/Main.scala:66: type mismatch;
[error]  found   : String("Yokohama")
[error]  required: Option[String]
[error]       person.city === "Yokohama"
[error]                       ^

簡単に使えて効果抜群です。

対応

コンパイルエラーに対する対応は、比較の型を合わせる修正です。

person.city === Some("Yokohama")
containsメソッド

Scalazでは、型チェックあり版のcontainsメソッドとしてelementメソッドを提供しています。

エラー検出

オブジェクトの集まりでの存在確認にcontainsメソッドの代わりにelementメソッドを用いると型チェックしてエラー検出するようになります。

persons.filter(x => cities.element(x.city))
[error] .../src/main/scala/sample/Main.scala:67: type mismatch;
[error]  found   : Option[String]
[error]  required: String
[error]       persons.filter(x => cities.element(x.city))
[error]                                            ^

こちらも簡単に使えて効果抜群です。

対応

コンパイルエラーに対する対応は、比較の型を合わせる修正です。以下の例では、Optionのfoldメソッドを使ってみました。

persons.filter(_.city.fold(false)(cities.element))

Scalacticによる解

Scalacticで同定比較によるコンパイラエラー抽出を行うためには以下のimportを行います。

import scalactic._
import TypeCheckedTripleEquals._

「import TypeCheckedTripleEquals._」を他のものに変えると、同定比較の方式を変更することができます。

==メソッド

ScalacticではScalazと同様に同定比較によるコンパイラエラー抽出用に型チェックあり版の==メソッドとして===メソッドを提供しています。

エラー検出

オブジェクトの同定比較として==メソッドの代わりに===メソッドを用いると型チェックしてエラー検出するようになります。

person.city === "Yokohama"
[error] .../src/main/scala/sample/Main.scala:28: types Option[String] and String do not adhere to the type constraint selected for the === and !== operators; the missing implicit parameter is of type org.scalactic.CanEqual[Option[String],String]
[error]     person.city === "Yokohama"
[error]                 ^

こちらも簡単に使えて効果抜群です。

対応

コンパイルエラーに対する対応は、比較の型を合わせる修正です。

person.city === Some("Yokohama")
containsメソッド

ScalacticではScalazのelementメソッドに相当する機能はないようなので===メソッドを使って対応してみます。

エラー検出

containsメソッドの代わりにexistsメソッドを使い、同定比較に===メソッドを使ってみました。

persons.filter(x => cities.exists(_ === x.city))
[error] .../src/main/scala/sample/Main.scala:29: types String and Option[String] do not adhere to the type constraint selected for the === and !== operators; the missing implicit parameter is of type org.scalactic.CanEqual[String,Option[String]]
[error]     persons.filter(x => cities.exists(_ === x.city))
[error]                                         ^

containsメソッドを使うより若干ロジックが入りますが、気になるほどではないと思います。

対応

コンパイルエラーに対する対応は、比較の型を合わせる修正です。

persons.filter(x => cities.exists(y => x.city === Some(y)))

ScalazとScalacticの使い分け

型安全な同定比較機能としてScalazとScalacticで同等の使い勝手の機能が提供されていることが確認できました。

Scalazは汎用のMonadicプログラミング向けライブラリなので、Scalazを使用している場合はありがたく===メソッド、elementメソッドを使用するのがよいと思います。

Scalacticは同定比較機能として以下の機能を提供しています。

  • Torerance (値の誤差範囲を考慮した比較)
  • 同定比較方法のカスタマイズ (大文字小文字の区別の有無など)

また以下のユーティリティ機能も提供しています。

  • Or/Every (Validation結果の格納)
  • 事前条件の文字列補完
  • スナップショット用の文字列補完

こういったユーティリティ機能を使う場合にはScalacticが選択肢になります。

===メソッドだけ欲しい場合は、どちらを選んでもよいですが暗黙定義の影響範囲が少なそうなScalaticの方が若干使い勝手がよさそうです。

まとめ

地味な話題ですが結構開発工数に影響する==メソッドとcontainsメソッドの問題と、その解決策についてご紹介しました。

防御的プログラミングを心がけるなら==メソッドとcontainsメソッドは使わないぐらいの心持ちでもよいと思います。

Scalazは===メソッドだけのために採用するのは心理的障壁が高そうですが、その場合はScalacticを選ぶとよいでしょう。

Scalacticは、事前条件の文字列補完、スナップショット用の文字列補完の機能が地味に便利なので、そういう意味でも使い出があると思います。

諸元

  • Java 1.7.0_75
  • Scala 2.11.7
  • Scalaz 7.2.0
  • Scalactic 3.0.0-M15

2016年3月31日木曜日

State的状態機械2016

昨年Scalaにおける状態機械の実装戦略について以下の記事で検討しました。

OOP編はcase classで作った汎用の状態機械オブジェクトをOOP的な枠組みで利用しました。

そして、FP編ではOOP編で作った汎用の状態機械オブジェクトをそのままFP的な枠組みで利用できることを確認しました。

もちろん、これはOOPでもFPでも使用できる汎用の状態機械オブジェクトの作り方を確認するのが目的で、幸いどちらの目的にも使用できるものを作成することができました。

この記事で検討した方針で一年間プログラミングをしてきましたが、改良のポイントが出てきたので、これを反映した2016年版の状態機械オブジェクトを考えてみます。

ParseState

「状態+状態遷移を表現するオブジェクト兼代数的データ型」であるParseStateですが、2016年版では以下の点を変更しています。

  • イベントの入力用メソッドであるeventメソッドとendEventメソッドを統合
  • イベントをParseEventオブジェクトで表現
  • イベントに対する反応を新状態のParseStateと処理結果ParseResultの組を返すようにした

2015年版と機能的には変わらないのですが、Stateモナドの形に合わせることでストリーム処理で使いやすい構造になっています。

sealed trait ParseState {
  def apply(event: ParseEvent): (ParseState, Option[ParseResult])
}

case object InitState extends ParseState {
  def apply(event: ParseEvent): (ParseState, Option[ParseResult]) = event match {
    case CharEvent(',') => (InputState(Vector(""), ""), None)
    case CharEvent('\n') => (InitState, Some(ParseResult.empty))
    case CharEvent(c) => (InputState(Vector.empty, c.toString), None)
    case EndEvent => (InitState, None)
  }
}

case class InputState(
  fields: Vector[String],
  candidate: String
) extends ParseState {
  def apply(event: ParseEvent): (ParseState, Option[ParseResult]) = event match {
    case CharEvent(',') => (InputState(fields :+ candidate, ""), None)
    case CharEvent('\n') => (InitState, Some(RecordParseResult(fields :+ candidate)))
    case CharEvent(c) => (InputState(fields, candidate :+ c), None)
    case EndEvent => (InitState, Some(RecordParseResult(fields :+ candidate)))
  }
}
ParseEvent

2016年版では入力パラメタとして入力イベントを表現するParseEventを使用するようにしました。

2015年版では入力の終了をendEventメソッドでハンドリングしていましたが、2016年版ではEndEventイベントで扱うようになっています。

製品開発で実際に使用した経験で、この構造の方がストリーミング処理に適していることが分かりました。

具体的には、EndEventなどのイベントで状態をクリアな状態に戻すことができるので、scalaz-streamといったReactive-Streams的なパイプラインの部品として使用することが容易になります。

trait ParseEvent
case class CharEvent(c: Char) extends ParseEvent
case object EndEvent extends ParseEvent
ParseResult

計算結果を表現するParseResultは以下になります。

2015年版では、ParseStateが結果を管理していましたが、2016年版では結果をParseResultで外部に出力するようにしました。

ParseEventと同様に製品開発で実際に使用した経験で、Stateモナドとの相性がよいことが分かりました。

sealed trait ParseResult {
  def getRecord: Option[Vector[String]]
}
case object NoneParseResult extends ParseResult {
  def getRecord = None
}
case class RecordParseResult(record: Vector[String]) extends ParseResult {
  def getRecord = Some(record)
}

object ParseResult {
  val empty = RecordParseResult(Vector.empty)
}

Stateモナド

それでは、新版のParseStateをStateモナドで使ってみましょう。

2015年版に比べると結果を取り出す処理が若干複雑になっていますが、それほど大きな違いはありません。

Stateモナドで問題なく使えることが確認できました。

import scalaz._, Scalaz._

object ParserStateMonad {
  def action(event: ParseEvent) = State((s: ParseState) => s.apply(event))

  def parse(events: Seq[Char]): Seq[String] = {
    val xs = events.toStream.map(CharEvent) :+ EndEvent
    val t = xs.traverseS(action)
    val r = t.eval(InitState)
    r.flatten.flatMap(_.getRecord).flatten
  }

  def parseAnnotated(events: Seq[Char]): Seq[String] = {
    val xs: Stream[ParseEvent] = events.toStream.map(CharEvent) :+ EndEvent
    val t: State[ParseState, Stream[Option[ParseResult]]] = xs.traverseS(action)
    val r: Stream[Option[ParseResult]] = t.eval(InitState)
    r.flatten.flatMap(_.getRecord).flatten
  }
}

scalaz-stream版状態機械

次はscalaz-streamのProcessモナドです。

Scala的状態機械/FP編の「scalaz-stream版状態機械」と基本的には同じで、ParseStateの入出力が変更された部分に対応しています。

大きな違いとしては2015年版はParseState自身がストリームを流れてくる構造になっており、ParseStateから計算結果を取り出す処理になっていました。

それに対して、今回はParseStateによる処理結果であるParseResultがストリームを流れてくるので、これを取り出す構造になっています。

いずれにしても、OO版としても使える汎用の状態機械オブジェクトをscalaz-streamのProcessモナドで使えることが確認できました。

import scalaz._, Scalaz._
import scalaz.stream._

object ParserProcessMonadStateMonad {
  def fsm(state: ParseState): Process1[ParseEvent, ParseResult] = {
    Process.receive1 { evt: ParseEvent =>
      ParserStateMonad.action(evt).run(state) match {
        case (s, Some(r)) => Process.emit(r) fby fsm(s)
        case (s, None) => fsm(s)
      }
    }
  }

  def parse(xs: Seq[Char]): Seq[String] = {
    val events = xs.map(CharEvent) :+ EndEvent
    val source: Process0[ParseEvent] = Process.emitAll(events)
    val pipeline: Process0[ParseResult] = source.pipe(fsm(InitState))
    pipeline.map(_.getRecord).pipe(process1.stripNone).toList.last
  }

  import scalaz.concurrent.Task

  def parseTask(xs: Seq[Char]): Task[Seq[String]] = {
    val events = xs.map(CharEvent) :+ EndEvent
    val source: Process0[ParseEvent] = Process.emitAll(events)
    val pipeline: Process[Task, ParseResult] = source.pipe(fsm(InitState)).toSource
    pipeline.map(_.getRecord).pipe(process1.stripNone).runLastOr(Nil)
  }
}

まとめ

状態機械の実装方法について、1年間の実践経験を踏まえて改良版をまとめました。

状態機械の実装方法は色々な選択肢がありますが、OOPかつFPを同時に満たすものとなると選択肢が限られてきます。

OOP化はそれほど難しくないので、焦点はFP化ですが、StateモナドやProcessモナドで使用することを前提にした上で、自然な形の実装方法に落とし込めたと思います。

諸元

  • Java 1.7.0_75
  • Scala 2.11.7

2016年2月29日月曜日

ScalaでXSLT

Scalaで半構造データ的なデータ処理に対してどのようなアプローチをとっていくのかは重要な論点の一つだと思いますが、引き続きXMLも有力な選択肢だと思います。

XMLはXML文書をプログラム内にデータ構造として取り込むだけだとあまり面白みはありませんが、XPath, XSLT, XQueryといったデータ操作用の機能を使用すると応用の範囲がぐっと広がります。

この中でもXPathとXSLTはJavaの基本APIに入っているので、Scalaからもシームレスに使うことができます。

そこでScalaでのXSLT使い方を整理してみました。

準備

処理対象とするXML文書です。

<userlist>
  <user zip="221" city="Yokohama" name="Taro"/>
  <user zip="248" city="Kamakura" name="Hanako"/>
</userlist>

XSLTのスタイルシートとして以下のものを使用します。

上記のXML文書をHTMLの表に整形します。

<?xml version="1.0"?>
<xsl:stylesheet version="1.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns="http://www.w3.org/1999/xhtml">
<xsl:strip-space elements="*"/>
<xsl:template match="/">
    <html>
      <table border="true">
 <thead>
   <th>Name</th>
   <th>Zip</th>
   <th>City</th>
 </thead>
 <tbody>
          <xsl:apply-templates select="/userlist/user"/>
 </tbody>
      </table>
    </html>
  </xsl:template> 

  <xsl:template match="user">
    <tr>
      <td><xsl:value-of select="@name"/></td>
      <td><xsl:value-of select="@zip"/></td>
      <td><xsl:value-of select="@city"/></td>
    </tr>
  </xsl:template>
</xsl:stylesheet>

xsltprocコマンドでXML文書の変換を行うと以下のようにXHTML文書が出力されます。

$ xsltproc app.xsl data.xml
<?xml version="1.0"?>
<html xmlns="http://www.w3.org/1999/xhtml"><table border="true"><thead><th>Name</th><th>Zip</th><th>City</th></thead><tbody><tr><td>Taro</td><td>221</td><td>Yokohama</td></tr><tr><td>Hanako</td><td>248</td><td>Kamakura</td></tr></tbody></table></html>

このXHTML文書を見やすいように整形すると以下になります。

<html xmlns="http://www.w3.org/1999/xhtml">
  <table border="true">
    <thead>
      <th>Name</th>
      <th>Zip</th>
      <th>City</th>
    </thead>
    <tbody>
      <tr>
        <td>Taro</td>
        <td>221</td>
        <td>Yokohama</td>
      </tr>
      <tr>
        <td>Hanako</td>
        <td>248</td>
        <td>Kamakura</td>
      </tr>
    </tbody>
  </table>
</html>

XSLTプロセッサを使う

スタイルシートとXMLデータの両方をStringで受取り、変換結果をStringで返す処理を関数「StringのスタイルシートでStringのXMLデータを変換」として作成しました。

def StringのスタイルシートでStringのXMLデータを変換(stylesheet: String, data: String): String = {
    val stylesource = new StreamSource(new StringReader(stylesheet))
    val transformer = TransformerFactory.newInstance().newTransformer(stylesource)
    val source = new StreamSource(new StringReader(data))
    val buf = new StringWriter()
    val result = new StreamResult(buf)
    transformer.transform(source, result)
    buf.toString
  }

JavaのXSLTプロセッサであるjavax.xml.transform.Transformerは、スタイルシート、XML文書、変換結果のそれぞれに対して以下の入力の選択肢があります。

  • 文字列
  • DOM
  • SAX

ここでは、スタイルシート、XML文書、変換結果のすべてに文字列を使う組合せを実装しています。

XMLリテラルとDOM

ScalaでXMLを扱う時に少しややこしいのはXMLリテラルの存在です。

XMLリテラルはScalaの文法に組み入れられており、さらにScala的、DSL的なAPIで木構造の操作を簡単に行えるようになっているメリットがある反面、XMLの共通機能であるXPath、XSLTを使用することができない、というデメリットがあります。

この問題への対応方法は、DOMやSAXといったJavaが提供しているパーサーとXMLリテラルの相互変換です。

以下ではこの相互変換で一番楽な方法である文字列を媒介とした変換を採用しました。スタイルシートをXMLリテラルのオブジェクトであるscala.xml.Nodeで受取り、それを文字列表現に変換して「StringのスタイルシートでStringのXMLデータを変換」関数に渡しています。

def XMLリテラルのスタイルシートでStringのXMLデータを変換(stylesheet: scala.xml.Node, data: String): String =
    StringのスタイルシートでStringのXMLデータを変換(stylesheet.toString, data)

文字列表現を媒介にする方法は一般的には十分ですが、大規模データ操作などで性能が求められる場合は適さないかもしれません。

そのようなケースでは、javax.xml.transform.sax.SAXSourceをextendsしたXMLリテラル用のSourceを作成して対処するとよいでしょう。XMLリテラル用のSAXパーサーorg.xml.sax.XMLReaderを作成し、このSAXSourceでラップするような形になります。

使ってみる

スタイルシートをXMLリテラルで、XML文書を文字列で受け取って、変換結果を文字列で受け取る関数「XMLリテラルのスタイルシートでStringのXMLデータを変換」で処理するプログラムは以下になります。

生文字列リテラルでも問題はないですが、やはりXML専用のXMLリテラルでXSLTによる変換処理を記述できると便利です。

def main(args: Array[String]) {
    val stylesheet = <xsl:stylesheet version="1.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns="http://www.w3.org/1999/xhtml">
<xsl:strip-space elements="*"/>
<xsl:template match="/">
    <html>
      <table border="true">
 <thead>
   <th>Name</th>
   <th>Zip</th>
   <th>City</th>
 </thead>
 <tbody>
          <xsl:apply-templates select="/userlist/user"/>
 </tbody>
      </table>
    </html>
  </xsl:template> 

  <xsl:template match="user">
    <tr>
      <td><xsl:value-of select="@name"/></td>
      <td><xsl:value-of select="@zip"/></td>
      <td><xsl:value-of select="@city"/></td>
    </tr>
  </xsl:template>
</xsl:stylesheet>
    val data = """<userlist>
  <user zip="1234567" city="Yokohama" name="Taro"/>
  <user zip="1234567" city="Kamakura" name="Hanako"/>
</userlist>
"""
    val result = XMLリテラルのスタイルシートでStringのXMLデータを変換(
      stylesheet, data)
    println(result)
  }

プログラム実行の結果、無事以下の出力が得られました。

<?xml version="1.0" encoding="UTF-8"?><html xmlns="http://www.w3.org/1999/xhtml"><table border="true"><thead><th>Name</th><th>Zip</th><th>City</th></thead><tbody><tr><td>Taro</td><td>1234567</td><td>Yokohama</td></tr><tr><td>Hanako</td><td>1234567</td><td>Kamakura</td></tr></tbody></table></html>

諸元

  • Java 1.7.0_75
  • Scala 2.11.7