afl-material: progs/thompson.scala@598741d39d21 (annotated)

487 a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	1	// Thompson Construction
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	2	// (needs :load nfa.scala
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	3	// :load enfa.scala)
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	4
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	5
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	6	// states for Thompson construction
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	7	case class TState(i: Int) extends State
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	8
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	9	object TState {
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	10	var counter = 0
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	11
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	12	def apply() : TState = {
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	13	counter += 1;
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	14	new TState(counter - 1)
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	15	}
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	16	}
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	17
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	18
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	19	// some types abbreviations
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	20	type NFAt = NFA[TState, Char]
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	21	type NFAtrans = (TState, Char) :=> Set[TState]
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	22	type eNFAtrans = (TState, Option[Char]) :=> Set[TState]
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	23
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	24
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	25	// for composing an eNFA transition with a NFA transition
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	26	implicit class RichPF(val f: eNFAtrans) extends AnyVal {
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	27	def +++(g: NFAtrans) : eNFAtrans =
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	28	{ case (q, None) => applyOrElse(f, (q, None))
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	29	case (q, Some(c)) => applyOrElse(f, (q, Some(c))) \| applyOrElse(g, (q, c)) }
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	30	}
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	31
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	32
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	33	// NFA that does not accept any string
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	34	def NFA_ZERO(): NFAt = {
486 8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	35	val Q = TState()
8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	36	NFA(Set(Q), { case _ => Set() }, Set())
8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	37	}
8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	38
487 a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	39	// NFA that accepts the empty string
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	40	def NFA_ONE() : NFAt = {
486 8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	41	val Q = TState()
8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	42	NFA(Set(Q), { case _ => Set() }, Set(Q))
8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	43	}
8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	44
487 a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	45	// NFA that accepts the string "c"
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	46	def NFA_CHAR(c: Char) : NFAt = {
486 8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	47	val Q1 = TState()
8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	48	val Q2 = TState()
8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	49	NFA(Set(Q1), { case (Q1, d) if (c == d) => Set(Q2) }, Set(Q2))
8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	50	}
8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	51
487 a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	52	// sequence of two NFAs
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	53	def NFA_SEQ(enfa1: NFAt, enfa2: NFAt) : NFAt = {
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	54	val new_delta : eNFAtrans =
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	55	{ case (q, None) if enfa1.fins(q) => enfa2.starts }
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	56
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	57	eNFA(enfa1.starts, new_delta +++ enfa1.delta +++ enfa2.delta,
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	58	enfa2.fins)
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	59	}
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	60
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	61	// alternative of two NFAs
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	62	def NFA_ALT(enfa1: NFAt, enfa2: NFAt) : NFAt = {
486 8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	63	val Q = TState()
8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	64	val new_delta : eNFAtrans =
8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	65	{ case (Q, None) => enfa1.starts \| enfa2.starts }
8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	66	val new_fins = (q: TState) => enfa1.fins(q) \|\| enfa2.fins(q)
8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	67
487 a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	68	eNFA(Set(Q), new_delta +++ enfa1.delta +++ enfa2.delta, new_fins)
486 8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	69	}
8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	70
487 a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	71	// star of a NFA
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	72	def NFA_STAR(enfa: NFAt) : NFAt = {
486 8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	73	val Q = TState()
8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	74	val new_delta : eNFAtrans =
8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	75	{ case (Q, None) => enfa.starts
8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	76	case (q, None) if enfa.fins(q) => Set(Q) }
8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	77
487 a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	78	eNFA(Set(Q), new_delta +++ enfa.delta, Set(Q))
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	79	}
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	80
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	81
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	82
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	83	// regular expressions
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	84	abstract class Rexp
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	85	case object ZERO extends Rexp // matches nothing
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	86	case object ONE extends Rexp // matches the empty string
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	87	case class CHAR(c: Char) extends Rexp // matches a character c
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	88	case class ALT(r1: Rexp, r2: Rexp) extends Rexp // alternative
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	89	case class SEQ(r1: Rexp, r2: Rexp) extends Rexp // sequence
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	90	case class STAR(r: Rexp) extends Rexp // star
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	91
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	92
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	93
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	94
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	95	// thompson construction
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	96	def thompson (r: Rexp) : NFAt = r match {
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	97	case ZERO => NFA_ZERO()
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	98	case ONE => NFA_ONE()
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	99	case CHAR(c) => NFA_CHAR(c)
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	100	case ALT(r1, r2) => NFA_ALT(thompson(r1), thompson(r2))
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	101	case SEQ(r1, r2) => NFA_SEQ(thompson(r1), thompson(r2))
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	102	case STAR(r1) => NFA_STAR(thompson(r1))
486 8178fcf377dc updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	103	}
487 a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	104
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	105	//optional regular expression (one or zero times)
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	106	def OPT(r: Rexp) = ALT(r, ONE)
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	107
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	108	//n-times regular expression (explicitly expanded)
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	109	def NTIMES(r: Rexp, n: Int) : Rexp = n match {
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	110	case 0 => ONE
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	111	case 1 => r
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	112	case n => SEQ(r, NTIMES(r, n - 1))
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	113	}
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	114
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	115
488 598741d39d21 updated Christian Urban <urbanc@in.tum.de> parents: 487 diff changeset	116	def tmatches(r: Rexp, s: String) : Boolean =
598741d39d21 updated Christian Urban <urbanc@in.tum.de> parents: 487 diff changeset	117	thompson(r).accepts(s.toList)
598741d39d21 updated Christian Urban <urbanc@in.tum.de> parents: 487 diff changeset	118
598741d39d21 updated Christian Urban <urbanc@in.tum.de> parents: 487 diff changeset	119	def tmatches2(r: Rexp, s: String) : Boolean =
598741d39d21 updated Christian Urban <urbanc@in.tum.de> parents: 487 diff changeset	120	thompson(r).accepts2(s.toList)
598741d39d21 updated Christian Urban <urbanc@in.tum.de> parents: 487 diff changeset	121
598741d39d21 updated Christian Urban <urbanc@in.tum.de> parents: 487 diff changeset	122
487 a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	123	// Test Cases
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	124
488 598741d39d21 updated Christian Urban <urbanc@in.tum.de> parents: 487 diff changeset	125
487 a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	126	// the evil regular expression a?{n} a{n}
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	127	def EVIL1(n: Int) = SEQ(NTIMES(OPT(CHAR('a')), n), NTIMES(CHAR('a'), n))
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	128
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	129	// the evil regular expression (a)b
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	130	val EVIL2 = SEQ(STAR(STAR(CHAR('a'))), CHAR('b'))
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	131
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	132	//for measuring time
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	133	def time_needed[T](i: Int, code: => T) = {
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	134	val start = System.nanoTime()
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	135	for (j <- 1 to i) code
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	136	val end = System.nanoTime()
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	137	(end - start)/(i * 1.0e9)
488 598741d39d21 updated Christian Urban <urbanc@in.tum.de> parents: 487 diff changeset	138	}
487 a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	139
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	140	// the size of the NFA can be large,
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	141	// thus slowing down the breadth-first search
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	142
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	143	for (i <- 1 to 10) {
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	144	println(i + ": " + "%.5f".format(time_needed(2, tmatches(EVIL1(i), "a" * i))))
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	145	}
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	146
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	147	for (i <- 1 to 10) {
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	148	println(i + " " + "%.5f".format(time_needed(2, tmatches(EVIL2, "a" * i))))
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	149	}
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	150
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	151
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	152	// the backtracking needed in depth-first search
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	153	// can be painfully slow
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	154
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	155	for (i <- 1 to 8) {
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	156	println(i + " " + "%.5f".format(time_needed(2, tmatches2(EVIL2, "a" * i))))
a697421eaa04 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	157	}

author	Christian Urban <urbanc@in.tum.de>
	Sun, 07 May 2017 00:20:58 +0100
changeset 488	598741d39d21
parent 487	a697421eaa04
child 489	e28d7a327870
permissions	-rw-r--r--