afl-material: progs/thompson.scala@ffbc65112d48 (annotated)

487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	1	// Thompson Construction
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	2	// (needs :load nfa.scala
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	3	// :load enfa.scala)
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	4
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	5
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	6	// states for Thompson construction
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	7	case class TState(i: Int) extends State
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	8
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	9	object TState {
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	10	var counter = 0
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	11
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	12	def apply() : TState = {
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	13	counter += 1;
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	14	new TState(counter - 1)
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	15	}
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	16	}
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	17
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	18
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	19	// some types abbreviations
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	20	type NFAt = NFA[TState, Char]
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	21	type NFAtrans = (TState, Char) :=> Set[TState]
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	22	type eNFAtrans = (TState, Option[Char]) :=> Set[TState]
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	23
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	24
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	25	// for composing an eNFA transition with a NFA transition
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	26	implicit class RichPF(val f: eNFAtrans) extends AnyVal {
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	27	def +++(g: NFAtrans) : eNFAtrans =
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	28	{ case (q, None) => applyOrElse(f, (q, None))
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	29	case (q, Some(c)) => applyOrElse(f, (q, Some(c))) \| applyOrElse(g, (q, c)) }
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	30	}
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	31
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	32
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	33	// NFA that does not accept any string
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	34	def NFA_ZERO(): NFAt = {
486 3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	35	val Q = TState()
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	36	NFA(Set(Q), { case _ => Set() }, Set())
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	37	}
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	38
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	39	// NFA that accepts the empty string
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	40	def NFA_ONE() : NFAt = {
486 3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	41	val Q = TState()
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	42	NFA(Set(Q), { case _ => Set() }, Set(Q))
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	43	}
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	44
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	45	// NFA that accepts the string "c"
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	46	def NFA_CHAR(c: Char) : NFAt = {
486 3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	47	val Q1 = TState()
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	48	val Q2 = TState()
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	49	NFA(Set(Q1), { case (Q1, d) if (c == d) => Set(Q2) }, Set(Q2))
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	50	}
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	51
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	52	// sequence of two NFAs
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	53	def NFA_SEQ(enfa1: NFAt, enfa2: NFAt) : NFAt = {
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	54	val new_delta : eNFAtrans =
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	55	{ case (q, None) if enfa1.fins(q) => enfa2.starts }
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	56
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	57	eNFA(enfa1.starts, new_delta +++ enfa1.delta +++ enfa2.delta,
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	58	enfa2.fins)
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	59	}
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	60
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	61	// alternative of two NFAs
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	62	def NFA_ALT(enfa1: NFAt, enfa2: NFAt) : NFAt = {
486 3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	63	val Q = TState()
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	64	val new_delta : eNFAtrans =
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	65	{ case (Q, None) => enfa1.starts \| enfa2.starts }
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	66	val new_fins = (q: TState) => enfa1.fins(q) \|\| enfa2.fins(q)
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	67
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	68	eNFA(Set(Q), new_delta +++ enfa1.delta +++ enfa2.delta, new_fins)
486 3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	69	}
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	70
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	71	// star of a NFA
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	72	def NFA_STAR(enfa: NFAt) : NFAt = {
486 3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	73	val Q = TState()
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	74	val new_delta : eNFAtrans =
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	75	{ case (Q, None) => enfa.starts
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	76	case (q, None) if enfa.fins(q) => Set(Q) }
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	77
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	78	eNFA(Set(Q), new_delta +++ enfa.delta, Set(Q))
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	79	}
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	80
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	81
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	82
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	83	// regular expressions
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	84	abstract class Rexp
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	85	case object ZERO extends Rexp // matches nothing
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	86	case object ONE extends Rexp // matches the empty string
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	87	case class CHAR(c: Char) extends Rexp // matches a character c
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	88	case class ALT(r1: Rexp, r2: Rexp) extends Rexp // alternative
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	89	case class SEQ(r1: Rexp, r2: Rexp) extends Rexp // sequence
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	90	case class STAR(r: Rexp) extends Rexp // star
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	91
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	92
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	93
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	94
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	95	// thompson construction
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	96	def thompson (r: Rexp) : NFAt = r match {
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	97	case ZERO => NFA_ZERO()
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	98	case ONE => NFA_ONE()
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	99	case CHAR(c) => NFA_CHAR(c)
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	100	case ALT(r1, r2) => NFA_ALT(thompson(r1), thompson(r2))
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	101	case SEQ(r1, r2) => NFA_SEQ(thompson(r1), thompson(r2))
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	102	case STAR(r1) => NFA_STAR(thompson(r1))
486 3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	103	}
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	104
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	105
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	106	def tmatches(r: Rexp, s: String) : Boolean =
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	107	thompson(r).accepts(s.toList)
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	108
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	109	def tmatches2(r: Rexp, s: String) : Boolean =
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	110	thompson(r).accepts2(s.toList)
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	111
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	112
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	113	//optional regular expression (one or zero times)
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	114	def OPT(r: Rexp) = ALT(r, ONE)
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	115
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	116	//n-times regular expression (explicitly expanded)
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	117	def NTIMES(r: Rexp, n: Int) : Rexp = n match {
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	118	case 0 => ONE
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	119	case 1 => r
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	120	case n => SEQ(r, NTIMES(r, n - 1))
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	121	}
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	122
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	123
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	124	// Test Cases
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	125
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	126	// the evil regular expression a?{n} a{n}
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	127	def EVIL1(n: Int) = SEQ(NTIMES(OPT(CHAR('a')), n), NTIMES(CHAR('a'), n))
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	128
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	129	// the evil regular expression (a)b
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	130	val EVIL2 = SEQ(STAR(STAR(CHAR('a'))), CHAR('b'))
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	131
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	132	//for measuring time
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	133	def time_needed[T](i: Int, code: => T) = {
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	134	val start = System.nanoTime()
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	135	for (j <- 1 to i) code
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	136	val end = System.nanoTime()
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	137	(end - start)/(i * 1.0e9)
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	138
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	139
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	140	// the size of the NFA can be large,
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	141	// thus slowing down the breadth-first search
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	142
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	143	for (i <- 1 to 10) {
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	144	println(i + ": " + "%.5f".format(time_needed(2, tmatches(EVIL1(i), "a" * i))))
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	145	}
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	146
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	147	for (i <- 1 to 10) {
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	148	println(i + " " + "%.5f".format(time_needed(2, tmatches(EVIL2, "a" * i))))
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	149	}
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	150
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	151
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	152	// the backtracking needed in depth-first search
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	153	// can be painfully slow
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	154
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	155	for (i <- 1 to 8) {
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	156	println(i + " " + "%.5f".format(time_needed(2, tmatches2(EVIL2, "a" * i))))
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	157	}

author	Christian Urban <urbanc@in.tum.de>
	Fri, 28 Apr 2017 11:01:25 +0100
changeset 487	ffbc65112d48
parent 486	3cc1799daf08
child 488	057b4603b940
permissions	-rw-r--r--