afl-material: progs/thompson.scala@f099bf6d48ee (annotated)

487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	1	// Thompson Construction
491 7a0182c66403 updated Christian Urban <urbanc@in.tum.de> parents: 489 diff changeset	2	// (needs :load dfa.scala
7a0182c66403 updated Christian Urban <urbanc@in.tum.de> parents: 489 diff changeset	3	// :load nfa.scala
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	4	// :load enfa.scala)
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	5
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	6
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	7	// states for Thompson construction
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	8	case class TState(i: Int) extends State
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	9
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	10	object TState {
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	11	var counter = 0
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	12
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	13	def apply() : TState = {
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	14	counter += 1;
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	15	new TState(counter - 1)
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	16	}
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	17	}
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	18
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	19
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	20	// some types abbreviations
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	21	type NFAt = NFA[TState, Char]
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	22	type NFAtrans = (TState, Char) :=> Set[TState]
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	23	type eNFAtrans = (TState, Option[Char]) :=> Set[TState]
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	24
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	25
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	26	// for composing an eNFA transition with a NFA transition
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	27	implicit class RichPF(val f: eNFAtrans) extends AnyVal {
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	28	def +++(g: NFAtrans) : eNFAtrans =
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	29	{ case (q, None) => applyOrElse(f, (q, None))
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	30	case (q, Some(c)) => applyOrElse(f, (q, Some(c))) \| applyOrElse(g, (q, c)) }
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	31	}
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	32
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	33
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	34	// NFA that does not accept any string
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	35	def NFA_ZERO(): NFAt = {
486 3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	36	val Q = TState()
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	37	NFA(Set(Q), { case _ => Set() }, Set())
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	38	}
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	39
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	40	// NFA that accepts the empty string
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	41	def NFA_ONE() : NFAt = {
486 3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	42	val Q = TState()
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	43	NFA(Set(Q), { case _ => Set() }, Set(Q))
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	44	}
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	45
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	46	// NFA that accepts the string "c"
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	47	def NFA_CHAR(c: Char) : NFAt = {
486 3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	48	val Q1 = TState()
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	49	val Q2 = TState()
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	50	NFA(Set(Q1), { case (Q1, d) if (c == d) => Set(Q2) }, Set(Q2))
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	51	}
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	52
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	53	// sequence of two NFAs
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	54	def NFA_SEQ(enfa1: NFAt, enfa2: NFAt) : NFAt = {
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	55	val new_delta : eNFAtrans =
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	56	{ case (q, None) if enfa1.fins(q) => enfa2.starts }
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	57
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	58	eNFA(enfa1.starts, new_delta +++ enfa1.delta +++ enfa2.delta,
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	59	enfa2.fins)
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	60	}
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	61
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	62	// alternative of two NFAs
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	63	def NFA_ALT(enfa1: NFAt, enfa2: NFAt) : NFAt = {
489 4430477595ec updated Christian Urban <urbanc@in.tum.de> parents: 488 diff changeset	64	val new_delta : NFAtrans = {
4430477595ec updated Christian Urban <urbanc@in.tum.de> parents: 488 diff changeset	65	case (q, c) => applyOrElse(enfa1.delta, (q, c)) \|
4430477595ec updated Christian Urban <urbanc@in.tum.de> parents: 488 diff changeset	66	applyOrElse(enfa2.delta, (q, c)) }
486 3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	67	val new_fins = (q: TState) => enfa1.fins(q) \|\| enfa2.fins(q)
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	68
489 4430477595ec updated Christian Urban <urbanc@in.tum.de> parents: 488 diff changeset	69	NFA(enfa1.starts \| enfa2.starts, new_delta, new_fins)
486 3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	70	}
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	71
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	72	// star of a NFA
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	73	def NFA_STAR(enfa: NFAt) : NFAt = {
486 3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	74	val Q = TState()
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	75	val new_delta : eNFAtrans =
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	76	{ case (Q, None) => enfa.starts
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	77	case (q, None) if enfa.fins(q) => Set(Q) }
3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	78
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	79	eNFA(Set(Q), new_delta +++ enfa.delta, Set(Q))
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	80	}
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	81
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	82
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	83
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	84	// regular expressions
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	85	abstract class Rexp
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	86	case object ZERO extends Rexp // matches nothing
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	87	case object ONE extends Rexp // matches the empty string
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	88	case class CHAR(c: Char) extends Rexp // matches a character c
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	89	case class ALT(r1: Rexp, r2: Rexp) extends Rexp // alternative
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	90	case class SEQ(r1: Rexp, r2: Rexp) extends Rexp // sequence
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	91	case class STAR(r: Rexp) extends Rexp // star
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	92
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	93
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	94
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	95
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	96	// thompson construction
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	97	def thompson (r: Rexp) : NFAt = r match {
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	98	case ZERO => NFA_ZERO()
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	99	case ONE => NFA_ONE()
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	100	case CHAR(c) => NFA_CHAR(c)
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	101	case ALT(r1, r2) => NFA_ALT(thompson(r1), thompson(r2))
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	102	case SEQ(r1, r2) => NFA_SEQ(thompson(r1), thompson(r2))
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	103	case STAR(r1) => NFA_STAR(thompson(r1))
486 3cc1799daf08 updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	104	}
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	105
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	106	//optional regular expression (one or zero times)
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	107	def OPT(r: Rexp) = ALT(r, ONE)
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	108
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	109	//n-times regular expression (explicitly expanded)
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	110	def NTIMES(r: Rexp, n: Int) : Rexp = n match {
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	111	case 0 => ONE
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	112	case 1 => r
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	113	case n => SEQ(r, NTIMES(r, n - 1))
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	114	}
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	115
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	116
488 057b4603b940 updated Christian Urban <urbanc@in.tum.de> parents: 487 diff changeset	117	def tmatches(r: Rexp, s: String) : Boolean =
057b4603b940 updated Christian Urban <urbanc@in.tum.de> parents: 487 diff changeset	118	thompson(r).accepts(s.toList)
057b4603b940 updated Christian Urban <urbanc@in.tum.de> parents: 487 diff changeset	119
057b4603b940 updated Christian Urban <urbanc@in.tum.de> parents: 487 diff changeset	120	def tmatches2(r: Rexp, s: String) : Boolean =
057b4603b940 updated Christian Urban <urbanc@in.tum.de> parents: 487 diff changeset	121	thompson(r).accepts2(s.toList)
057b4603b940 updated Christian Urban <urbanc@in.tum.de> parents: 487 diff changeset	122
491 7a0182c66403 updated Christian Urban <urbanc@in.tum.de> parents: 489 diff changeset	123	// dfa via subset construction
7a0182c66403 updated Christian Urban <urbanc@in.tum.de> parents: 489 diff changeset	124	def tmatches_dfa(r: Rexp, s: String) : Boolean =
7a0182c66403 updated Christian Urban <urbanc@in.tum.de> parents: 489 diff changeset	125	subset(thompson(r)).accepts(s.toList)
488 057b4603b940 updated Christian Urban <urbanc@in.tum.de> parents: 487 diff changeset	126
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	127	// Test Cases
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	128
488 057b4603b940 updated Christian Urban <urbanc@in.tum.de> parents: 487 diff changeset	129
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	130	// the evil regular expression a?{n} a{n}
489 4430477595ec updated Christian Urban <urbanc@in.tum.de> parents: 488 diff changeset	131	def EVIL1(n: Int) : Rexp = SEQ(NTIMES(OPT(CHAR('a')), n), NTIMES(CHAR('a'), n))
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	132
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	133	// the evil regular expression (a)b
489 4430477595ec updated Christian Urban <urbanc@in.tum.de> parents: 488 diff changeset	134	val EVIL2 : Rexp = SEQ(STAR(STAR(CHAR('a'))), CHAR('b'))
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	135
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	136	//for measuring time
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	137	def time_needed[T](i: Int, code: => T) = {
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	138	val start = System.nanoTime()
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	139	for (j <- 1 to i) code
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	140	val end = System.nanoTime()
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	141	(end - start)/(i * 1.0e9)
488 057b4603b940 updated Christian Urban <urbanc@in.tum.de> parents: 487 diff changeset	142	}
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	143
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	144	// the size of the NFA can be large,
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	145	// thus slowing down the breadth-first search
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	146
489 4430477595ec updated Christian Urban <urbanc@in.tum.de> parents: 488 diff changeset	147	for (i <- 1 to 13) {
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	148	println(i + ": " + "%.5f".format(time_needed(2, tmatches(EVIL1(i), "a" * i))))
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	149	}
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	150
489 4430477595ec updated Christian Urban <urbanc@in.tum.de> parents: 488 diff changeset	151	for (i <- 1 to 100 by 5) {
487 ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	152	println(i + " " + "%.5f".format(time_needed(2, tmatches(EVIL2, "a" * i))))
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	153	}
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	154
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	155
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	156	// the backtracking needed in depth-first search
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	157	// can be painfully slow
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	158
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	159	for (i <- 1 to 8) {
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	160	println(i + " " + "%.5f".format(time_needed(2, tmatches2(EVIL2, "a" * i))))
ffbc65112d48 updated Christian Urban <urbanc@in.tum.de> parents: 486 diff changeset	161	}
491 7a0182c66403 updated Christian Urban <urbanc@in.tum.de> parents: 489 diff changeset	162
7a0182c66403 updated Christian Urban <urbanc@in.tum.de> parents: 489 diff changeset	163
7a0182c66403 updated Christian Urban <urbanc@in.tum.de> parents: 489 diff changeset	164
7a0182c66403 updated Christian Urban <urbanc@in.tum.de> parents: 489 diff changeset	165	// while my thompson-enfa-subset-partial-function-chain
7a0182c66403 updated Christian Urban <urbanc@in.tum.de> parents: 489 diff changeset	166	// is probably not the most effcient way to obtain a fast DFA
521 fa5c34e42a35 updated cu parents: 491 diff changeset	167	// (the test below should be much faster with a more direct
fa5c34e42a35 updated cu parents: 491 diff changeset	168	// construction), in general the DFAs can be slow because of
fa5c34e42a35 updated cu parents: 491 diff changeset	169	// the state explosion in the subset construction
491 7a0182c66403 updated Christian Urban <urbanc@in.tum.de> parents: 489 diff changeset	170
7a0182c66403 updated Christian Urban <urbanc@in.tum.de> parents: 489 diff changeset	171	for (i <- 1 to 13) {
7a0182c66403 updated Christian Urban <urbanc@in.tum.de> parents: 489 diff changeset	172	println(i + ": " + "%.5f".format(time_needed(2, tmatches_dfa(EVIL1(i), "a" * i))))
7a0182c66403 updated Christian Urban <urbanc@in.tum.de> parents: 489 diff changeset	173	}
7a0182c66403 updated Christian Urban <urbanc@in.tum.de> parents: 489 diff changeset	174
7a0182c66403 updated Christian Urban <urbanc@in.tum.de> parents: 489 diff changeset	175	for (i <- 1 to 100 by 5) {
7a0182c66403 updated Christian Urban <urbanc@in.tum.de> parents: 489 diff changeset	176	println(i + " " + "%.5f".format(time_needed(2, tmatches_dfa(EVIL2, "a" * i))))
7a0182c66403 updated Christian Urban <urbanc@in.tum.de> parents: 489 diff changeset	177	}

author	Christian Urban <urbanc@in.tum.de>
	Mon, 08 Oct 2018 11:35:04 +0100
changeset 573	f099bf6d48ee
parent 521	fa5c34e42a35
child 586	9cb8dfcb7f30
permissions	-rw-r--r--