diff -r 000000000000 -r 932f27fc6b55 MyhillNerode.thy --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/MyhillNerode.thy Sun Oct 03 06:32:12 2010 +0000 @@ -0,0 +1,1826 @@ +theory RegExp + imports "Main" +begin + +text {* sequential composition of languages *} + +definition + lang_seq :: "string set \ string set \ string set" ("_ ; _" [100,100] 100) +where + "L1 ; L2 = {s1@s2 | s1 s2. s1 \ L1 \ s2 \ L2}" + +lemma lang_seq_empty: + shows "{[]} ; L = L" + and "L ; {[]} = L" +unfolding lang_seq_def by auto + +lemma lang_seq_null: + shows "{} ; L = {}" + and "L ; {} = {}" +unfolding lang_seq_def by auto + +lemma lang_seq_append: + assumes a: "s1 \ L1" + and b: "s2 \ L2" + shows "s1@s2 \ L1 ; L2" +unfolding lang_seq_def +using a b by auto + +lemma lang_seq_union: + shows "(L1 \ L2); L3 = (L1; L3) \ (L2; L3)" + and "L1; (L2 \ L3) = (L1; L2) \ (L1; L3)" +unfolding lang_seq_def by auto + +lemma lang_seq_assoc: + shows "(L1 ; L2) ; L3 = L1 ; (L2 ; L3)" +by (simp add: lang_seq_def Collect_def mem_def expand_fun_eq) + (metis append_assoc) + +lemma lang_seq_minus: + shows "(L1; L2) - {[]} = + (if [] \ L1 then L2 - {[]} else {}) \ + (if [] \ L2 then L1 - {[]} else {}) \ ((L1 - {[]}); (L2 - {[]}))" +apply(auto simp add: lang_seq_def) +apply(metis mem_def self_append_conv) +apply(metis mem_def self_append_conv2) +apply(metis mem_def self_append_conv2) +apply(metis mem_def self_append_conv) +done + +section {* Kleene star for languages defined as least fixed point *} + +inductive_set + Star :: "string set \ string set" ("_\" [101] 102) + for L :: "string set" +where + start[intro]: "[] \ L\" +| step[intro]: "\s1 \ L; s2 \ L\\ \ s1@s2 \ L\" + +lemma lang_star_empty: + shows "{}\ = {[]}" +by (auto elim: Star.cases) + +lemma lang_star_cases: + shows "L\ = {[]} \ L ; L\" +proof + { fix x + have "x \ L\ \ x \ {[]} \ L ; L\" + unfolding lang_seq_def + by (induct rule: Star.induct) (auto) + } + then show "L\ \ {[]} \ L ; L\" by auto +next + show "{[]} \ L ; L\ \ L\" + unfolding lang_seq_def by auto +qed + +lemma lang_star_cases': + shows "L\ = {[]} \ L\ ; L" +proof + { fix x + have "x \ L\ \ x \ {[]} \ L\ ; L" + unfolding lang_seq_def + apply (induct rule: Star.induct) + apply simp + apply simp + apply (erule disjE) + apply (auto)[1] + apply (erule exE | erule conjE)+ + apply (rule disjI2) + apply (rule_tac x = "s1 @ s1a" in exI) + by auto + } + then show "L\ \ {[]} \ L\ ; L" by auto +next + show "{[]} \ L\ ; L \ L\" + unfolding lang_seq_def + apply auto + apply (erule Star.induct) + apply auto + apply (drule step[of _ _ "[]"]) + by (auto intro:start) +qed + +lemma lang_star_simple: + shows "L \ L\" +by (subst lang_star_cases) + (auto simp only: lang_seq_def) + +lemma lang_star_prop0_aux: + "s2 \ L\ \ \ s1. s1 \ L \ (\ s3 s4. s3 \ L\ \ s4 \ L \ s1 @ s2 = s3 @ s4)" +apply (erule Star.induct) +apply (clarify, rule_tac x = "[]" in exI, rule_tac x = s1 in exI, simp add:start) +apply (clarify, drule_tac x = s1 in spec) +apply (drule mp, simp, clarify) +apply (rule_tac x = "s1a @ s3" in exI, rule_tac x = s4 in exI) +by auto + +lemma lang_star_prop0: + "\s1 \ L; s2 \ L\\ \ \ s3 s4. s3 \ L\ \ s4 \ L \ s1 @ s2 = s3 @ s4" +by (auto dest:lang_star_prop0_aux) + +lemma lang_star_prop1: + assumes asm: "L1; L2 \ L2" + shows "L1\; L2 \ L2" +proof - + { fix s1 s2 + assume minor: "s2 \ L2" + assume major: "s1 \ L1\" + then have "s1@s2 \ L2" + proof(induct rule: Star.induct) + case start + show "[]@s2 \ L2" using minor by simp + next + case (step s1 s1') + have "s1 \ L1" by fact + moreover + have "s1'@s2 \ L2" by fact + ultimately have "s1@(s1'@s2) \ L1; L2" by (auto simp add: lang_seq_def) + with asm have "s1@(s1'@s2) \ L2" by auto + then show "(s1@s1')@s2 \ L2" by simp + qed + } + then show "L1\; L2 \ L2" by (auto simp add: lang_seq_def) +qed + +lemma lang_star_prop2_aux: + "s2 \ L2\ \ \ s1. s1 \ L1 \ L1 ; L2 \ L1 \ s1 @ s2 \ L1" +apply (erule Star.induct, simp) +apply (clarify, drule_tac x = "s1a @ s1" in spec) +by (auto simp:lang_seq_def) + +lemma lang_star_prop2: + "L1; L2 \ L1 \ L1 ; L2\ \ L1" +by (auto dest!:lang_star_prop2_aux simp:lang_seq_def) + +lemma lang_star_seq_subseteq: + shows "L ; L\ \ L\" +using lang_star_cases by blast + +lemma lang_star_double: + shows "L\; L\ = L\" +proof + show "L\ ; L\ \ L\" + using lang_star_prop1 lang_star_seq_subseteq by blast +next + have "L\ \ L\ \ L\; (L; L\)" by auto + also have "\ = L\;{[]} \ L\; (L; L\)" by (simp add: lang_seq_empty) + also have "\ = L\; ({[]} \ L; L\)" by (simp only: lang_seq_union) + also have "\ = L\; L\" using lang_star_cases by simp + finally show "L\ \ L\ ; L\" by simp +qed + +lemma lang_star_seq_subseteq': + shows "L\; L \ L\" +proof - + have "L \ L\" by (rule lang_star_simple) + then have "L\; L \ L\; L\" by (auto simp add: lang_seq_def) + then show "L\; L \ L\" using lang_star_double by blast +qed + +lemma + shows "L\ \ L\\" +by (rule lang_star_simple) + +section {* tricky section *} + +lemma k1: + assumes b: "s \ L\" + and a: "s \ []" + shows "s \ (L - {[]}); L\" +using b a +apply(induct rule: Star.induct) +apply(simp) +apply(case_tac "s1=[]") +apply(simp) +apply(simp add: lang_seq_def) +apply(blast) +done + +section {* (relies on lemma k1) *} + +lemma zzz: + shows "{s. c#s \ L1\} = {s. c#s \ L1} ; (L1\)" +apply(auto simp add: lang_seq_def Cons_eq_append_conv) +apply(drule k1) +apply(auto)[1] +apply(auto simp add: lang_seq_def)[1] +apply(rule_tac x="tl s1" in exI) +apply(rule_tac x="s2" in exI) +apply(auto)[1] +apply(auto simp add: Cons_eq_append_conv)[2] +apply(drule lang_seq_append) +apply(assumption) +apply(rotate_tac 1) +apply(drule rev_subsetD) +apply(rule lang_star_seq_subseteq) +apply(simp) +done + + + +section {* regular expressions *} + +datatype rexp = + NULL +| EMPTY +| CHAR char +| SEQ rexp rexp +| ALT rexp rexp +| STAR rexp + + +consts L:: "'a \ string set" + +fun + L_rexp :: "rexp \ string set" +where + "L_rexp (NULL) = {}" +| "L_rexp (EMPTY) = {[]}" +| "L_rexp (CHAR c) = {[c]}" +| "L_rexp (SEQ r1 r2) = (L_rexp r1) ; (L_rexp r2)" +| "L_rexp (ALT r1 r2) = (L_rexp r1) \ (L_rexp r2)" +| "L_rexp (STAR r) = (L_rexp r)\" + +defs (overloaded) + l_rexp_abs: "L rexp \ L_rexp rexp" + +declare L_rexp.simps [simp del] L_rexp.simps [folded l_rexp_abs, simp add] + +definition + Ls :: "rexp set \ string set" +where + "Ls R = (\r\R. (L r))" + +lemma Ls_union: + "Ls (R1 \ R2) = (Ls R1) \ (Ls R2)" +unfolding Ls_def by auto + +text {* helper function for termination proofs *} +fun + Left :: "rexp \ rexp" +where + "Left (SEQ r1 r2) = r1" + +text {* dagger function *} + +function + dagger :: "rexp \ char \ rexp list" ("_ \ _") +where + c1: "(NULL \ c) = []" +| c2: "(EMPTY) \ c = []" +| c3: "(CHAR c') \ c = (if c = c' then [EMPTY] else [])" +| c4: "(ALT r1 r2) \ c = r1 \ c @ r2 \ c" +| c5: "(SEQ NULL r2) \ c = []" +| c6: "(SEQ EMPTY r2) \ c = r2 \ c" +| c7: "(SEQ (CHAR c') r2) \ c = (if c = c' then [r2] else [])" +| c8: "(SEQ (SEQ r11 r12) r2) \ c = (SEQ r11 (SEQ r12 r2)) \ c" +| c9: "(SEQ (ALT r11 r12) r2) \ c = (SEQ r11 r2) \ c @ (SEQ r12 r2) \ c" +| c10: "(SEQ (STAR r1) r2) \ c = r2 \ c @ [SEQ r' (SEQ (STAR r1) r2). r' \ r1 \ c]" +| c11: "(STAR r) \ c = [SEQ r' (STAR r) . r' \ r \ c]" +by (pat_completeness) (auto) + +termination dagger + by (relation "measures [\(r, c). size r, \(r, c). size (Left r)]") (simp_all) + +lemma dagger_correctness: + "Ls (set r \ c) = {s. c#s \ L r}" +proof (induct rule: dagger.induct) + case (1 c) + show "Ls (set NULL \ c) = {s. c#s \ L NULL}" by (simp add: Ls_def) +next + case (2 c) + show "Ls (set EMPTY \ c) = {s. c#s \ L EMPTY}" by (simp add: Ls_def) +next + case (3 c' c) + show "Ls (set CHAR c' \ c) = {s. c#s \ L (CHAR c')}" by (simp add: Ls_def) +next + case (4 r1 r2 c) + have ih1: "Ls (set r1 \ c) = {s. c#s \ L r1}" by fact + have ih2: "Ls (set r2 \ c) = {s. c#s \ L r2}" by fact + show "Ls (set ALT r1 r2 \ c) = {s. c#s \ L (ALT r1 r2)}" + by (simp add: Ls_union ih1 ih2 Collect_disj_eq) +next + case (5 r2 c) + show "Ls (set SEQ NULL r2 \ c) = {s. c#s \ L (SEQ NULL r2)}" by (simp add: Ls_def lang_seq_null) +next + case (6 r2 c) + have ih: "Ls (set r2 \ c) = {s. c#s \ L r2}" by fact + show "Ls (set SEQ EMPTY r2 \ c) = {s. c#s \ L (SEQ EMPTY r2)}" + by (simp add: ih lang_seq_empty) +next + case (7 c' r2 c) + show "Ls (set SEQ (CHAR c') r2 \ c) = {s. c#s \ L (SEQ (CHAR c') r2)}" + by (simp add: Ls_def lang_seq_def) +next + case (8 r11 r12 r2 c) + have ih: "Ls (set SEQ r11 (SEQ r12 r2) \ c) = {s. c#s \ L (SEQ r11 (SEQ r12 r2))}" by fact + show "Ls (set SEQ (SEQ r11 r12) r2 \ c) = {s. c#s \ L (SEQ (SEQ r11 r12) r2)}" + by (simp add: ih lang_seq_assoc) +next + case (9 r11 r12 r2 c) + have ih1: "Ls (set SEQ r11 r2 \ c) = {s. c#s \ L (SEQ r11 r2)}" by fact + have ih2: "Ls (set SEQ r12 r2 \ c) = {s. c#s \ L (SEQ r12 r2)}" by fact + show "Ls (set SEQ (ALT r11 r12) r2 \ c) = {s. c#s \ L (SEQ (ALT r11 r12) r2)}" + by (simp add: Ls_union ih1 ih2 lang_seq_union Collect_disj_eq) +next + case (10 r1 r2 c) + have ih2: "Ls (set r2 \ c) = {s. c#s \ L r2}" by fact + have ih1: "Ls (set r1 \ c) = {s. c#s \ L r1}" by fact + have "Ls (set SEQ (STAR r1) r2 \ c) = Ls (set r2 \ c) \ (Ls (set r1 \ c); ((L r1)\ ; L r2))" + by (auto simp add: lang_seq_def Ls_def) + also have "\ = {s. c#s \ L r2} \ ({s. c#s \ L r1} ; ((L r1)\ ; L r2))" using ih1 ih2 by simp + also have "\ = {s. c#s \ L r2} \ ({s. c#s \ L r1} ; (L r1)\) ; L r2" by (simp add: lang_seq_assoc) + also have "\ = {s. c#s \ L r2} \ {s. c#s \ (L r1)\} ; L r2" by (simp add: zzz) + also have "\ = {s. c#s \ L r2} \ {s. c#s \ (L r1)\ ; L r2}" + by (auto simp add: lang_seq_def Cons_eq_append_conv) + also have "\ = {s. c#s \ (L r1)\ ; L r2}" + by (force simp add: lang_seq_def) + finally show "Ls (set SEQ (STAR r1) r2 \ c) = {s. c#s \ L (SEQ (STAR r1) r2)}" by simp +next + case (11 r c) + have ih: "Ls (set r \ c) = {s. c#s \ L r}" by fact + have "Ls (set (STAR r) \ c) = Ls (set r \ c) ; (L r)\" + by (auto simp add: lang_seq_def Ls_def) + also have "\ = {s. c#s \ L r} ; (L r)\" using ih by simp + also have "\ = {s. c#s \ (L r)\}" using zzz by simp + finally show "Ls (set (STAR r) \ c) = {s. c#s \ L (STAR r)}" by simp +qed + + +text {* matcher function (based on the "list"-dagger function) *} +fun + first_True :: "bool list \ bool" +where + "first_True [] = False" +| "first_True (x#xs) = (if x then True else first_True xs)" + +lemma not_first_True[simp]: + shows "(\(first_True xs)) = (\x \ set xs. \x)" +by (induct xs) (auto) + +lemma first_True: + shows "(first_True xs) = (\x \ set xs. x)" +by (induct xs) (auto) + +text {* matcher function *} + +function + matcher :: "rexp \ string \ bool" ("_ ! _") +where + "NULL ! s = False" +| "EMPTY ! s = (s =[])" +| "CHAR c ! s = (s = [c])" +| "ALT r1 r2 ! s = (r1 ! s \ r2 ! s)" +| "STAR r ! [] = True" +| "STAR r ! c#s = first_True [SEQ (r') (STAR r) ! s. r' \ r \ c]" +| "SEQ r1 r2 ! [] = (r1 ! [] \ r2 ! [])" +| "SEQ NULL r2 ! (c#s) = False" +| "SEQ EMPTY r2 ! (c#s) = (r2 ! c#s)" +| "SEQ (CHAR c') r2 ! (c#s) = (if c'=c then r2 ! s else False)" +| "SEQ (SEQ r11 r12) r2 ! (c#s) = (SEQ r11 (SEQ r12 r2) ! c#s)" +| "SEQ (ALT r11 r12) r2 ! (c#s) = ((SEQ r11 r2) ! (c#s) \ (SEQ r12 r2) ! (c#s))" +| "SEQ (STAR r1) r2 ! (c#s) = (r2 ! (c#s) \ first_True [SEQ r' (SEQ (STAR r1) r2) ! s. r' \ r1 \ c])" +by (pat_completeness) (auto) + +termination matcher + by(relation "measures [\(r,s). length s, \(r,s). size r, \(r,s). size (Left r)]") (simp_all) + +text {* positive correctness of the matcher *} +lemma matcher1: + shows "r ! s \ s \ L r" +proof (induct rule: matcher.induct) + case (1 s) + have "NULL ! s" by fact + then show "s \ L NULL" by simp +next + case (2 s) + have "EMPTY ! s" by fact + then show "s \ L EMPTY" by simp +next + case (3 c s) + have "CHAR c ! s" by fact + then show "s \ L (CHAR c)" by simp +next + case (4 r1 r2 s) + have ih1: "r1 ! s \ s \ L r1" by fact + have ih2: "r2 ! s \ s \ L r2" by fact + have "ALT r1 r2 ! s" by fact + with ih1 ih2 show "s \ L (ALT r1 r2)" by auto +next + case (5 r) + have "STAR r ! []" by fact + then show "[] \ L (STAR r)" by auto +next + case (6 r c s) + have ih1: "\rx. \rx \ set r \ c; SEQ rx (STAR r) ! s\ \ s \ L (SEQ rx (STAR r))" by fact + have as: "STAR r ! c#s" by fact + then obtain r' where imp1: "r' \ set r \ c" and imp2: "SEQ r' (STAR r) ! s" + by (auto simp add: first_True) + from imp2 imp1 have "s \ L (SEQ r' (STAR r))" using ih1 by simp + then have "s \ L r' ; (L r)\" by simp + then have "s \ Ls (set r \ c) ; (L r)\" using imp1 by (auto simp add: Ls_def lang_seq_def) + then have "s \ {s. c#s \ L r} ; (L r)\" by (auto simp add: dagger_correctness) + then have "s \ {s. c#s \ (L r)\}" by (simp add: zzz) + then have "c#s \ {[c]}; {s. c#s \ (L r)\}" by (auto simp add: lang_seq_def) + then have "c#s \ (L r)\" by (auto simp add: lang_seq_def) + then show "c#s \ L (STAR r)" by simp +next + case (7 r1 r2) + have ih1: "r1 ! [] \ [] \ L r1" by fact + have ih2: "r2 ! [] \ [] \ L r2" by fact + have as: "SEQ r1 r2 ! []" by fact + then have "r1 ! [] \ r2 ! []" by simp + then show "[] \ L (SEQ r1 r2)" using ih1 ih2 by (simp add: lang_seq_def) +next + case (8 r2 c s) + have "SEQ NULL r2 ! c#s" by fact + then show "c#s \ L (SEQ NULL r2)" by simp +next + case (9 r2 c s) + have ih1: "r2 ! c#s \ c#s \ L r2" by fact + have "SEQ EMPTY r2 ! c#s" by fact + then show "c#s \ L (SEQ EMPTY r2)" using ih1 by (simp add: lang_seq_def) +next + case (10 c' r2 c s) + have ih1: "\c' = c; r2 ! s\ \ s \ L r2" by fact + have "SEQ (CHAR c') r2 ! c#s" by fact + then show "c#s \ L (SEQ (CHAR c') r2)" + using ih1 by (auto simp add: lang_seq_def split: if_splits) +next + case (11 r11 r12 r2 c s) + have ih1: "SEQ r11 (SEQ r12 r2) ! c#s \ c#s \ L (SEQ r11 (SEQ r12 r2))" by fact + have "SEQ (SEQ r11 r12) r2 ! c#s" by fact + then have "c#s \ L (SEQ r11 (SEQ r12 r2))" using ih1 by simp + then show "c#s \ L (SEQ (SEQ r11 r12) r2)" by (simp add: lang_seq_assoc) +next + case (12 r11 r12 r2 c s) + have ih1: "SEQ r11 r2 ! c#s \ c#s \ L (SEQ r11 r2)" by fact + have ih2: "SEQ r12 r2 ! c#s \ c#s \ L (SEQ r12 r2)" by fact + have "SEQ (ALT r11 r12) r2 ! c#s" by fact + then show "c#s \ L (SEQ (ALT r11 r12) r2)" + using ih1 ih2 by (auto simp add: lang_seq_union) +next + case (13 r1 r2 c s) + have ih1: "r2 ! c#s \ c#s \ L r2" by fact + have ih2: "\r'. \r' \ set r1 \ c; SEQ r' (SEQ (STAR r1) r2) ! s\ \ + s \ L (SEQ r' (SEQ (STAR r1) r2))" by fact + have "SEQ (STAR r1) r2 ! c#s" by fact + then have "(r2 ! c#s) \ (\r' \ set r1 \ c. SEQ r' (SEQ (STAR r1) r2) ! s)" by (auto simp add: first_True) + moreover + { assume "r2 ! c#s" + with ih1 have "c#s \ L r2" by simp + then have "c # s \ L r1\ ; L r2" + by (auto simp add: lang_seq_def) + then have "c#s \ L (SEQ (STAR r1) r2)" by simp + } + moreover + { assume "\r' \ set r1 \ c. SEQ r' (SEQ (STAR r1) r2) ! s" + then obtain r' where imp1: "r' \ set r1 \ c" and imp2: "SEQ r' (SEQ (STAR r1) r2) ! s" by blast + from imp2 imp1 have "s \ L (SEQ r' (SEQ (STAR r1) r2))" using ih2 by simp + then have "s \ L r' ; ((L r1)\ ; L r2)" by simp + then have "s \ Ls (set r1 \ c) ; ((L r1)\