/ Hex Artifact Content
Login

Artifact df529ee9b70f21ebb9c5affd3c7669ee615accc7:


0000: 2f 2a 0a 2a 2a 20 32 30 30 36 20 53 65 70 74 65  /*.** 2006 Septe
0010: 6d 62 65 72 20 33 30 0a 2a 2a 0a 2a 2a 20 54 68  mber 30.**.** Th
0020: 65 20 61 75 74 68 6f 72 20 64 69 73 63 6c 61 69  e author disclai
0030: 6d 73 20 63 6f 70 79 72 69 67 68 74 20 74 6f 20  ms copyright to 
0040: 74 68 69 73 20 73 6f 75 72 63 65 20 63 6f 64 65  this source code
0050: 2e 20 20 49 6e 20 70 6c 61 63 65 20 6f 66 0a 2a  .  In place of.*
0060: 2a 20 61 20 6c 65 67 61 6c 20 6e 6f 74 69 63 65  * a legal notice
0070: 2c 20 68 65 72 65 20 69 73 20 61 20 62 6c 65 73  , here is a bles
0080: 73 69 6e 67 3a 0a 2a 2a 0a 2a 2a 20 20 20 20 4d  sing:.**.**    M
0090: 61 79 20 79 6f 75 20 64 6f 20 67 6f 6f 64 20 61  ay you do good a
00a0: 6e 64 20 6e 6f 74 20 65 76 69 6c 2e 0a 2a 2a 20  nd not evil..** 
00b0: 20 20 20 4d 61 79 20 79 6f 75 20 66 69 6e 64 20     May you find 
00c0: 66 6f 72 67 69 76 65 6e 65 73 73 20 66 6f 72 20  forgiveness for 
00d0: 79 6f 75 72 73 65 6c 66 20 61 6e 64 20 66 6f 72  yourself and for
00e0: 67 69 76 65 20 6f 74 68 65 72 73 2e 0a 2a 2a 20  give others..** 
00f0: 20 20 20 4d 61 79 20 79 6f 75 20 73 68 61 72 65     May you share
0100: 20 66 72 65 65 6c 79 2c 20 6e 65 76 65 72 20 74   freely, never t
0110: 61 6b 69 6e 67 20 6d 6f 72 65 20 74 68 61 6e 20  aking more than 
0120: 79 6f 75 20 67 69 76 65 2e 0a 2a 2a 0a 2a 2a 2a  you give..**.***
0130: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0140: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0150: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0160: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0170: 2a 2a 2a 2a 2a 2a 0a 2a 2a 20 49 6d 70 6c 65 6d  ******.** Implem
0180: 65 6e 74 61 74 69 6f 6e 20 6f 66 20 74 68 65 20  entation of the 
0190: 66 75 6c 6c 2d 74 65 78 74 2d 73 65 61 72 63 68  full-text-search
01a0: 20 74 6f 6b 65 6e 69 7a 65 72 20 74 68 61 74 20   tokenizer that 
01b0: 69 6d 70 6c 65 6d 65 6e 74 73 0a 2a 2a 20 61 20  implements.** a 
01c0: 50 6f 72 74 65 72 20 73 74 65 6d 6d 65 72 2e 0a  Porter stemmer..
01d0: 2a 2f 0a 0a 2f 2a 0a 2a 2a 20 54 68 65 20 63 6f  */../*.** The co
01e0: 64 65 20 69 6e 20 74 68 69 73 20 66 69 6c 65 20  de in this file 
01f0: 69 73 20 6f 6e 6c 79 20 63 6f 6d 70 69 6c 65 64  is only compiled
0200: 20 69 66 3a 0a 2a 2a 0a 2a 2a 20 20 20 20 20 2a   if:.**.**     *
0210: 20 54 68 65 20 46 54 53 32 20 6d 6f 64 75 6c 65   The FTS2 module
0220: 20 69 73 20 62 65 69 6e 67 20 62 75 69 6c 74 20   is being built 
0230: 61 73 20 61 6e 20 65 78 74 65 6e 73 69 6f 6e 0a  as an extension.
0240: 2a 2a 20 20 20 20 20 20 20 28 69 6e 20 77 68 69  **       (in whi
0250: 63 68 20 63 61 73 65 20 53 51 4c 49 54 45 5f 43  ch case SQLITE_C
0260: 4f 52 45 20 69 73 20 6e 6f 74 20 64 65 66 69 6e  ORE is not defin
0270: 65 64 29 2c 20 6f 72 0a 2a 2a 0a 2a 2a 20 20 20  ed), or.**.**   
0280: 20 20 2a 20 54 68 65 20 46 54 53 32 20 6d 6f 64    * The FTS2 mod
0290: 75 6c 65 20 69 73 20 62 65 69 6e 67 20 62 75 69  ule is being bui
02a0: 6c 74 20 69 6e 74 6f 20 74 68 65 20 63 6f 72 65  lt into the core
02b0: 20 6f 66 0a 2a 2a 20 20 20 20 20 20 20 53 51 4c   of.**       SQL
02c0: 69 74 65 20 28 69 6e 20 77 68 69 63 68 20 63 61  ite (in which ca
02d0: 73 65 20 53 51 4c 49 54 45 5f 45 4e 41 42 4c 45  se SQLITE_ENABLE
02e0: 5f 46 54 53 32 20 69 73 20 64 65 66 69 6e 65 64  _FTS2 is defined
02f0: 29 2e 0a 2a 2f 0a 23 69 66 20 21 64 65 66 69 6e  )..*/.#if !defin
0300: 65 64 28 53 51 4c 49 54 45 5f 43 4f 52 45 29 20  ed(SQLITE_CORE) 
0310: 7c 7c 20 64 65 66 69 6e 65 64 28 53 51 4c 49 54  || defined(SQLIT
0320: 45 5f 45 4e 41 42 4c 45 5f 46 54 53 32 29 0a 0a  E_ENABLE_FTS2)..
0330: 0a 23 69 6e 63 6c 75 64 65 20 3c 61 73 73 65 72  .#include <asser
0340: 74 2e 68 3e 0a 23 69 66 20 21 64 65 66 69 6e 65  t.h>.#if !define
0350: 64 28 5f 5f 41 50 50 4c 45 5f 5f 29 0a 23 69 6e  d(__APPLE__).#in
0360: 63 6c 75 64 65 20 3c 6d 61 6c 6c 6f 63 2e 68 3e  clude <malloc.h>
0370: 0a 23 65 6c 73 65 0a 23 69 6e 63 6c 75 64 65 20  .#else.#include 
0380: 3c 73 74 64 6c 69 62 2e 68 3e 0a 23 65 6e 64 69  <stdlib.h>.#endi
0390: 66 0a 23 69 6e 63 6c 75 64 65 20 3c 73 74 64 69  f.#include <stdi
03a0: 6f 2e 68 3e 0a 23 69 6e 63 6c 75 64 65 20 3c 73  o.h>.#include <s
03b0: 74 72 69 6e 67 2e 68 3e 0a 23 69 6e 63 6c 75 64  tring.h>.#includ
03c0: 65 20 3c 63 74 79 70 65 2e 68 3e 0a 0a 23 69 6e  e <ctype.h>..#in
03d0: 63 6c 75 64 65 20 22 66 74 73 32 5f 74 6f 6b 65  clude "fts2_toke
03e0: 6e 69 7a 65 72 2e 68 22 0a 0a 2f 2a 0a 2a 2a 20  nizer.h"../*.** 
03f0: 43 6c 61 73 73 20 64 65 72 69 76 65 64 20 66 72  Class derived fr
0400: 6f 6d 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e  om sqlite3_token
0410: 69 7a 65 72 0a 2a 2f 0a 74 79 70 65 64 65 66 20  izer.*/.typedef 
0420: 73 74 72 75 63 74 20 70 6f 72 74 65 72 5f 74 6f  struct porter_to
0430: 6b 65 6e 69 7a 65 72 20 7b 0a 20 20 73 71 6c 69  kenizer {.  sqli
0440: 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 62 61  te3_tokenizer ba
0450: 73 65 3b 20 20 20 20 20 20 2f 2a 20 42 61 73 65  se;      /* Base
0460: 20 63 6c 61 73 73 20 2a 2f 0a 7d 20 70 6f 72 74   class */.} port
0470: 65 72 5f 74 6f 6b 65 6e 69 7a 65 72 3b 0a 0a 2f  er_tokenizer;../
0480: 2a 0a 2a 2a 20 43 6c 61 73 73 20 64 65 72 69 76  *.** Class deriv
0490: 65 64 20 66 72 6f 6d 20 73 71 6c 69 74 33 5f 74  ed from sqlit3_t
04a0: 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 0a  okenizer_cursor.
04b0: 2a 2f 0a 74 79 70 65 64 65 66 20 73 74 72 75 63  */.typedef struc
04c0: 74 20 70 6f 72 74 65 72 5f 74 6f 6b 65 6e 69 7a  t porter_tokeniz
04d0: 65 72 5f 63 75 72 73 6f 72 20 7b 0a 20 20 73 71  er_cursor {.  sq
04e0: 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f  lite3_tokenizer_
04f0: 63 75 72 73 6f 72 20 62 61 73 65 3b 0a 20 20 63  cursor base;.  c
0500: 6f 6e 73 74 20 63 68 61 72 20 2a 7a 49 6e 70 75  onst char *zInpu
0510: 74 3b 20 20 20 20 20 20 20 20 20 20 2f 2a 20 69  t;          /* i
0520: 6e 70 75 74 20 77 65 20 61 72 65 20 74 6f 6b 65  nput we are toke
0530: 6e 69 7a 69 6e 67 20 2a 2f 0a 20 20 69 6e 74 20  nizing */.  int 
0540: 6e 49 6e 70 75 74 3b 20 20 20 20 20 20 20 20 20  nInput;         
0550: 20 20 20 20 20 20 20 20 20 2f 2a 20 73 69 7a 65           /* size
0560: 20 6f 66 20 74 68 65 20 69 6e 70 75 74 20 2a 2f   of the input */
0570: 0a 20 20 69 6e 74 20 69 4f 66 66 73 65 74 3b 20  .  int iOffset; 
0580: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0590: 2f 2a 20 63 75 72 72 65 6e 74 20 70 6f 73 69 74  /* current posit
05a0: 69 6f 6e 20 69 6e 20 7a 49 6e 70 75 74 20 2a 2f  ion in zInput */
05b0: 0a 20 20 69 6e 74 20 69 54 6f 6b 65 6e 3b 20 20  .  int iToken;  
05c0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
05d0: 2f 2a 20 69 6e 64 65 78 20 6f 66 20 6e 65 78 74  /* index of next
05e0: 20 74 6f 6b 65 6e 20 74 6f 20 62 65 20 72 65 74   token to be ret
05f0: 75 72 6e 65 64 20 2a 2f 0a 20 20 63 68 61 72 20  urned */.  char 
0600: 2a 7a 54 6f 6b 65 6e 3b 20 20 20 20 20 20 20 20  *zToken;        
0610: 20 20 20 20 20 20 20 20 2f 2a 20 73 74 6f 72 61          /* stora
0620: 67 65 20 66 6f 72 20 63 75 72 72 65 6e 74 20 74  ge for current t
0630: 6f 6b 65 6e 20 2a 2f 0a 20 20 69 6e 74 20 6e 41  oken */.  int nA
0640: 6c 6c 6f 63 61 74 65 64 3b 20 20 20 20 20 20 20  llocated;       
0650: 20 20 20 20 20 20 20 2f 2a 20 73 70 61 63 65 20         /* space 
0660: 61 6c 6c 6f 63 61 74 65 64 20 74 6f 20 7a 54 6f  allocated to zTo
0670: 6b 65 6e 20 62 75 66 66 65 72 20 2a 2f 0a 7d 20  ken buffer */.} 
0680: 70 6f 72 74 65 72 5f 74 6f 6b 65 6e 69 7a 65 72  porter_tokenizer
0690: 5f 63 75 72 73 6f 72 3b 0a 0a 0a 2f 2a 20 46 6f  _cursor;.../* Fo
06a0: 72 77 61 72 64 20 64 65 63 6c 61 72 61 74 69 6f  rward declaratio
06b0: 6e 20 2a 2f 0a 73 74 61 74 69 63 20 63 6f 6e 73  n */.static cons
06c0: 74 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69  t sqlite3_tokeni
06d0: 7a 65 72 5f 6d 6f 64 75 6c 65 20 70 6f 72 74 65  zer_module porte
06e0: 72 54 6f 6b 65 6e 69 7a 65 72 4d 6f 64 75 6c 65  rTokenizerModule
06f0: 3b 0a 0a 0a 2f 2a 0a 2a 2a 20 43 72 65 61 74 65  ;.../*.** Create
0700: 20 61 20 6e 65 77 20 74 6f 6b 65 6e 69 7a 65 72   a new tokenizer
0710: 20 69 6e 73 74 61 6e 63 65 2e 0a 2a 2f 0a 73 74   instance..*/.st
0720: 61 74 69 63 20 69 6e 74 20 70 6f 72 74 65 72 43  atic int porterC
0730: 72 65 61 74 65 28 0a 20 20 69 6e 74 20 61 72 67  reate(.  int arg
0740: 63 2c 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 20  c, const char * 
0750: 63 6f 6e 73 74 20 2a 61 72 67 76 2c 0a 20 20 73  const *argv,.  s
0760: 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72  qlite3_tokenizer
0770: 20 2a 2a 70 70 54 6f 6b 65 6e 69 7a 65 72 0a 29   **ppTokenizer.)
0780: 7b 0a 20 20 70 6f 72 74 65 72 5f 74 6f 6b 65 6e  {.  porter_token
0790: 69 7a 65 72 20 2a 74 3b 0a 20 20 74 20 3d 20 28  izer *t;.  t = (
07a0: 70 6f 72 74 65 72 5f 74 6f 6b 65 6e 69 7a 65 72  porter_tokenizer
07b0: 20 2a 29 20 63 61 6c 6c 6f 63 28 73 69 7a 65 6f   *) calloc(sizeo
07c0: 66 28 2a 74 29 2c 20 31 29 3b 0a 20 20 69 66 28  f(*t), 1);.  if(
07d0: 20 74 3d 3d 4e 55 4c 4c 20 29 20 72 65 74 75 72   t==NULL ) retur
07e0: 6e 20 53 51 4c 49 54 45 5f 4e 4f 4d 45 4d 3b 0a  n SQLITE_NOMEM;.
07f0: 0a 20 20 2a 70 70 54 6f 6b 65 6e 69 7a 65 72 20  .  *ppTokenizer 
0800: 3d 20 26 74 2d 3e 62 61 73 65 3b 0a 20 20 72 65  = &t->base;.  re
0810: 74 75 72 6e 20 53 51 4c 49 54 45 5f 4f 4b 3b 0a  turn SQLITE_OK;.
0820: 7d 0a 0a 2f 2a 0a 2a 2a 20 44 65 73 74 72 6f 79  }../*.** Destroy
0830: 20 61 20 74 6f 6b 65 6e 69 7a 65 72 0a 2a 2f 0a   a tokenizer.*/.
0840: 73 74 61 74 69 63 20 69 6e 74 20 70 6f 72 74 65  static int porte
0850: 72 44 65 73 74 72 6f 79 28 73 71 6c 69 74 65 33  rDestroy(sqlite3
0860: 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 70 54 6f 6b  _tokenizer *pTok
0870: 65 6e 69 7a 65 72 29 7b 0a 20 20 66 72 65 65 28  enizer){.  free(
0880: 70 54 6f 6b 65 6e 69 7a 65 72 29 3b 0a 20 20 72  pTokenizer);.  r
0890: 65 74 75 72 6e 20 53 51 4c 49 54 45 5f 4f 4b 3b  eturn SQLITE_OK;
08a0: 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 50 72 65 70 61 72  .}../*.** Prepar
08b0: 65 20 74 6f 20 62 65 67 69 6e 20 74 6f 6b 65 6e  e to begin token
08c0: 69 7a 69 6e 67 20 61 20 70 61 72 74 69 63 75 6c  izing a particul
08d0: 61 72 20 73 74 72 69 6e 67 2e 20 20 54 68 65 20  ar string.  The 
08e0: 69 6e 70 75 74 0a 2a 2a 20 73 74 72 69 6e 67 20  input.** string 
08f0: 74 6f 20 62 65 20 74 6f 6b 65 6e 69 7a 65 64 20  to be tokenized 
0900: 69 73 20 7a 49 6e 70 75 74 5b 30 2e 2e 6e 49 6e  is zInput[0..nIn
0910: 70 75 74 2d 31 5d 2e 20 20 41 20 63 75 72 73 6f  put-1].  A curso
0920: 72 0a 2a 2a 20 75 73 65 64 20 74 6f 20 69 6e 63  r.** used to inc
0930: 72 65 6d 65 6e 74 61 6c 6c 79 20 74 6f 6b 65 6e  rementally token
0940: 69 7a 65 20 74 68 69 73 20 73 74 72 69 6e 67 20  ize this string 
0950: 69 73 20 72 65 74 75 72 6e 65 64 20 69 6e 20 0a  is returned in .
0960: 2a 2a 20 2a 70 70 43 75 72 73 6f 72 2e 0a 2a 2f  ** *ppCursor..*/
0970: 0a 73 74 61 74 69 63 20 69 6e 74 20 70 6f 72 74  .static int port
0980: 65 72 4f 70 65 6e 28 0a 20 20 73 71 6c 69 74 65  erOpen(.  sqlite
0990: 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 70 54 6f  3_tokenizer *pTo
09a0: 6b 65 6e 69 7a 65 72 2c 20 20 20 20 20 20 20 20  kenizer,        
09b0: 20 2f 2a 20 54 68 65 20 74 6f 6b 65 6e 69 7a 65   /* The tokenize
09c0: 72 20 2a 2f 0a 20 20 63 6f 6e 73 74 20 63 68 61  r */.  const cha
09d0: 72 20 2a 7a 49 6e 70 75 74 2c 20 69 6e 74 20 6e  r *zInput, int n
09e0: 49 6e 70 75 74 2c 20 20 20 20 20 20 20 20 2f 2a  Input,        /*
09f0: 20 53 74 72 69 6e 67 20 74 6f 20 62 65 20 74 6f   String to be to
0a00: 6b 65 6e 69 7a 65 64 20 2a 2f 0a 20 20 73 71 6c  kenized */.  sql
0a10: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63  ite3_tokenizer_c
0a20: 75 72 73 6f 72 20 2a 2a 70 70 43 75 72 73 6f 72  ursor **ppCursor
0a30: 20 20 20 20 2f 2a 20 4f 55 54 3a 20 54 6f 6b 65      /* OUT: Toke
0a40: 6e 69 7a 61 74 69 6f 6e 20 63 75 72 73 6f 72 20  nization cursor 
0a50: 2a 2f 0a 29 7b 0a 20 20 70 6f 72 74 65 72 5f 74  */.){.  porter_t
0a60: 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20  okenizer_cursor 
0a70: 2a 63 3b 0a 0a 20 20 63 20 3d 20 28 70 6f 72 74  *c;..  c = (port
0a80: 65 72 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72  er_tokenizer_cur
0a90: 73 6f 72 20 2a 29 20 6d 61 6c 6c 6f 63 28 73 69  sor *) malloc(si
0aa0: 7a 65 6f 66 28 2a 63 29 29 3b 0a 20 20 69 66 28  zeof(*c));.  if(
0ab0: 20 63 3d 3d 4e 55 4c 4c 20 29 20 72 65 74 75 72   c==NULL ) retur
0ac0: 6e 20 53 51 4c 49 54 45 5f 4e 4f 4d 45 4d 3b 0a  n SQLITE_NOMEM;.
0ad0: 0a 20 20 63 2d 3e 7a 49 6e 70 75 74 20 3d 20 7a  .  c->zInput = z
0ae0: 49 6e 70 75 74 3b 0a 20 20 69 66 28 20 7a 49 6e  Input;.  if( zIn
0af0: 70 75 74 3d 3d 30 20 29 7b 0a 20 20 20 20 63 2d  put==0 ){.    c-
0b00: 3e 6e 49 6e 70 75 74 20 3d 20 30 3b 0a 20 20 7d  >nInput = 0;.  }
0b10: 65 6c 73 65 20 69 66 28 20 6e 49 6e 70 75 74 3c  else if( nInput<
0b20: 30 20 29 7b 0a 20 20 20 20 63 2d 3e 6e 49 6e 70  0 ){.    c->nInp
0b30: 75 74 20 3d 20 28 69 6e 74 29 73 74 72 6c 65 6e  ut = (int)strlen
0b40: 28 7a 49 6e 70 75 74 29 3b 0a 20 20 7d 65 6c 73  (zInput);.  }els
0b50: 65 7b 0a 20 20 20 20 63 2d 3e 6e 49 6e 70 75 74  e{.    c->nInput
0b60: 20 3d 20 6e 49 6e 70 75 74 3b 0a 20 20 7d 0a 20   = nInput;.  }. 
0b70: 20 63 2d 3e 69 4f 66 66 73 65 74 20 3d 20 30 3b   c->iOffset = 0;
0b80: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0b90: 20 2f 2a 20 73 74 61 72 74 20 74 6f 6b 65 6e 69   /* start tokeni
0ba0: 7a 69 6e 67 20 61 74 20 74 68 65 20 62 65 67 69  zing at the begi
0bb0: 6e 6e 69 6e 67 20 2a 2f 0a 20 20 63 2d 3e 69 54  nning */.  c->iT
0bc0: 6f 6b 65 6e 20 3d 20 30 3b 0a 20 20 63 2d 3e 7a  oken = 0;.  c->z
0bd0: 54 6f 6b 65 6e 20 3d 20 4e 55 4c 4c 3b 20 20 20  Token = NULL;   
0be0: 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 6e              /* n
0bf0: 6f 20 73 70 61 63 65 20 61 6c 6c 6f 63 61 74 65  o space allocate
0c00: 64 2c 20 79 65 74 2e 20 2a 2f 0a 20 20 63 2d 3e  d, yet. */.  c->
0c10: 6e 41 6c 6c 6f 63 61 74 65 64 20 3d 20 30 3b 0a  nAllocated = 0;.
0c20: 0a 20 20 2a 70 70 43 75 72 73 6f 72 20 3d 20 26  .  *ppCursor = &
0c30: 63 2d 3e 62 61 73 65 3b 0a 20 20 72 65 74 75 72  c->base;.  retur
0c40: 6e 20 53 51 4c 49 54 45 5f 4f 4b 3b 0a 7d 0a 0a  n SQLITE_OK;.}..
0c50: 2f 2a 0a 2a 2a 20 43 6c 6f 73 65 20 61 20 74 6f  /*.** Close a to
0c60: 6b 65 6e 69 7a 61 74 69 6f 6e 20 63 75 72 73 6f  kenization curso
0c70: 72 20 70 72 65 76 69 6f 75 73 6c 79 20 6f 70 65  r previously ope
0c80: 6e 65 64 20 62 79 20 61 20 63 61 6c 6c 20 74 6f  ned by a call to
0c90: 0a 2a 2a 20 70 6f 72 74 65 72 4f 70 65 6e 28 29  .** porterOpen()
0ca0: 20 61 62 6f 76 65 2e 0a 2a 2f 0a 73 74 61 74 69   above..*/.stati
0cb0: 63 20 69 6e 74 20 70 6f 72 74 65 72 43 6c 6f 73  c int porterClos
0cc0: 65 28 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69  e(sqlite3_tokeni
0cd0: 7a 65 72 5f 63 75 72 73 6f 72 20 2a 70 43 75 72  zer_cursor *pCur
0ce0: 73 6f 72 29 7b 0a 20 20 70 6f 72 74 65 72 5f 74  sor){.  porter_t
0cf0: 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20  okenizer_cursor 
0d00: 2a 63 20 3d 20 28 70 6f 72 74 65 72 5f 74 6f 6b  *c = (porter_tok
0d10: 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20 2a 29  enizer_cursor *)
0d20: 20 70 43 75 72 73 6f 72 3b 0a 20 20 66 72 65 65   pCursor;.  free
0d30: 28 63 2d 3e 7a 54 6f 6b 65 6e 29 3b 0a 20 20 66  (c->zToken);.  f
0d40: 72 65 65 28 63 29 3b 0a 20 20 72 65 74 75 72 6e  ree(c);.  return
0d50: 20 53 51 4c 49 54 45 5f 4f 4b 3b 0a 7d 0a 2f 2a   SQLITE_OK;.}./*
0d60: 0a 2a 2a 20 56 6f 77 65 6c 20 6f 72 20 63 6f 6e  .** Vowel or con
0d70: 73 6f 6e 61 6e 74 0a 2a 2f 0a 73 74 61 74 69 63  sonant.*/.static
0d80: 20 63 6f 6e 73 74 20 63 68 61 72 20 63 54 79 70   const char cTyp
0d90: 65 5b 5d 20 3d 20 7b 0a 20 20 20 30 2c 20 31 2c  e[] = {.   0, 1,
0da0: 20 31 2c 20 31 2c 20 30 2c 20 31 2c 20 31 2c 20   1, 1, 0, 1, 1, 
0db0: 31 2c 20 30 2c 20 31 2c 20 31 2c 20 31 2c 20 31  1, 0, 1, 1, 1, 1
0dc0: 2c 20 31 2c 20 30 2c 20 31 2c 20 31 2c 20 31 2c  , 1, 0, 1, 1, 1,
0dd0: 20 31 2c 20 31 2c 20 30 2c 0a 20 20 20 31 2c 20   1, 1, 0,.   1, 
0de0: 31 2c 20 31 2c 20 32 2c 20 31 0a 7d 3b 0a 0a 2f  1, 1, 2, 1.};../
0df0: 2a 0a 2a 2a 20 69 73 43 6f 6e 73 6f 6e 61 6e 74  *.** isConsonant
0e00: 28 29 20 61 6e 64 20 69 73 56 6f 77 65 6c 28 29  () and isVowel()
0e10: 20 64 65 74 65 72 6d 69 6e 65 20 69 66 20 74 68   determine if th
0e20: 65 69 72 20 66 69 72 73 74 20 63 68 61 72 61 63  eir first charac
0e30: 74 65 72 20 69 6e 0a 2a 2a 20 74 68 65 20 73 74  ter in.** the st
0e40: 72 69 6e 67 20 74 68 65 79 20 70 6f 69 6e 74 20  ring they point 
0e50: 74 6f 20 69 73 20 61 20 63 6f 6e 73 6f 6e 61 6e  to is a consonan
0e60: 74 20 6f 72 20 61 20 76 6f 77 65 6c 2c 20 61 63  t or a vowel, ac
0e70: 63 6f 72 64 69 6e 67 0a 2a 2a 20 74 6f 20 50 6f  cording.** to Po
0e80: 72 74 65 72 20 72 75 6c 73 2e 20 20 0a 2a 2a 0a  rter ruls.  .**.
0e90: 2a 2a 20 41 20 63 6f 6e 73 6f 6e 61 74 65 20 69  ** A consonate i
0ea0: 73 20 61 6e 79 20 6c 65 74 74 65 72 20 6f 74 68  s any letter oth
0eb0: 65 72 20 74 68 61 6e 20 27 61 27 2c 20 27 65 27  er than 'a', 'e'
0ec0: 2c 20 27 69 27 2c 20 27 6f 27 2c 20 6f 72 20 27  , 'i', 'o', or '
0ed0: 75 27 2e 0a 2a 2a 20 27 59 27 20 69 73 20 61 20  u'..** 'Y' is a 
0ee0: 63 6f 6e 73 6f 6e 61 6e 74 20 75 6e 6c 65 73 73  consonant unless
0ef0: 20 69 74 20 66 6f 6c 6c 6f 77 73 20 61 6e 6f 74   it follows anot
0f00: 68 65 72 20 63 6f 6e 73 6f 6e 61 6e 74 2c 0a 2a  her consonant,.*
0f10: 2a 20 69 6e 20 77 68 69 63 68 20 63 61 73 65 20  * in which case 
0f20: 69 74 20 69 73 20 61 20 76 6f 77 65 6c 2e 0a 2a  it is a vowel..*
0f30: 2a 0a 2a 2a 20 49 6e 20 74 68 65 73 65 20 72 6f  *.** In these ro
0f40: 75 74 69 6e 65 2c 20 74 68 65 20 6c 65 74 74 65  utine, the lette
0f50: 72 73 20 61 72 65 20 69 6e 20 72 65 76 65 72 73  rs are in revers
0f60: 65 20 6f 72 64 65 72 2e 20 20 53 6f 20 74 68 65  e order.  So the
0f70: 20 27 79 27 20 72 75 6c 65 0a 2a 2a 20 69 73 20   'y' rule.** is 
0f80: 74 68 61 74 20 27 79 27 20 69 73 20 61 20 63 6f  that 'y' is a co
0f90: 6e 73 6f 6e 61 6e 74 20 75 6e 6c 65 73 73 20 69  nsonant unless i
0fa0: 74 20 69 73 20 66 6f 6c 6c 6f 77 65 64 20 62 79  t is followed by
0fb0: 20 61 6e 6f 74 68 65 72 0a 2a 2a 20 63 6f 6e 73   another.** cons
0fc0: 6f 6e 65 6e 74 2e 0a 2a 2f 0a 73 74 61 74 69 63  onent..*/.static
0fd0: 20 69 6e 74 20 69 73 56 6f 77 65 6c 28 63 6f 6e   int isVowel(con
0fe0: 73 74 20 63 68 61 72 2a 29 3b 0a 73 74 61 74 69  st char*);.stati
0ff0: 63 20 69 6e 74 20 69 73 43 6f 6e 73 6f 6e 61 6e  c int isConsonan
1000: 74 28 63 6f 6e 73 74 20 63 68 61 72 20 2a 7a 29  t(const char *z)
1010: 7b 0a 20 20 69 6e 74 20 6a 3b 0a 20 20 63 68 61  {.  int j;.  cha
1020: 72 20 78 20 3d 20 2a 7a 3b 0a 20 20 69 66 28 20  r x = *z;.  if( 
1030: 78 3d 3d 30 20 29 20 72 65 74 75 72 6e 20 30 3b  x==0 ) return 0;
1040: 0a 20 20 61 73 73 65 72 74 28 20 78 3e 3d 27 61  .  assert( x>='a
1050: 27 20 26 26 20 78 3c 3d 27 7a 27 20 29 3b 0a 20  ' && x<='z' );. 
1060: 20 6a 20 3d 20 63 54 79 70 65 5b 78 2d 27 61 27   j = cType[x-'a'
1070: 5d 3b 0a 20 20 69 66 28 20 6a 3c 32 20 29 20 72  ];.  if( j<2 ) r
1080: 65 74 75 72 6e 20 6a 3b 0a 20 20 72 65 74 75 72  eturn j;.  retur
1090: 6e 20 7a 5b 31 5d 3d 3d 30 20 7c 7c 20 69 73 56  n z[1]==0 || isV
10a0: 6f 77 65 6c 28 7a 20 2b 20 31 29 3b 0a 7d 0a 73  owel(z + 1);.}.s
10b0: 74 61 74 69 63 20 69 6e 74 20 69 73 56 6f 77 65  tatic int isVowe
10c0: 6c 28 63 6f 6e 73 74 20 63 68 61 72 20 2a 7a 29  l(const char *z)
10d0: 7b 0a 20 20 69 6e 74 20 6a 3b 0a 20 20 63 68 61  {.  int j;.  cha
10e0: 72 20 78 20 3d 20 2a 7a 3b 0a 20 20 69 66 28 20  r x = *z;.  if( 
10f0: 78 3d 3d 30 20 29 20 72 65 74 75 72 6e 20 30 3b  x==0 ) return 0;
1100: 0a 20 20 61 73 73 65 72 74 28 20 78 3e 3d 27 61  .  assert( x>='a
1110: 27 20 26 26 20 78 3c 3d 27 7a 27 20 29 3b 0a 20  ' && x<='z' );. 
1120: 20 6a 20 3d 20 63 54 79 70 65 5b 78 2d 27 61 27   j = cType[x-'a'
1130: 5d 3b 0a 20 20 69 66 28 20 6a 3c 32 20 29 20 72  ];.  if( j<2 ) r
1140: 65 74 75 72 6e 20 31 2d 6a 3b 0a 20 20 72 65 74  eturn 1-j;.  ret
1150: 75 72 6e 20 69 73 43 6f 6e 73 6f 6e 61 6e 74 28  urn isConsonant(
1160: 7a 20 2b 20 31 29 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a  z + 1);.}../*.**
1170: 20 4c 65 74 20 61 6e 79 20 73 65 71 75 65 6e 63   Let any sequenc
1180: 65 20 6f 66 20 6f 6e 65 20 6f 72 20 6d 6f 72 65  e of one or more
1190: 20 76 6f 77 65 6c 73 20 62 65 20 72 65 70 72 65   vowels be repre
11a0: 73 65 6e 74 65 64 20 62 79 20 56 20 61 6e 64 20  sented by V and 
11b0: 6c 65 74 0a 2a 2a 20 43 20 62 65 20 73 65 71 75  let.** C be sequ
11c0: 65 6e 63 65 20 6f 66 20 6f 6e 65 20 6f 72 20 6d  ence of one or m
11d0: 6f 72 65 20 63 6f 6e 73 6f 6e 61 6e 74 73 2e 20  ore consonants. 
11e0: 20 54 68 65 6e 20 65 76 65 72 79 20 77 6f 72 64   Then every word
11f0: 20 63 61 6e 20 62 65 0a 2a 2a 20 72 65 70 72 65   can be.** repre
1200: 73 65 6e 74 65 64 20 61 73 3a 0a 2a 2a 0a 2a 2a  sented as:.**.**
1210: 20 20 20 20 20 20 20 20 20 20 20 5b 43 5d 20 28             [C] (
1220: 56 43 29 7b 6d 7d 20 5b 56 5d 0a 2a 2a 0a 2a 2a  VC){m} [V].**.**
1230: 20 49 6e 20 70 72 6f 73 65 3a 20 20 41 20 77 6f   In prose:  A wo
1240: 72 64 20 69 73 20 61 6e 20 6f 70 74 69 6f 6e 61  rd is an optiona
1250: 6c 20 63 6f 6e 73 6f 6e 61 6e 74 20 66 6f 6c 6c  l consonant foll
1260: 6f 77 65 64 20 62 79 20 7a 65 72 6f 20 6f 72 0a  owed by zero or.
1270: 2a 2a 20 76 6f 77 65 6c 2d 63 6f 6e 73 6f 6e 61  ** vowel-consona
1280: 6e 74 20 70 61 69 72 73 20 66 6f 6c 6c 6f 77 65  nt pairs followe
1290: 64 20 62 79 20 61 6e 20 6f 70 74 69 6f 6e 61 6c  d by an optional
12a0: 20 76 6f 77 65 6c 2e 20 20 22 6d 22 20 69 73 20   vowel.  "m" is 
12b0: 74 68 65 0a 2a 2a 20 6e 75 6d 62 65 72 20 6f 66  the.** number of
12c0: 20 76 6f 77 65 6c 20 63 6f 6e 73 6f 6e 61 6e 74   vowel consonant
12d0: 20 70 61 69 72 73 2e 20 20 54 68 69 73 20 72 6f   pairs.  This ro
12e0: 75 74 69 6e 65 20 63 6f 6d 70 75 74 65 73 20 74  utine computes t
12f0: 68 65 20 76 61 6c 75 65 0a 2a 2a 20 6f 66 20 6d  he value.** of m
1300: 20 66 6f 72 20 74 68 65 20 66 69 72 73 74 20 69   for the first i
1310: 20 62 79 74 65 73 20 6f 66 20 61 20 77 6f 72 64   bytes of a word
1320: 2e 0a 2a 2a 0a 2a 2a 20 52 65 74 75 72 6e 20 74  ..**.** Return t
1330: 72 75 65 20 69 66 20 74 68 65 20 6d 2d 76 61 6c  rue if the m-val
1340: 75 65 20 66 6f 72 20 7a 20 69 73 20 31 20 6f 72  ue for z is 1 or
1350: 20 6d 6f 72 65 2e 20 20 49 6e 20 6f 74 68 65 72   more.  In other
1360: 20 77 6f 72 64 73 2c 0a 2a 2a 20 72 65 74 75 72   words,.** retur
1370: 6e 20 74 72 75 65 20 69 66 20 7a 20 63 6f 6e 74  n true if z cont
1380: 61 69 6e 73 20 61 74 20 6c 65 61 73 74 20 6f 6e  ains at least on
1390: 65 20 76 6f 77 65 6c 20 74 68 61 74 20 69 73 20  e vowel that is 
13a0: 66 6f 6c 6c 6f 77 65 64 0a 2a 2a 20 62 79 20 61  followed.** by a
13b0: 20 63 6f 6e 73 6f 6e 61 6e 74 2e 0a 2a 2a 0a 2a   consonant..**.*
13c0: 2a 20 49 6e 20 74 68 69 73 20 72 6f 75 74 69 6e  * In this routin
13d0: 65 20 7a 5b 5d 20 69 73 20 69 6e 20 72 65 76 65  e z[] is in reve
13e0: 72 73 65 20 6f 72 64 65 72 2e 20 20 53 6f 20 77  rse order.  So w
13f0: 65 20 61 72 65 20 72 65 61 6c 6c 79 20 6c 6f 6f  e are really loo
1400: 6b 69 6e 67 0a 2a 2a 20 66 6f 72 20 61 6e 20 69  king.** for an i
1410: 6e 73 74 61 6e 63 65 20 6f 66 20 6f 66 20 61 20  nstance of of a 
1420: 63 6f 6e 73 6f 6e 61 6e 74 20 66 6f 6c 6c 6f 77  consonant follow
1430: 65 64 20 62 79 20 61 20 76 6f 77 65 6c 2e 0a 2a  ed by a vowel..*
1440: 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 6d 5f 67  /.static int m_g
1450: 74 5f 30 28 63 6f 6e 73 74 20 63 68 61 72 20 2a  t_0(const char *
1460: 7a 29 7b 0a 20 20 77 68 69 6c 65 28 20 69 73 56  z){.  while( isV
1470: 6f 77 65 6c 28 7a 29 20 29 7b 20 7a 2b 2b 3b 20  owel(z) ){ z++; 
1480: 7d 0a 20 20 69 66 28 20 2a 7a 3d 3d 30 20 29 20  }.  if( *z==0 ) 
1490: 72 65 74 75 72 6e 20 30 3b 0a 20 20 77 68 69 6c  return 0;.  whil
14a0: 65 28 20 69 73 43 6f 6e 73 6f 6e 61 6e 74 28 7a  e( isConsonant(z
14b0: 29 20 29 7b 20 7a 2b 2b 3b 20 7d 0a 20 20 72 65  ) ){ z++; }.  re
14c0: 74 75 72 6e 20 2a 7a 21 3d 30 3b 0a 7d 0a 0a 2f  turn *z!=0;.}../
14d0: 2a 20 4c 69 6b 65 20 6d 67 74 30 20 61 62 6f 76  * Like mgt0 abov
14e0: 65 20 65 78 63 65 70 74 20 77 65 20 61 72 65 20  e except we are 
14f0: 6c 6f 6f 6b 69 6e 67 20 66 6f 72 20 61 20 76 61  looking for a va
1500: 6c 75 65 20 6f 66 20 6d 20 77 68 69 63 68 20 69  lue of m which i
1510: 73 0a 2a 2a 20 65 78 61 63 74 6c 79 20 31 0a 2a  s.** exactly 1.*
1520: 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 6d 5f 65  /.static int m_e
1530: 71 5f 31 28 63 6f 6e 73 74 20 63 68 61 72 20 2a  q_1(const char *
1540: 7a 29 7b 0a 20 20 77 68 69 6c 65 28 20 69 73 56  z){.  while( isV
1550: 6f 77 65 6c 28 7a 29 20 29 7b 20 7a 2b 2b 3b 20  owel(z) ){ z++; 
1560: 7d 0a 20 20 69 66 28 20 2a 7a 3d 3d 30 20 29 20  }.  if( *z==0 ) 
1570: 72 65 74 75 72 6e 20 30 3b 0a 20 20 77 68 69 6c  return 0;.  whil
1580: 65 28 20 69 73 43 6f 6e 73 6f 6e 61 6e 74 28 7a  e( isConsonant(z
1590: 29 20 29 7b 20 7a 2b 2b 3b 20 7d 0a 20 20 69 66  ) ){ z++; }.  if
15a0: 28 20 2a 7a 3d 3d 30 20 29 20 72 65 74 75 72 6e  ( *z==0 ) return
15b0: 20 30 3b 0a 20 20 77 68 69 6c 65 28 20 69 73 56   0;.  while( isV
15c0: 6f 77 65 6c 28 7a 29 20 29 7b 20 7a 2b 2b 3b 20  owel(z) ){ z++; 
15d0: 7d 0a 20 20 69 66 28 20 2a 7a 3d 3d 30 20 29 20  }.  if( *z==0 ) 
15e0: 72 65 74 75 72 6e 20 31 3b 0a 20 20 77 68 69 6c  return 1;.  whil
15f0: 65 28 20 69 73 43 6f 6e 73 6f 6e 61 6e 74 28 7a  e( isConsonant(z
1600: 29 20 29 7b 20 7a 2b 2b 3b 20 7d 0a 20 20 72 65  ) ){ z++; }.  re
1610: 74 75 72 6e 20 2a 7a 3d 3d 30 3b 0a 7d 0a 0a 2f  turn *z==0;.}../
1620: 2a 20 4c 69 6b 65 20 6d 67 74 30 20 61 62 6f 76  * Like mgt0 abov
1630: 65 20 65 78 63 65 70 74 20 77 65 20 61 72 65 20  e except we are 
1640: 6c 6f 6f 6b 69 6e 67 20 66 6f 72 20 61 20 76 61  looking for a va
1650: 6c 75 65 20 6f 66 20 6d 3e 31 20 69 6e 73 74 65  lue of m>1 inste
1660: 61 64 0a 2a 2a 20 6f 72 20 6d 3e 30 0a 2a 2f 0a  ad.** or m>0.*/.
1670: 73 74 61 74 69 63 20 69 6e 74 20 6d 5f 67 74 5f  static int m_gt_
1680: 31 28 63 6f 6e 73 74 20 63 68 61 72 20 2a 7a 29  1(const char *z)
1690: 7b 0a 20 20 77 68 69 6c 65 28 20 69 73 56 6f 77  {.  while( isVow
16a0: 65 6c 28 7a 29 20 29 7b 20 7a 2b 2b 3b 20 7d 0a  el(z) ){ z++; }.
16b0: 20 20 69 66 28 20 2a 7a 3d 3d 30 20 29 20 72 65    if( *z==0 ) re
16c0: 74 75 72 6e 20 30 3b 0a 20 20 77 68 69 6c 65 28  turn 0;.  while(
16d0: 20 69 73 43 6f 6e 73 6f 6e 61 6e 74 28 7a 29 20   isConsonant(z) 
16e0: 29 7b 20 7a 2b 2b 3b 20 7d 0a 20 20 69 66 28 20  ){ z++; }.  if( 
16f0: 2a 7a 3d 3d 30 20 29 20 72 65 74 75 72 6e 20 30  *z==0 ) return 0
1700: 3b 0a 20 20 77 68 69 6c 65 28 20 69 73 56 6f 77  ;.  while( isVow
1710: 65 6c 28 7a 29 20 29 7b 20 7a 2b 2b 3b 20 7d 0a  el(z) ){ z++; }.
1720: 20 20 69 66 28 20 2a 7a 3d 3d 30 20 29 20 72 65    if( *z==0 ) re
1730: 74 75 72 6e 20 30 3b 0a 20 20 77 68 69 6c 65 28  turn 0;.  while(
1740: 20 69 73 43 6f 6e 73 6f 6e 61 6e 74 28 7a 29 20   isConsonant(z) 
1750: 29 7b 20 7a 2b 2b 3b 20 7d 0a 20 20 72 65 74 75  ){ z++; }.  retu
1760: 72 6e 20 2a 7a 21 3d 30 3b 0a 7d 0a 0a 2f 2a 0a  rn *z!=0;.}../*.
1770: 2a 2a 20 52 65 74 75 72 6e 20 54 52 55 45 20 69  ** Return TRUE i
1780: 66 20 74 68 65 72 65 20 69 73 20 61 20 76 6f 77  f there is a vow
1790: 65 6c 20 61 6e 79 77 68 65 72 65 20 77 69 74 68  el anywhere with
17a0: 69 6e 20 7a 5b 30 2e 2e 6e 2d 31 5d 0a 2a 2f 0a  in z[0..n-1].*/.
17b0: 73 74 61 74 69 63 20 69 6e 74 20 68 61 73 56 6f  static int hasVo
17c0: 77 65 6c 28 63 6f 6e 73 74 20 63 68 61 72 20 2a  wel(const char *
17d0: 7a 29 7b 0a 20 20 77 68 69 6c 65 28 20 69 73 43  z){.  while( isC
17e0: 6f 6e 73 6f 6e 61 6e 74 28 7a 29 20 29 7b 20 7a  onsonant(z) ){ z
17f0: 2b 2b 3b 20 7d 0a 20 20 72 65 74 75 72 6e 20 2a  ++; }.  return *
1800: 7a 21 3d 30 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 52  z!=0;.}../*.** R
1810: 65 74 75 72 6e 20 54 52 55 45 20 69 66 20 74 68  eturn TRUE if th
1820: 65 20 77 6f 72 64 20 65 6e 64 73 20 69 6e 20 61  e word ends in a
1830: 20 64 6f 75 62 6c 65 20 63 6f 6e 73 6f 6e 61 6e   double consonan
1840: 74 2e 0a 2a 2a 0a 2a 2a 20 54 68 65 20 74 65 78  t..**.** The tex
1850: 74 20 69 73 20 72 65 76 65 72 73 65 64 20 68 65  t is reversed he
1860: 72 65 2e 20 53 6f 20 77 65 20 61 72 65 20 72 65  re. So we are re
1870: 61 6c 6c 79 20 6c 6f 6f 6b 69 6e 67 20 61 74 0a  ally looking at.
1880: 2a 2a 20 74 68 65 20 66 69 72 73 74 20 74 77 6f  ** the first two
1890: 20 63 68 61 72 61 63 74 65 72 73 20 6f 66 20 7a   characters of z
18a0: 5b 5d 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e  []..*/.static in
18b0: 74 20 64 6f 75 62 6c 65 43 6f 6e 73 6f 6e 61 6e  t doubleConsonan
18c0: 74 28 63 6f 6e 73 74 20 63 68 61 72 20 2a 7a 29  t(const char *z)
18d0: 7b 0a 20 20 72 65 74 75 72 6e 20 69 73 43 6f 6e  {.  return isCon
18e0: 73 6f 6e 61 6e 74 28 7a 29 20 26 26 20 7a 5b 30  sonant(z) && z[0
18f0: 5d 3d 3d 7a 5b 31 5d 20 26 26 20 69 73 43 6f 6e  ]==z[1] && isCon
1900: 73 6f 6e 61 6e 74 28 7a 2b 31 29 3b 0a 7d 0a 0a  sonant(z+1);.}..
1910: 2f 2a 0a 2a 2a 20 52 65 74 75 72 6e 20 54 52 55  /*.** Return TRU
1920: 45 20 69 66 20 74 68 65 20 77 6f 72 64 20 65 6e  E if the word en
1930: 64 73 20 77 69 74 68 20 74 68 72 65 65 20 6c 65  ds with three le
1940: 74 74 65 72 73 20 77 68 69 63 68 0a 2a 2a 20 61  tters which.** a
1950: 72 65 20 63 6f 6e 73 6f 6e 61 6e 74 2d 76 6f 77  re consonant-vow
1960: 65 6c 2d 63 6f 6e 73 6f 6e 65 6e 74 20 61 6e 64  el-consonent and
1970: 20 77 68 65 72 65 20 74 68 65 20 66 69 6e 61 6c   where the final
1980: 20 63 6f 6e 73 6f 6e 61 6e 74 0a 2a 2a 20 69 73   consonant.** is
1990: 20 6e 6f 74 20 27 77 27 2c 20 27 78 27 2c 20 6f   not 'w', 'x', o
19a0: 72 20 27 79 27 2e 0a 2a 2a 0a 2a 2a 20 54 68 65  r 'y'..**.** The
19b0: 20 77 6f 72 64 20 69 73 20 72 65 76 65 72 73 65   word is reverse
19c0: 64 20 68 65 72 65 2e 20 20 53 6f 20 77 65 20 61  d here.  So we a
19d0: 72 65 20 72 65 61 6c 6c 79 20 63 68 65 63 6b 69  re really checki
19e0: 6e 67 20 74 68 65 0a 2a 2a 20 66 69 72 73 74 20  ng the.** first 
19f0: 74 68 72 65 65 20 6c 65 74 74 65 72 73 20 61 6e  three letters an
1a00: 64 20 74 68 65 20 66 69 72 73 74 20 6f 6e 65 20  d the first one 
1a10: 63 61 6e 6e 6f 74 20 62 65 20 69 6e 20 5b 77 78  cannot be in [wx
1a20: 79 5d 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e  y]..*/.static in
1a30: 74 20 73 74 61 72 5f 6f 68 28 63 6f 6e 73 74 20  t star_oh(const 
1a40: 63 68 61 72 20 2a 7a 29 7b 0a 20 20 72 65 74 75  char *z){.  retu
1a50: 72 6e 0a 20 20 20 20 7a 5b 30 5d 21 3d 30 20 26  rn.    z[0]!=0 &
1a60: 26 20 69 73 43 6f 6e 73 6f 6e 61 6e 74 28 7a 29  & isConsonant(z)
1a70: 20 26 26 0a 20 20 20 20 7a 5b 30 5d 21 3d 27 77   &&.    z[0]!='w
1a80: 27 20 26 26 20 7a 5b 30 5d 21 3d 27 78 27 20 26  ' && z[0]!='x' &
1a90: 26 20 7a 5b 30 5d 21 3d 27 79 27 20 26 26 0a 20  & z[0]!='y' &&. 
1aa0: 20 20 20 7a 5b 31 5d 21 3d 30 20 26 26 20 69 73     z[1]!=0 && is
1ab0: 56 6f 77 65 6c 28 7a 2b 31 29 20 26 26 0a 20 20  Vowel(z+1) &&.  
1ac0: 20 20 7a 5b 32 5d 21 3d 30 20 26 26 20 69 73 43    z[2]!=0 && isC
1ad0: 6f 6e 73 6f 6e 61 6e 74 28 7a 2b 32 29 3b 0a 7d  onsonant(z+2);.}
1ae0: 0a 0a 2f 2a 0a 2a 2a 20 49 66 20 74 68 65 20 77  ../*.** If the w
1af0: 6f 72 64 20 65 6e 64 73 20 77 69 74 68 20 7a 46  ord ends with zF
1b00: 72 6f 6d 20 61 6e 64 20 78 43 6f 6e 64 28 29 20  rom and xCond() 
1b10: 69 73 20 74 72 75 65 20 66 6f 72 20 74 68 65 20  is true for the 
1b20: 73 74 65 6d 0a 2a 2a 20 6f 66 20 74 68 65 20 77  stem.** of the w
1b30: 6f 72 64 20 74 68 61 74 20 70 72 65 63 65 65 64  ord that preceed
1b40: 73 20 74 68 65 20 7a 46 72 6f 6d 20 65 6e 64 69  s the zFrom endi
1b50: 6e 67 2c 20 74 68 65 6e 20 63 68 61 6e 67 65 20  ng, then change 
1b60: 74 68 65 20 0a 2a 2a 20 65 6e 64 69 6e 67 20 74  the .** ending t
1b70: 6f 20 7a 54 6f 2e 0a 2a 2a 0a 2a 2a 20 54 68 65  o zTo..**.** The
1b80: 20 69 6e 70 75 74 20 77 6f 72 64 20 2a 70 7a 20   input word *pz 
1b90: 61 6e 64 20 7a 46 72 6f 6d 20 61 72 65 20 62 6f  and zFrom are bo
1ba0: 74 68 20 69 6e 20 72 65 76 65 72 73 65 20 6f 72  th in reverse or
1bb0: 64 65 72 2e 20 20 7a 54 6f 0a 2a 2a 20 69 73 20  der.  zTo.** is 
1bc0: 69 6e 20 6e 6f 72 6d 61 6c 20 6f 72 64 65 72 2e  in normal order.
1bd0: 20 0a 2a 2a 0a 2a 2a 20 52 65 74 75 72 6e 20 54   .**.** Return T
1be0: 52 55 45 20 69 66 20 7a 46 72 6f 6d 20 6d 61 74  RUE if zFrom mat
1bf0: 63 68 65 73 2e 20 20 52 65 74 75 72 6e 20 46 41  ches.  Return FA
1c00: 4c 53 45 20 69 66 20 7a 46 72 6f 6d 20 64 6f 65  LSE if zFrom doe
1c10: 73 20 6e 6f 74 0a 2a 2a 20 6d 61 74 63 68 2e 20  s not.** match. 
1c20: 20 4e 6f 74 20 74 68 61 74 20 54 52 55 45 20 69   Not that TRUE i
1c30: 73 20 72 65 74 75 72 6e 65 64 20 65 76 65 6e 20  s returned even 
1c40: 69 66 20 78 43 6f 6e 64 28 29 20 66 61 69 6c 73  if xCond() fails
1c50: 20 61 6e 64 0a 2a 2a 20 6e 6f 20 73 75 62 73 74   and.** no subst
1c60: 69 74 75 74 69 6f 6e 20 6f 63 63 75 72 73 2e 0a  itution occurs..
1c70: 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 73 74  */.static int st
1c80: 65 6d 28 0a 20 20 63 68 61 72 20 2a 2a 70 7a 2c  em(.  char **pz,
1c90: 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20               /* 
1ca0: 54 68 65 20 77 6f 72 64 20 62 65 69 6e 67 20 73  The word being s
1cb0: 74 65 6d 6d 65 64 20 28 52 65 76 65 72 73 65 64  temmed (Reversed
1cc0: 29 20 2a 2f 0a 20 20 63 6f 6e 73 74 20 63 68 61  ) */.  const cha
1cd0: 72 20 2a 7a 46 72 6f 6d 2c 20 20 20 20 20 2f 2a  r *zFrom,     /*
1ce0: 20 49 66 20 74 68 65 20 65 6e 64 69 6e 67 20 6d   If the ending m
1cf0: 61 74 63 68 65 73 20 74 68 69 73 2e 2e 2e 20 28  atches this... (
1d00: 52 65 76 65 72 73 65 64 29 20 2a 2f 0a 20 20 63  Reversed) */.  c
1d10: 6f 6e 73 74 20 63 68 61 72 20 2a 7a 54 6f 2c 20  onst char *zTo, 
1d20: 20 20 20 20 20 20 2f 2a 20 2e 2e 2e 20 63 68 61        /* ... cha
1d30: 6e 67 65 20 74 68 65 20 65 6e 64 69 6e 67 20 74  nge the ending t
1d40: 6f 20 74 68 69 73 20 28 6e 6f 74 20 72 65 76 65  o this (not reve
1d50: 72 73 65 64 29 20 2a 2f 0a 20 20 69 6e 74 20 28  rsed) */.  int (
1d60: 2a 78 43 6f 6e 64 29 28 63 6f 6e 73 74 20 63 68  *xCond)(const ch
1d70: 61 72 2a 29 20 20 20 2f 2a 20 43 6f 6e 64 69 74  ar*)   /* Condit
1d80: 69 6f 6e 20 74 68 61 74 20 6d 75 73 74 20 62 65  ion that must be
1d90: 20 74 72 75 65 20 2a 2f 0a 29 7b 0a 20 20 63 68   true */.){.  ch
1da0: 61 72 20 2a 7a 20 3d 20 2a 70 7a 3b 0a 20 20 77  ar *z = *pz;.  w
1db0: 68 69 6c 65 28 20 2a 7a 46 72 6f 6d 20 26 26 20  hile( *zFrom && 
1dc0: 2a 7a 46 72 6f 6d 3d 3d 2a 7a 20 29 7b 20 7a 2b  *zFrom==*z ){ z+
1dd0: 2b 3b 20 7a 46 72 6f 6d 2b 2b 3b 20 7d 0a 20 20  +; zFrom++; }.  
1de0: 69 66 28 20 2a 7a 46 72 6f 6d 21 3d 30 20 29 20  if( *zFrom!=0 ) 
1df0: 72 65 74 75 72 6e 20 30 3b 0a 20 20 69 66 28 20  return 0;.  if( 
1e00: 78 43 6f 6e 64 20 26 26 20 21 78 43 6f 6e 64 28  xCond && !xCond(
1e10: 7a 29 20 29 20 72 65 74 75 72 6e 20 31 3b 0a 20  z) ) return 1;. 
1e20: 20 77 68 69 6c 65 28 20 2a 7a 54 6f 20 29 7b 0a   while( *zTo ){.
1e30: 20 20 20 20 2a 28 2d 2d 7a 29 20 3d 20 2a 28 7a      *(--z) = *(z
1e40: 54 6f 2b 2b 29 3b 0a 20 20 7d 0a 20 20 2a 70 7a  To++);.  }.  *pz
1e50: 20 3d 20 7a 3b 0a 20 20 72 65 74 75 72 6e 20 31   = z;.  return 1
1e60: 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 54 68 69 73 20  ;.}../*.** This 
1e70: 69 73 20 74 68 65 20 66 61 6c 6c 62 61 63 6b 20  is the fallback 
1e80: 73 74 65 6d 6d 65 72 20 75 73 65 64 20 77 68 65  stemmer used whe
1e90: 6e 20 74 68 65 20 70 6f 72 74 65 72 20 73 74 65  n the porter ste
1ea0: 6d 6d 65 72 20 69 73 0a 2a 2a 20 69 6e 61 70 70  mmer is.** inapp
1eb0: 72 6f 70 72 69 61 74 65 2e 20 20 54 68 65 20 69  ropriate.  The i
1ec0: 6e 70 75 74 20 77 6f 72 64 20 69 73 20 63 6f 70  nput word is cop
1ed0: 69 65 64 20 69 6e 74 6f 20 74 68 65 20 6f 75 74  ied into the out
1ee0: 70 75 74 20 77 69 74 68 0a 2a 2a 20 55 53 2d 41  put with.** US-A
1ef0: 53 43 49 49 20 63 61 73 65 20 66 6f 6c 64 69 6e  SCII case foldin
1f00: 67 2e 20 20 49 66 20 74 68 65 20 69 6e 70 75 74  g.  If the input
1f10: 20 77 6f 72 64 20 69 73 20 74 6f 6f 20 6c 6f 6e   word is too lon
1f20: 67 20 28 6d 6f 72 65 0a 2a 2a 20 74 68 61 6e 20  g (more.** than 
1f30: 32 30 20 62 79 74 65 73 20 69 66 20 69 74 20 63  20 bytes if it c
1f40: 6f 6e 74 61 69 6e 73 20 6e 6f 20 64 69 67 69 74  ontains no digit
1f50: 73 20 6f 72 20 6d 6f 72 65 20 74 68 61 6e 20 36  s or more than 6
1f60: 20 62 79 74 65 73 20 69 66 0a 2a 2a 20 69 74 20   bytes if.** it 
1f70: 63 6f 6e 74 61 69 6e 73 20 64 69 67 69 74 73 29  contains digits)
1f80: 20 74 68 65 6e 20 77 6f 72 64 20 69 73 20 74 72   then word is tr
1f90: 75 6e 63 61 74 65 64 20 74 6f 20 32 30 20 6f 72  uncated to 20 or
1fa0: 20 36 20 62 79 74 65 73 0a 2a 2a 20 62 79 20 74   6 bytes.** by t
1fb0: 61 6b 69 6e 67 20 31 30 20 6f 72 20 33 20 62 79  aking 10 or 3 by
1fc0: 74 65 73 20 66 72 6f 6d 20 74 68 65 20 62 65 67  tes from the beg
1fd0: 69 6e 6e 69 6e 67 20 61 6e 64 20 65 6e 64 2e 0a  inning and end..
1fe0: 2a 2f 0a 73 74 61 74 69 63 20 76 6f 69 64 20 63  */.static void c
1ff0: 6f 70 79 5f 73 74 65 6d 6d 65 72 28 63 6f 6e 73  opy_stemmer(cons
2000: 74 20 63 68 61 72 20 2a 7a 49 6e 2c 20 69 6e 74  t char *zIn, int
2010: 20 6e 49 6e 2c 20 63 68 61 72 20 2a 7a 4f 75 74   nIn, char *zOut
2020: 2c 20 69 6e 74 20 2a 70 6e 4f 75 74 29 7b 0a 20  , int *pnOut){. 
2030: 20 69 6e 74 20 69 2c 20 6d 78 2c 20 6a 3b 0a 20   int i, mx, j;. 
2040: 20 69 6e 74 20 68 61 73 44 69 67 69 74 20 3d 20   int hasDigit = 
2050: 30 3b 0a 20 20 66 6f 72 28 69 3d 30 3b 20 69 3c  0;.  for(i=0; i<
2060: 6e 49 6e 3b 20 69 2b 2b 29 7b 0a 20 20 20 20 69  nIn; i++){.    i
2070: 6e 74 20 63 20 3d 20 7a 49 6e 5b 69 5d 3b 0a 20  nt c = zIn[i];. 
2080: 20 20 20 69 66 28 20 63 3e 3d 27 41 27 20 26 26     if( c>='A' &&
2090: 20 63 3c 3d 27 5a 27 20 29 7b 0a 20 20 20 20 20   c<='Z' ){.     
20a0: 20 7a 4f 75 74 5b 69 5d 20 3d 20 63 20 2d 20 27   zOut[i] = c - '
20b0: 41 27 20 2b 20 27 61 27 3b 0a 20 20 20 20 7d 65  A' + 'a';.    }e
20c0: 6c 73 65 7b 0a 20 20 20 20 20 20 69 66 28 20 63  lse{.      if( c
20d0: 3e 3d 27 30 27 20 26 26 20 63 3c 3d 27 39 27 20  >='0' && c<='9' 
20e0: 29 20 68 61 73 44 69 67 69 74 20 3d 20 31 3b 0a  ) hasDigit = 1;.
20f0: 20 20 20 20 20 20 7a 4f 75 74 5b 69 5d 20 3d 20        zOut[i] = 
2100: 63 3b 0a 20 20 20 20 7d 0a 20 20 7d 0a 20 20 6d  c;.    }.  }.  m
2110: 78 20 3d 20 68 61 73 44 69 67 69 74 20 3f 20 33  x = hasDigit ? 3
2120: 20 3a 20 31 30 3b 0a 20 20 69 66 28 20 6e 49 6e   : 10;.  if( nIn
2130: 3e 6d 78 2a 32 20 29 7b 0a 20 20 20 20 66 6f 72  >mx*2 ){.    for
2140: 28 6a 3d 6d 78 2c 20 69 3d 6e 49 6e 2d 6d 78 3b  (j=mx, i=nIn-mx;
2150: 20 69 3c 6e 49 6e 3b 20 69 2b 2b 2c 20 6a 2b 2b   i<nIn; i++, j++
2160: 29 7b 0a 20 20 20 20 20 20 7a 4f 75 74 5b 6a 5d  ){.      zOut[j]
2170: 20 3d 20 7a 4f 75 74 5b 69 5d 3b 0a 20 20 20 20   = zOut[i];.    
2180: 7d 0a 20 20 20 20 69 20 3d 20 6a 3b 0a 20 20 7d  }.    i = j;.  }
2190: 0a 20 20 7a 4f 75 74 5b 69 5d 20 3d 20 30 3b 0a  .  zOut[i] = 0;.
21a0: 20 20 2a 70 6e 4f 75 74 20 3d 20 69 3b 0a 7d 0a    *pnOut = i;.}.
21b0: 0a 0a 2f 2a 0a 2a 2a 20 53 74 65 6d 20 74 68 65  ../*.** Stem the
21c0: 20 69 6e 70 75 74 20 77 6f 72 64 20 7a 49 6e 5b   input word zIn[
21d0: 30 2e 2e 6e 49 6e 2d 31 5d 2e 20 20 53 74 6f 72  0..nIn-1].  Stor
21e0: 65 20 74 68 65 20 6f 75 74 70 75 74 20 69 6e 20  e the output in 
21f0: 7a 4f 75 74 2e 0a 2a 2a 20 7a 4f 75 74 20 69 73  zOut..** zOut is
2200: 20 61 74 20 6c 65 61 73 74 20 62 69 67 20 65 6e   at least big en
2210: 6f 75 67 68 20 74 6f 20 68 6f 6c 64 20 6e 49 6e  ough to hold nIn
2220: 20 62 79 74 65 73 2e 20 20 57 72 69 74 65 20 74   bytes.  Write t
2230: 68 65 20 61 63 74 75 61 6c 0a 2a 2a 20 73 69 7a  he actual.** siz
2240: 65 20 6f 66 20 74 68 65 20 6f 75 74 70 75 74 20  e of the output 
2250: 77 6f 72 64 20 28 65 78 63 6c 75 73 69 76 65 20  word (exclusive 
2260: 6f 66 20 74 68 65 20 27 5c 30 27 20 74 65 72 6d  of the '\0' term
2270: 69 6e 61 74 6f 72 29 20 69 6e 74 6f 20 2a 70 6e  inator) into *pn
2280: 4f 75 74 2e 0a 2a 2a 0a 2a 2a 20 41 6e 79 20 75  Out..**.** Any u
2290: 70 70 65 72 2d 63 61 73 65 20 63 68 61 72 61 63  pper-case charac
22a0: 74 65 72 73 20 69 6e 20 74 68 65 20 55 53 2d 41  ters in the US-A
22b0: 53 43 49 49 20 63 68 61 72 61 63 74 65 72 20 73  SCII character s
22c0: 65 74 20 28 5b 41 2d 5a 5d 29 0a 2a 2a 20 61 72  et ([A-Z]).** ar
22d0: 65 20 63 6f 6e 76 65 72 74 65 64 20 74 6f 20 6c  e converted to l
22e0: 6f 77 65 72 20 63 61 73 65 2e 20 20 55 70 70 65  ower case.  Uppe
22f0: 72 2d 63 61 73 65 20 55 54 46 20 63 68 61 72 61  r-case UTF chara
2300: 63 74 65 72 73 20 61 72 65 0a 2a 2a 20 75 6e 63  cters are.** unc
2310: 68 61 6e 67 65 64 2e 0a 2a 2a 0a 2a 2a 20 57 6f  hanged..**.** Wo
2320: 72 64 73 20 74 68 61 74 20 61 72 65 20 6c 6f 6e  rds that are lon
2330: 67 65 72 20 74 68 61 6e 20 61 62 6f 75 74 20 32  ger than about 2
2340: 30 20 62 79 74 65 73 20 61 72 65 20 73 74 65 6d  0 bytes are stem
2350: 6d 65 64 20 62 79 20 72 65 74 61 69 6e 69 6e 67  med by retaining
2360: 0a 2a 2a 20 61 20 66 65 77 20 62 79 74 65 73 20  .** a few bytes 
2370: 66 72 6f 6d 20 74 68 65 20 62 65 67 69 6e 6e 69  from the beginni
2380: 6e 67 20 61 6e 64 20 74 68 65 20 65 6e 64 20 6f  ng and the end o
2390: 66 20 74 68 65 20 77 6f 72 64 2e 20 20 49 66 20  f the word.  If 
23a0: 74 68 65 0a 2a 2a 20 77 6f 72 64 20 63 6f 6e 74  the.** word cont
23b0: 61 69 6e 73 20 64 69 67 69 74 73 2c 20 33 20 62  ains digits, 3 b
23c0: 79 74 65 73 20 61 72 65 20 74 61 6b 65 6e 20 66  ytes are taken f
23d0: 72 6f 6d 20 74 68 65 20 62 65 67 69 6e 6e 69 6e  rom the beginnin
23e0: 67 20 61 6e 64 0a 2a 2a 20 33 20 62 79 74 65 73  g and.** 3 bytes
23f0: 20 66 72 6f 6d 20 74 68 65 20 65 6e 64 2e 20 20   from the end.  
2400: 46 6f 72 20 6c 6f 6e 67 20 77 6f 72 64 73 20 77  For long words w
2410: 69 74 68 6f 75 74 20 64 69 67 69 74 73 2c 20 31  ithout digits, 1
2420: 30 20 62 79 74 65 73 0a 2a 2a 20 61 72 65 20 74  0 bytes.** are t
2430: 61 6b 65 6e 20 66 72 6f 6d 20 65 61 63 68 20 65  aken from each e
2440: 6e 64 2e 20 20 55 53 2d 41 53 43 49 49 20 63 61  nd.  US-ASCII ca
2450: 73 65 20 66 6f 6c 64 69 6e 67 20 73 74 69 6c 6c  se folding still
2460: 20 61 70 70 6c 69 65 73 2e 0a 2a 2a 20 0a 2a 2a   applies..** .**
2470: 20 49 66 20 74 68 65 20 69 6e 70 75 74 20 77 6f   If the input wo
2480: 72 64 20 63 6f 6e 74 61 69 6e 73 20 6e 6f 74 20  rd contains not 
2490: 64 69 67 69 74 73 20 62 75 74 20 64 6f 65 73 20  digits but does 
24a0: 63 68 61 72 61 63 74 65 72 73 20 6e 6f 74 20 0a  characters not .
24b0: 2a 2a 20 69 6e 20 5b 61 2d 7a 41 2d 5a 5d 20 74  ** in [a-zA-Z] t
24c0: 68 65 6e 20 6e 6f 20 73 74 65 6d 6d 69 6e 67 20  hen no stemming 
24d0: 69 73 20 61 74 74 65 6d 70 74 65 64 20 61 6e 64  is attempted and
24e0: 20 74 68 69 73 20 72 6f 75 74 69 6e 65 20 6a 75   this routine ju
24f0: 73 74 20 0a 2a 2a 20 63 6f 70 69 65 73 20 74 68  st .** copies th
2500: 65 20 69 6e 70 75 74 20 69 6e 74 6f 20 74 68 65  e input into the
2510: 20 69 6e 70 75 74 20 69 6e 74 6f 20 74 68 65 20   input into the 
2520: 6f 75 74 70 75 74 20 77 69 74 68 20 55 53 2d 41  output with US-A
2530: 53 43 49 49 0a 2a 2a 20 63 61 73 65 20 66 6f 6c  SCII.** case fol
2540: 64 69 6e 67 2e 0a 2a 2a 0a 2a 2a 20 53 74 65 6d  ding..**.** Stem
2550: 6d 69 6e 67 20 6e 65 76 65 72 20 69 6e 63 72 65  ming never incre
2560: 61 73 65 73 20 74 68 65 20 6c 65 6e 67 74 68 20  ases the length 
2570: 6f 66 20 74 68 65 20 77 6f 72 64 2e 20 20 53 6f  of the word.  So
2580: 20 74 68 65 72 65 20 69 73 0a 2a 2a 20 6e 6f 20   there is.** no 
2590: 63 68 61 6e 63 65 20 6f 66 20 6f 76 65 72 66 6c  chance of overfl
25a0: 6f 77 69 6e 67 20 74 68 65 20 7a 4f 75 74 20 62  owing the zOut b
25b0: 75 66 66 65 72 2e 0a 2a 2f 0a 73 74 61 74 69 63  uffer..*/.static
25c0: 20 76 6f 69 64 20 70 6f 72 74 65 72 5f 73 74 65   void porter_ste
25d0: 6d 6d 65 72 28 63 6f 6e 73 74 20 63 68 61 72 20  mmer(const char 
25e0: 2a 7a 49 6e 2c 20 69 6e 74 20 6e 49 6e 2c 20 63  *zIn, int nIn, c
25f0: 68 61 72 20 2a 7a 4f 75 74 2c 20 69 6e 74 20 2a  har *zOut, int *
2600: 70 6e 4f 75 74 29 7b 0a 20 20 69 6e 74 20 69 2c  pnOut){.  int i,
2610: 20 6a 2c 20 63 3b 0a 20 20 63 68 61 72 20 7a 52   j, c;.  char zR
2620: 65 76 65 72 73 65 5b 32 38 5d 3b 0a 20 20 63 68  everse[28];.  ch
2630: 61 72 20 2a 7a 2c 20 2a 7a 32 3b 0a 20 20 69 66  ar *z, *z2;.  if
2640: 28 20 6e 49 6e 3c 33 20 7c 7c 20 6e 49 6e 3e 3d  ( nIn<3 || nIn>=
2650: 73 69 7a 65 6f 66 28 7a 52 65 76 65 72 73 65 29  sizeof(zReverse)
2660: 2d 37 20 29 7b 0a 20 20 20 20 2f 2a 20 54 68 65  -7 ){.    /* The
2670: 20 77 6f 72 64 20 69 73 20 74 6f 6f 20 62 69 67   word is too big
2680: 20 6f 72 20 74 6f 6f 20 73 6d 61 6c 6c 20 66 6f   or too small fo
2690: 72 20 74 68 65 20 70 6f 72 74 65 72 20 73 74 65  r the porter ste
26a0: 6d 6d 65 72 2e 0a 20 20 20 20 2a 2a 20 46 61 6c  mmer..    ** Fal
26b0: 6c 62 61 63 6b 20 74 6f 20 74 68 65 20 63 6f 70  lback to the cop
26c0: 79 20 73 74 65 6d 6d 65 72 20 2a 2f 0a 20 20 20  y stemmer */.   
26d0: 20 63 6f 70 79 5f 73 74 65 6d 6d 65 72 28 7a 49   copy_stemmer(zI
26e0: 6e 2c 20 6e 49 6e 2c 20 7a 4f 75 74 2c 20 70 6e  n, nIn, zOut, pn
26f0: 4f 75 74 29 3b 0a 20 20 20 20 72 65 74 75 72 6e  Out);.    return
2700: 3b 0a 20 20 7d 0a 20 20 66 6f 72 28 69 3d 30 2c  ;.  }.  for(i=0,
2710: 20 6a 3d 73 69 7a 65 6f 66 28 7a 52 65 76 65 72   j=sizeof(zRever
2720: 73 65 29 2d 36 3b 20 69 3c 6e 49 6e 3b 20 69 2b  se)-6; i<nIn; i+
2730: 2b 2c 20 6a 2d 2d 29 7b 0a 20 20 20 20 63 20 3d  +, j--){.    c =
2740: 20 7a 49 6e 5b 69 5d 3b 0a 20 20 20 20 69 66 28   zIn[i];.    if(
2750: 20 63 3e 3d 27 41 27 20 26 26 20 63 3c 3d 27 5a   c>='A' && c<='Z
2760: 27 20 29 7b 0a 20 20 20 20 20 20 7a 52 65 76 65  ' ){.      zReve
2770: 72 73 65 5b 6a 5d 20 3d 20 63 20 2b 20 27 61 27  rse[j] = c + 'a'
2780: 20 2d 20 27 41 27 3b 0a 20 20 20 20 7d 65 6c 73   - 'A';.    }els
2790: 65 20 69 66 28 20 63 3e 3d 27 61 27 20 26 26 20  e if( c>='a' && 
27a0: 63 3c 3d 27 7a 27 20 29 7b 0a 20 20 20 20 20 20  c<='z' ){.      
27b0: 7a 52 65 76 65 72 73 65 5b 6a 5d 20 3d 20 63 3b  zReverse[j] = c;
27c0: 0a 20 20 20 20 7d 65 6c 73 65 7b 0a 20 20 20 20  .    }else{.    
27d0: 20 20 2f 2a 20 54 68 65 20 75 73 65 20 6f 66 20    /* The use of 
27e0: 61 20 63 68 61 72 61 63 74 65 72 20 6e 6f 74 20  a character not 
27f0: 69 6e 20 5b 61 2d 7a 41 2d 5a 5d 20 6d 65 61 6e  in [a-zA-Z] mean
2800: 73 20 74 68 61 74 20 77 65 20 66 61 6c 6c 62 61  s that we fallba
2810: 63 6b 0a 20 20 20 20 20 20 2a 2a 20 74 6f 20 74  ck.      ** to t
2820: 68 65 20 63 6f 70 79 20 73 74 65 6d 6d 65 72 20  he copy stemmer 
2830: 2a 2f 0a 20 20 20 20 20 20 63 6f 70 79 5f 73 74  */.      copy_st
2840: 65 6d 6d 65 72 28 7a 49 6e 2c 20 6e 49 6e 2c 20  emmer(zIn, nIn, 
2850: 7a 4f 75 74 2c 20 70 6e 4f 75 74 29 3b 0a 20 20  zOut, pnOut);.  
2860: 20 20 20 20 72 65 74 75 72 6e 3b 0a 20 20 20 20      return;.    
2870: 7d 0a 20 20 7d 0a 20 20 6d 65 6d 73 65 74 28 26  }.  }.  memset(&
2880: 7a 52 65 76 65 72 73 65 5b 73 69 7a 65 6f 66 28  zReverse[sizeof(
2890: 7a 52 65 76 65 72 73 65 29 2d 35 5d 2c 20 30 2c  zReverse)-5], 0,
28a0: 20 35 29 3b 0a 20 20 7a 20 3d 20 26 7a 52 65 76   5);.  z = &zRev
28b0: 65 72 73 65 5b 6a 2b 31 5d 3b 0a 0a 0a 20 20 2f  erse[j+1];...  /
28c0: 2a 20 53 74 65 70 20 31 61 20 2a 2f 0a 20 20 69  * Step 1a */.  i
28d0: 66 28 20 7a 5b 30 5d 3d 3d 27 73 27 20 29 7b 0a  f( z[0]=='s' ){.
28e0: 20 20 20 20 69 66 28 0a 20 20 20 20 20 21 73 74      if(.     !st
28f0: 65 6d 28 26 7a 2c 20 22 73 65 73 73 22 2c 20 22  em(&z, "sess", "
2900: 73 73 22 2c 20 30 29 20 26 26 0a 20 20 20 20 20  ss", 0) &&.     
2910: 21 73 74 65 6d 28 26 7a 2c 20 22 73 65 69 22 2c  !stem(&z, "sei",
2920: 20 22 69 22 2c 20 30 29 20 20 26 26 0a 20 20 20   "i", 0)  &&.   
2930: 20 20 21 73 74 65 6d 28 26 7a 2c 20 22 73 73 22    !stem(&z, "ss"
2940: 2c 20 22 73 73 22 2c 20 30 29 0a 20 20 20 20 29  , "ss", 0).    )
2950: 7b 0a 20 20 20 20 20 20 7a 2b 2b 3b 0a 20 20 20  {.      z++;.   
2960: 20 7d 0a 20 20 7d 0a 0a 20 20 2f 2a 20 53 74 65   }.  }..  /* Ste
2970: 70 20 31 62 20 2a 2f 20 20 0a 20 20 7a 32 20 3d  p 1b */  .  z2 =
2980: 20 7a 3b 0a 20 20 69 66 28 20 73 74 65 6d 28 26   z;.  if( stem(&
2990: 7a 2c 20 22 64 65 65 22 2c 20 22 65 65 22 2c 20  z, "dee", "ee", 
29a0: 6d 5f 67 74 5f 30 29 20 29 7b 0a 20 20 20 20 2f  m_gt_0) ){.    /
29b0: 2a 20 44 6f 20 6e 6f 74 68 69 6e 67 2e 20 20 54  * Do nothing.  T
29c0: 68 65 20 77 6f 72 6b 20 77 61 73 20 61 6c 6c 20  he work was all 
29d0: 69 6e 20 74 68 65 20 74 65 73 74 20 2a 2f 0a 20  in the test */. 
29e0: 20 7d 65 6c 73 65 20 69 66 28 20 0a 20 20 20 20   }else if( .    
29f0: 20 28 73 74 65 6d 28 26 7a 2c 20 22 67 6e 69 22   (stem(&z, "gni"
2a00: 2c 20 22 22 2c 20 68 61 73 56 6f 77 65 6c 29 20  , "", hasVowel) 
2a10: 7c 7c 20 73 74 65 6d 28 26 7a 2c 20 22 64 65 22  || stem(&z, "de"
2a20: 2c 20 22 22 2c 20 68 61 73 56 6f 77 65 6c 29 29  , "", hasVowel))
2a30: 0a 20 20 20 20 20 20 26 26 20 7a 21 3d 7a 32 0a  .      && z!=z2.
2a40: 20 20 29 7b 0a 20 20 20 20 20 69 66 28 20 73 74    ){.     if( st
2a50: 65 6d 28 26 7a 2c 20 22 74 61 22 2c 20 22 61 74  em(&z, "ta", "at
2a60: 65 22 2c 20 30 29 20 7c 7c 0a 20 20 20 20 20 20  e", 0) ||.      
2a70: 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 6c 62 22     stem(&z, "lb"
2a80: 2c 20 22 62 6c 65 22 2c 20 30 29 20 7c 7c 0a 20  , "ble", 0) ||. 
2a90: 20 20 20 20 20 20 20 20 73 74 65 6d 28 26 7a 2c          stem(&z,
2aa0: 20 22 7a 69 22 2c 20 22 69 7a 65 22 2c 20 30 29   "zi", "ize", 0)
2ab0: 20 29 7b 0a 20 20 20 20 20 20 20 2f 2a 20 44 6f   ){.       /* Do
2ac0: 20 6e 6f 74 68 69 6e 67 2e 20 20 54 68 65 20 77   nothing.  The w
2ad0: 6f 72 6b 20 77 61 73 20 61 6c 6c 20 69 6e 20 74  ork was all in t
2ae0: 68 65 20 74 65 73 74 20 2a 2f 0a 20 20 20 20 20  he test */.     
2af0: 7d 65 6c 73 65 20 69 66 28 20 64 6f 75 62 6c 65  }else if( double
2b00: 43 6f 6e 73 6f 6e 61 6e 74 28 7a 29 20 26 26 20  Consonant(z) && 
2b10: 28 2a 7a 21 3d 27 6c 27 20 26 26 20 2a 7a 21 3d  (*z!='l' && *z!=
2b20: 27 73 27 20 26 26 20 2a 7a 21 3d 27 7a 27 29 20  's' && *z!='z') 
2b30: 29 7b 0a 20 20 20 20 20 20 20 7a 2b 2b 3b 0a 20  ){.       z++;. 
2b40: 20 20 20 20 7d 65 6c 73 65 20 69 66 28 20 6d 5f      }else if( m_
2b50: 65 71 5f 31 28 7a 29 20 26 26 20 73 74 61 72 5f  eq_1(z) && star_
2b60: 6f 68 28 7a 29 20 29 7b 0a 20 20 20 20 20 20 20  oh(z) ){.       
2b70: 2a 28 2d 2d 7a 29 20 3d 20 27 65 27 3b 0a 20 20  *(--z) = 'e';.  
2b80: 20 20 20 7d 0a 20 20 7d 0a 0a 20 20 2f 2a 20 53     }.  }..  /* S
2b90: 74 65 70 20 31 63 20 2a 2f 0a 20 20 69 66 28 20  tep 1c */.  if( 
2ba0: 7a 5b 30 5d 3d 3d 27 79 27 20 26 26 20 68 61 73  z[0]=='y' && has
2bb0: 56 6f 77 65 6c 28 7a 2b 31 29 20 29 7b 0a 20 20  Vowel(z+1) ){.  
2bc0: 20 20 7a 5b 30 5d 20 3d 20 27 69 27 3b 0a 20 20    z[0] = 'i';.  
2bd0: 7d 0a 0a 20 20 2f 2a 20 53 74 65 70 20 32 20 2a  }..  /* Step 2 *
2be0: 2f 0a 20 20 73 77 69 74 63 68 28 20 7a 5b 31 5d  /.  switch( z[1]
2bf0: 20 29 7b 0a 20 20 20 63 61 73 65 20 27 61 27 3a   ){.   case 'a':
2c00: 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22  .     stem(&z, "
2c10: 6c 61 6e 6f 69 74 61 22 2c 20 22 61 74 65 22 2c  lanoita", "ate",
2c20: 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a 20 20 20 20   m_gt_0) ||.    
2c30: 20 73 74 65 6d 28 26 7a 2c 20 22 6c 61 6e 6f 69   stem(&z, "lanoi
2c40: 74 22 2c 20 22 74 69 6f 6e 22 2c 20 6d 5f 67 74  t", "tion", m_gt
2c50: 5f 30 29 3b 0a 20 20 20 20 20 62 72 65 61 6b 3b  _0);.     break;
2c60: 0a 20 20 20 63 61 73 65 20 27 63 27 3a 0a 20 20  .   case 'c':.  
2c70: 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 69 63 6e     stem(&z, "icn
2c80: 65 22 2c 20 22 65 6e 63 65 22 2c 20 6d 5f 67 74  e", "ence", m_gt
2c90: 5f 30 29 20 7c 7c 0a 20 20 20 20 20 73 74 65 6d  _0) ||.     stem
2ca0: 28 26 7a 2c 20 22 69 63 6e 61 22 2c 20 22 61 6e  (&z, "icna", "an
2cb0: 63 65 22 2c 20 6d 5f 67 74 5f 30 29 3b 0a 20 20  ce", m_gt_0);.  
2cc0: 20 20 20 62 72 65 61 6b 3b 0a 20 20 20 63 61 73     break;.   cas
2cd0: 65 20 27 65 27 3a 0a 20 20 20 20 20 73 74 65 6d  e 'e':.     stem
2ce0: 28 26 7a 2c 20 22 72 65 7a 69 22 2c 20 22 69 7a  (&z, "rezi", "iz
2cf0: 65 22 2c 20 6d 5f 67 74 5f 30 29 3b 0a 20 20 20  e", m_gt_0);.   
2d00: 20 20 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65    break;.   case
2d10: 20 27 67 27 3a 0a 20 20 20 20 20 73 74 65 6d 28   'g':.     stem(
2d20: 26 7a 2c 20 22 69 67 6f 6c 22 2c 20 22 6c 6f 67  &z, "igol", "log
2d30: 22 2c 20 6d 5f 67 74 5f 30 29 3b 0a 20 20 20 20  ", m_gt_0);.    
2d40: 20 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65 20   break;.   case 
2d50: 27 6c 27 3a 0a 20 20 20 20 20 73 74 65 6d 28 26  'l':.     stem(&
2d60: 7a 2c 20 22 69 6c 62 22 2c 20 22 62 6c 65 22 2c  z, "ilb", "ble",
2d70: 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a 20 20 20 20   m_gt_0) ||.    
2d80: 20 73 74 65 6d 28 26 7a 2c 20 22 69 6c 6c 61 22   stem(&z, "illa"
2d90: 2c 20 22 61 6c 22 2c 20 6d 5f 67 74 5f 30 29 20  , "al", m_gt_0) 
2da0: 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c  ||.     stem(&z,
2db0: 20 22 69 6c 74 6e 65 22 2c 20 22 65 6e 74 22 2c   "iltne", "ent",
2dc0: 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a 20 20 20 20   m_gt_0) ||.    
2dd0: 20 73 74 65 6d 28 26 7a 2c 20 22 69 6c 65 22 2c   stem(&z, "ile",
2de0: 20 22 65 22 2c 20 6d 5f 67 74 5f 30 29 20 7c 7c   "e", m_gt_0) ||
2df0: 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22  .     stem(&z, "
2e00: 69 6c 73 75 6f 22 2c 20 22 6f 75 73 22 2c 20 6d  ilsuo", "ous", m
2e10: 5f 67 74 5f 30 29 3b 0a 20 20 20 20 20 62 72 65  _gt_0);.     bre
2e20: 61 6b 3b 0a 20 20 20 63 61 73 65 20 27 6f 27 3a  ak;.   case 'o':
2e30: 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22  .     stem(&z, "
2e40: 6e 6f 69 74 61 7a 69 22 2c 20 22 69 7a 65 22 2c  noitazi", "ize",
2e50: 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a 20 20 20 20   m_gt_0) ||.    
2e60: 20 73 74 65 6d 28 26 7a 2c 20 22 6e 6f 69 74 61   stem(&z, "noita
2e70: 22 2c 20 22 61 74 65 22 2c 20 6d 5f 67 74 5f 30  ", "ate", m_gt_0
2e80: 29 20 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28 26  ) ||.     stem(&
2e90: 7a 2c 20 22 72 6f 74 61 22 2c 20 22 61 74 65 22  z, "rota", "ate"
2ea0: 2c 20 6d 5f 67 74 5f 30 29 3b 0a 20 20 20 20 20  , m_gt_0);.     
2eb0: 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65 20 27  break;.   case '
2ec0: 73 27 3a 0a 20 20 20 20 20 73 74 65 6d 28 26 7a  s':.     stem(&z
2ed0: 2c 20 22 6d 73 69 6c 61 22 2c 20 22 61 6c 22 2c  , "msila", "al",
2ee0: 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a 20 20 20 20   m_gt_0) ||.    
2ef0: 20 73 74 65 6d 28 26 7a 2c 20 22 73 73 65 6e 65   stem(&z, "ssene
2f00: 76 69 22 2c 20 22 69 76 65 22 2c 20 6d 5f 67 74  vi", "ive", m_gt
2f10: 5f 30 29 20 7c 7c 0a 20 20 20 20 20 73 74 65 6d  _0) ||.     stem
2f20: 28 26 7a 2c 20 22 73 73 65 6e 6c 75 66 22 2c 20  (&z, "ssenluf", 
2f30: 22 66 75 6c 22 2c 20 6d 5f 67 74 5f 30 29 20 7c  "ful", m_gt_0) |
2f40: 7c 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20  |.     stem(&z, 
2f50: 22 73 73 65 6e 73 75 6f 22 2c 20 22 6f 75 73 22  "ssensuo", "ous"
2f60: 2c 20 6d 5f 67 74 5f 30 29 3b 0a 20 20 20 20 20  , m_gt_0);.     
2f70: 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65 20 27  break;.   case '
2f80: 74 27 3a 0a 20 20 20 20 20 73 74 65 6d 28 26 7a  t':.     stem(&z
2f90: 2c 20 22 69 74 69 6c 61 22 2c 20 22 61 6c 22 2c  , "itila", "al",
2fa0: 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a 20 20 20 20   m_gt_0) ||.    
2fb0: 20 73 74 65 6d 28 26 7a 2c 20 22 69 74 69 76 69   stem(&z, "itivi
2fc0: 22 2c 20 22 69 76 65 22 2c 20 6d 5f 67 74 5f 30  ", "ive", m_gt_0
2fd0: 29 20 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28 26  ) ||.     stem(&
2fe0: 7a 2c 20 22 69 74 69 6c 69 62 22 2c 20 22 62 6c  z, "itilib", "bl
2ff0: 65 22 2c 20 6d 5f 67 74 5f 30 29 3b 0a 20 20 20  e", m_gt_0);.   
3000: 20 20 62 72 65 61 6b 3b 0a 20 20 7d 0a 0a 20 20    break;.  }..  
3010: 2f 2a 20 53 74 65 70 20 33 20 2a 2f 0a 20 20 73  /* Step 3 */.  s
3020: 77 69 74 63 68 28 20 7a 5b 30 5d 20 29 7b 0a 20  witch( z[0] ){. 
3030: 20 20 63 61 73 65 20 27 65 27 3a 0a 20 20 20 20    case 'e':.    
3040: 20 73 74 65 6d 28 26 7a 2c 20 22 65 74 61 63 69   stem(&z, "etaci
3050: 22 2c 20 22 69 63 22 2c 20 6d 5f 67 74 5f 30 29  ", "ic", m_gt_0)
3060: 20 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28 26 7a   ||.     stem(&z
3070: 2c 20 22 65 76 69 74 61 22 2c 20 22 22 2c 20 6d  , "evita", "", m
3080: 5f 67 74 5f 30 29 20 20 20 7c 7c 0a 20 20 20 20  _gt_0)   ||.    
3090: 20 73 74 65 6d 28 26 7a 2c 20 22 65 7a 69 6c 61   stem(&z, "ezila
30a0: 22 2c 20 22 61 6c 22 2c 20 6d 5f 67 74 5f 30 29  ", "al", m_gt_0)
30b0: 3b 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20  ;.     break;.  
30c0: 20 63 61 73 65 20 27 69 27 3a 0a 20 20 20 20 20   case 'i':.     
30d0: 73 74 65 6d 28 26 7a 2c 20 22 69 74 69 63 69 22  stem(&z, "itici"
30e0: 2c 20 22 69 63 22 2c 20 6d 5f 67 74 5f 30 29 3b  , "ic", m_gt_0);
30f0: 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20  .     break;.   
3100: 63 61 73 65 20 27 6c 27 3a 0a 20 20 20 20 20 73  case 'l':.     s
3110: 74 65 6d 28 26 7a 2c 20 22 6c 61 63 69 22 2c 20  tem(&z, "laci", 
3120: 22 69 63 22 2c 20 6d 5f 67 74 5f 30 29 20 7c 7c  "ic", m_gt_0) ||
3130: 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22  .     stem(&z, "
3140: 6c 75 66 22 2c 20 22 22 2c 20 6d 5f 67 74 5f 30  luf", "", m_gt_0
3150: 29 3b 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20  );.     break;. 
3160: 20 20 63 61 73 65 20 27 73 27 3a 0a 20 20 20 20    case 's':.    
3170: 20 73 74 65 6d 28 26 7a 2c 20 22 73 73 65 6e 22   stem(&z, "ssen"
3180: 2c 20 22 22 2c 20 6d 5f 67 74 5f 30 29 3b 0a 20  , "", m_gt_0);. 
3190: 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 7d 0a 0a      break;.  }..
31a0: 20 20 2f 2a 20 53 74 65 70 20 34 20 2a 2f 0a 20    /* Step 4 */. 
31b0: 20 73 77 69 74 63 68 28 20 7a 5b 31 5d 20 29 7b   switch( z[1] ){
31c0: 0a 20 20 20 63 61 73 65 20 27 61 27 3a 0a 20 20  .   case 'a':.  
31d0: 20 20 20 69 66 28 20 7a 5b 30 5d 3d 3d 27 6c 27     if( z[0]=='l'
31e0: 20 26 26 20 6d 5f 67 74 5f 31 28 7a 2b 32 29 20   && m_gt_1(z+2) 
31f0: 29 7b 0a 20 20 20 20 20 20 20 7a 20 2b 3d 20 32  ){.       z += 2
3200: 3b 0a 20 20 20 20 20 7d 0a 20 20 20 20 20 62 72  ;.     }.     br
3210: 65 61 6b 3b 0a 20 20 20 63 61 73 65 20 27 63 27  eak;.   case 'c'
3220: 3a 0a 20 20 20 20 20 69 66 28 20 7a 5b 30 5d 3d  :.     if( z[0]=
3230: 3d 27 65 27 20 26 26 20 7a 5b 32 5d 3d 3d 27 6e  ='e' && z[2]=='n
3240: 27 20 26 26 20 28 7a 5b 33 5d 3d 3d 27 61 27 20  ' && (z[3]=='a' 
3250: 7c 7c 20 7a 5b 33 5d 3d 3d 27 65 27 29 20 20 26  || z[3]=='e')  &
3260: 26 20 6d 5f 67 74 5f 31 28 7a 2b 34 29 20 20 29  & m_gt_1(z+4)  )
3270: 7b 0a 20 20 20 20 20 20 20 7a 20 2b 3d 20 34 3b  {.       z += 4;
3280: 0a 20 20 20 20 20 7d 0a 20 20 20 20 20 62 72 65  .     }.     bre
3290: 61 6b 3b 0a 20 20 20 63 61 73 65 20 27 65 27 3a  ak;.   case 'e':
32a0: 0a 20 20 20 20 20 69 66 28 20 7a 5b 30 5d 3d 3d  .     if( z[0]==
32b0: 27 72 27 20 26 26 20 6d 5f 67 74 5f 31 28 7a 2b  'r' && m_gt_1(z+
32c0: 32 29 20 29 7b 0a 20 20 20 20 20 20 20 7a 20 2b  2) ){.       z +
32d0: 3d 20 32 3b 0a 20 20 20 20 20 7d 0a 20 20 20 20  = 2;.     }.    
32e0: 20 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65 20   break;.   case 
32f0: 27 69 27 3a 0a 20 20 20 20 20 69 66 28 20 7a 5b  'i':.     if( z[
3300: 30 5d 3d 3d 27 63 27 20 26 26 20 6d 5f 67 74 5f  0]=='c' && m_gt_
3310: 31 28 7a 2b 32 29 20 29 7b 0a 20 20 20 20 20 20  1(z+2) ){.      
3320: 20 7a 20 2b 3d 20 32 3b 0a 20 20 20 20 20 7d 0a   z += 2;.     }.
3330: 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20 63       break;.   c
3340: 61 73 65 20 27 6c 27 3a 0a 20 20 20 20 20 69 66  ase 'l':.     if
3350: 28 20 7a 5b 30 5d 3d 3d 27 65 27 20 26 26 20 7a  ( z[0]=='e' && z
3360: 5b 32 5d 3d 3d 27 62 27 20 26 26 20 28 7a 5b 33  [2]=='b' && (z[3
3370: 5d 3d 3d 27 61 27 20 7c 7c 20 7a 5b 33 5d 3d 3d  ]=='a' || z[3]==
3380: 27 69 27 29 20 26 26 20 6d 5f 67 74 5f 31 28 7a  'i') && m_gt_1(z
3390: 2b 34 29 20 29 7b 0a 20 20 20 20 20 20 20 7a 20  +4) ){.       z 
33a0: 2b 3d 20 34 3b 0a 20 20 20 20 20 7d 0a 20 20 20  += 4;.     }.   
33b0: 20 20 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65    break;.   case
33c0: 20 27 6e 27 3a 0a 20 20 20 20 20 69 66 28 20 7a   'n':.     if( z
33d0: 5b 30 5d 3d 3d 27 74 27 20 29 7b 0a 20 20 20 20  [0]=='t' ){.    
33e0: 20 20 20 69 66 28 20 7a 5b 32 5d 3d 3d 27 61 27     if( z[2]=='a'
33f0: 20 29 7b 0a 20 20 20 20 20 20 20 20 20 69 66 28   ){.         if(
3400: 20 6d 5f 67 74 5f 31 28 7a 2b 33 29 20 29 7b 0a   m_gt_1(z+3) ){.
3410: 20 20 20 20 20 20 20 20 20 20 20 7a 20 2b 3d 20             z += 
3420: 33 3b 0a 20 20 20 20 20 20 20 20 20 7d 0a 20 20  3;.         }.  
3430: 20 20 20 20 20 7d 65 6c 73 65 20 69 66 28 20 7a       }else if( z
3440: 5b 32 5d 3d 3d 27 65 27 20 29 7b 0a 20 20 20 20  [2]=='e' ){.    
3450: 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 74       stem(&z, "t
3460: 6e 65 6d 65 22 2c 20 22 22 2c 20 6d 5f 67 74 5f  neme", "", m_gt_
3470: 31 29 20 7c 7c 0a 20 20 20 20 20 20 20 20 20 73  1) ||.         s
3480: 74 65 6d 28 26 7a 2c 20 22 74 6e 65 6d 22 2c 20  tem(&z, "tnem", 
3490: 22 22 2c 20 6d 5f 67 74 5f 31 29 20 7c 7c 0a 20  "", m_gt_1) ||. 
34a0: 20 20 20 20 20 20 20 20 73 74 65 6d 28 26 7a 2c          stem(&z,
34b0: 20 22 74 6e 65 22 2c 20 22 22 2c 20 6d 5f 67 74   "tne", "", m_gt
34c0: 5f 31 29 3b 0a 20 20 20 20 20 20 20 7d 0a 20 20  _1);.       }.  
34d0: 20 20 20 7d 0a 20 20 20 20 20 62 72 65 61 6b 3b     }.     break;
34e0: 0a 20 20 20 63 61 73 65 20 27 6f 27 3a 0a 20 20  .   case 'o':.  
34f0: 20 20 20 69 66 28 20 7a 5b 30 5d 3d 3d 27 75 27     if( z[0]=='u'
3500: 20 29 7b 0a 20 20 20 20 20 20 20 69 66 28 20 6d   ){.       if( m
3510: 5f 67 74 5f 31 28 7a 2b 32 29 20 29 7b 0a 20 20  _gt_1(z+2) ){.  
3520: 20 20 20 20 20 20 20 7a 20 2b 3d 20 32 3b 0a 20         z += 2;. 
3530: 20 20 20 20 20 20 7d 0a 20 20 20 20 20 7d 65 6c        }.     }el
3540: 73 65 20 69 66 28 20 7a 5b 33 5d 3d 3d 27 73 27  se if( z[3]=='s'
3550: 20 7c 7c 20 7a 5b 33 5d 3d 3d 27 74 27 20 29 7b   || z[3]=='t' ){
3560: 0a 20 20 20 20 20 20 20 73 74 65 6d 28 26 7a 2c  .       stem(&z,
3570: 20 22 6e 6f 69 22 2c 20 22 22 2c 20 6d 5f 67 74   "noi", "", m_gt
3580: 5f 31 29 3b 0a 20 20 20 20 20 7d 0a 20 20 20 20  _1);.     }.    
3590: 20 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65 20   break;.   case 
35a0: 27 73 27 3a 0a 20 20 20 20 20 69 66 28 20 7a 5b  's':.     if( z[
35b0: 30 5d 3d 3d 27 6d 27 20 26 26 20 7a 5b 32 5d 3d  0]=='m' && z[2]=
35c0: 3d 27 69 27 20 26 26 20 6d 5f 67 74 5f 31 28 7a  ='i' && m_gt_1(z
35d0: 2b 33 29 20 29 7b 0a 20 20 20 20 20 20 20 7a 20  +3) ){.       z 
35e0: 2b 3d 20 33 3b 0a 20 20 20 20 20 7d 0a 20 20 20  += 3;.     }.   
35f0: 20 20 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65    break;.   case
3600: 20 27 74 27 3a 0a 20 20 20 20 20 73 74 65 6d 28   't':.     stem(
3610: 26 7a 2c 20 22 65 74 61 22 2c 20 22 22 2c 20 6d  &z, "eta", "", m
3620: 5f 67 74 5f 31 29 20 7c 7c 0a 20 20 20 20 20 73  _gt_1) ||.     s
3630: 74 65 6d 28 26 7a 2c 20 22 69 74 69 22 2c 20 22  tem(&z, "iti", "
3640: 22 2c 20 6d 5f 67 74 5f 31 29 3b 0a 20 20 20 20  ", m_gt_1);.    
3650: 20 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65 20   break;.   case 
3660: 27 75 27 3a 0a 20 20 20 20 20 69 66 28 20 7a 5b  'u':.     if( z[
3670: 30 5d 3d 3d 27 73 27 20 26 26 20 7a 5b 32 5d 3d  0]=='s' && z[2]=
3680: 3d 27 6f 27 20 26 26 20 6d 5f 67 74 5f 31 28 7a  ='o' && m_gt_1(z
3690: 2b 33 29 20 29 7b 0a 20 20 20 20 20 20 20 7a 20  +3) ){.       z 
36a0: 2b 3d 20 33 3b 0a 20 20 20 20 20 7d 0a 20 20 20  += 3;.     }.   
36b0: 20 20 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65    break;.   case
36c0: 20 27 76 27 3a 0a 20 20 20 63 61 73 65 20 27 7a   'v':.   case 'z
36d0: 27 3a 0a 20 20 20 20 20 69 66 28 20 7a 5b 30 5d  ':.     if( z[0]
36e0: 3d 3d 27 65 27 20 26 26 20 7a 5b 32 5d 3d 3d 27  =='e' && z[2]=='
36f0: 69 27 20 26 26 20 6d 5f 67 74 5f 31 28 7a 2b 33  i' && m_gt_1(z+3
3700: 29 20 29 7b 0a 20 20 20 20 20 20 20 7a 20 2b 3d  ) ){.       z +=
3710: 20 33 3b 0a 20 20 20 20 20 7d 0a 20 20 20 20 20   3;.     }.     
3720: 62 72 65 61 6b 3b 0a 20 20 7d 0a 0a 20 20 2f 2a  break;.  }..  /*
3730: 20 53 74 65 70 20 35 61 20 2a 2f 0a 20 20 69 66   Step 5a */.  if
3740: 28 20 7a 5b 30 5d 3d 3d 27 65 27 20 29 7b 0a 20  ( z[0]=='e' ){. 
3750: 20 20 20 69 66 28 20 6d 5f 67 74 5f 31 28 7a 2b     if( m_gt_1(z+
3760: 31 29 20 29 7b 0a 20 20 20 20 20 20 7a 2b 2b 3b  1) ){.      z++;
3770: 0a 20 20 20 20 7d 65 6c 73 65 20 69 66 28 20 6d  .    }else if( m
3780: 5f 65 71 5f 31 28 7a 2b 31 29 20 26 26 20 21 73  _eq_1(z+1) && !s
3790: 74 61 72 5f 6f 68 28 7a 2b 31 29 20 29 7b 0a 20  tar_oh(z+1) ){. 
37a0: 20 20 20 20 20 7a 2b 2b 3b 0a 20 20 20 20 7d 0a       z++;.    }.
37b0: 20 20 7d 0a 0a 20 20 2f 2a 20 53 74 65 70 20 35    }..  /* Step 5
37c0: 62 20 2a 2f 0a 20 20 69 66 28 20 6d 5f 67 74 5f  b */.  if( m_gt_
37d0: 31 28 7a 29 20 26 26 20 7a 5b 30 5d 3d 3d 27 6c  1(z) && z[0]=='l
37e0: 27 20 26 26 20 7a 5b 31 5d 3d 3d 27 6c 27 20 29  ' && z[1]=='l' )
37f0: 7b 0a 20 20 20 20 7a 2b 2b 3b 0a 20 20 7d 0a 0a  {.    z++;.  }..
3800: 20 20 2f 2a 20 7a 5b 5d 20 69 73 20 6e 6f 77 20    /* z[] is now 
3810: 74 68 65 20 73 74 65 6d 6d 65 64 20 77 6f 72 64  the stemmed word
3820: 20 69 6e 20 72 65 76 65 72 73 65 20 6f 72 64 65   in reverse orde
3830: 72 2e 20 20 46 6c 69 70 20 69 74 20 62 61 63 6b  r.  Flip it back
3840: 0a 20 20 2a 2a 20 61 72 6f 75 6e 64 20 69 6e 74  .  ** around int
3850: 6f 20 66 6f 72 77 61 72 64 20 6f 72 64 65 72 20  o forward order 
3860: 61 6e 64 20 72 65 74 75 72 6e 2e 0a 20 20 2a 2f  and return..  */
3870: 0a 20 20 2a 70 6e 4f 75 74 20 3d 20 69 20 3d 20  .  *pnOut = i = 
3880: 73 74 72 6c 65 6e 28 7a 29 3b 0a 20 20 7a 4f 75  strlen(z);.  zOu
3890: 74 5b 69 5d 20 3d 20 30 3b 0a 20 20 77 68 69 6c  t[i] = 0;.  whil
38a0: 65 28 20 2a 7a 20 29 7b 0a 20 20 20 20 7a 4f 75  e( *z ){.    zOu
38b0: 74 5b 2d 2d 69 5d 20 3d 20 2a 28 7a 2b 2b 29 3b  t[--i] = *(z++);
38c0: 0a 20 20 7d 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 43 68  .  }.}../*.** Ch
38d0: 61 72 61 63 74 65 72 73 20 74 68 61 74 20 63 61  aracters that ca
38e0: 6e 20 62 65 20 70 61 72 74 20 6f 66 20 61 20 74  n be part of a t
38f0: 6f 6b 65 6e 2e 20 20 57 65 20 61 73 73 75 6d 65  oken.  We assume
3900: 20 61 6e 79 20 63 68 61 72 61 63 74 65 72 0a 2a   any character.*
3910: 2a 20 77 68 6f 73 65 20 76 61 6c 75 65 20 69 73  * whose value is
3920: 20 67 72 65 61 74 65 72 20 74 68 61 6e 20 30 78   greater than 0x
3930: 38 30 20 28 61 6e 79 20 55 54 46 20 63 68 61 72  80 (any UTF char
3940: 61 63 74 65 72 29 20 63 61 6e 20 62 65 0a 2a 2a  acter) can be.**
3950: 20 70 61 72 74 20 6f 66 20 61 20 74 6f 6b 65 6e   part of a token
3960: 2e 20 20 49 6e 20 6f 74 68 65 72 20 77 6f 72 64  .  In other word
3970: 73 2c 20 64 65 6c 69 6d 69 74 65 72 73 20 61 6c  s, delimiters al
3980: 6c 20 6d 75 73 74 20 68 61 76 65 0a 2a 2a 20 76  l must have.** v
3990: 61 6c 75 65 73 20 6f 66 20 30 78 37 66 20 6f 72  alues of 0x7f or
39a0: 20 6c 6f 77 65 72 2e 0a 2a 2f 0a 73 74 61 74 69   lower..*/.stati
39b0: 63 20 63 6f 6e 73 74 20 63 68 61 72 20 69 73 49  c const char isI
39c0: 64 43 68 61 72 5b 5d 20 3d 20 7b 0a 2f 2a 20 78  dChar[] = {./* x
39d0: 30 20 78 31 20 78 32 20 78 33 20 78 34 20 78 35  0 x1 x2 x3 x4 x5
39e0: 20 78 36 20 78 37 20 78 38 20 78 39 20 78 41 20   x6 x7 x8 x9 xA 
39f0: 78 42 20 78 43 20 78 44 20 78 45 20 78 46 20 2a  xB xC xD xE xF *
3a00: 2f 0a 20 20 20 20 31 2c 20 31 2c 20 31 2c 20 31  /.    1, 1, 1, 1
3a10: 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c  , 1, 1, 1, 1, 1,
3a20: 20 31 2c 20 30 2c 20 30 2c 20 30 2c 20 30 2c 20   1, 0, 0, 0, 0, 
3a30: 30 2c 20 30 2c 20 20 2f 2a 20 33 78 20 2a 2f 0a  0, 0,  /* 3x */.
3a40: 20 20 20 20 30 2c 20 31 2c 20 31 2c 20 31 2c 20      0, 1, 1, 1, 
3a50: 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31  1, 1, 1, 1, 1, 1
3a60: 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c  , 1, 1, 1, 1, 1,
3a70: 20 31 2c 20 20 2f 2a 20 34 78 20 2a 2f 0a 20 20   1,  /* 4x */.  
3a80: 20 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c    1, 1, 1, 1, 1,
3a90: 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20   1, 1, 1, 1, 1, 
3aa0: 31 2c 20 30 2c 20 30 2c 20 30 2c 20 30 2c 20 31  1, 0, 0, 0, 0, 1
3ab0: 2c 20 20 2f 2a 20 35 78 20 2a 2f 0a 20 20 20 20  ,  /* 5x */.    
3ac0: 30 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31  0, 1, 1, 1, 1, 1
3ad0: 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c  , 1, 1, 1, 1, 1,
3ae0: 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20   1, 1, 1, 1, 1, 
3af0: 20 2f 2a 20 36 78 20 2a 2f 0a 20 20 20 20 31 2c   /* 6x */.    1,
3b00: 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20   1, 1, 1, 1, 1, 
3b10: 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 30  1, 1, 1, 1, 1, 0
3b20: 2c 20 30 2c 20 30 2c 20 30 2c 20 30 2c 20 20 2f  , 0, 0, 0, 0,  /
3b30: 2a 20 37 78 20 2a 2f 0a 7d 3b 0a 23 64 65 66 69  * 7x */.};.#defi
3b40: 6e 65 20 69 64 43 68 61 72 28 43 29 20 20 28 28  ne idChar(C)  ((
3b50: 28 63 68 3d 43 29 26 30 78 38 30 29 21 3d 30 20  (ch=C)&0x80)!=0 
3b60: 7c 7c 20 28 63 68 3e 30 78 32 66 20 26 26 20 69  || (ch>0x2f && i
3b70: 73 49 64 43 68 61 72 5b 63 68 2d 30 78 33 30 5d  sIdChar[ch-0x30]
3b80: 29 29 0a 23 64 65 66 69 6e 65 20 69 73 44 65 6c  )).#define isDel
3b90: 69 6d 28 43 29 20 28 28 28 63 68 3d 43 29 26 30  im(C) (((ch=C)&0
3ba0: 78 38 30 29 3d 3d 30 20 26 26 20 28 63 68 3c 30  x80)==0 && (ch<0
3bb0: 78 33 30 20 7c 7c 20 21 69 73 49 64 43 68 61 72  x30 || !isIdChar
3bc0: 5b 63 68 2d 30 78 33 30 5d 29 29 0a 0a 2f 2a 0a  [ch-0x30]))../*.
3bd0: 2a 2a 20 45 78 74 72 61 63 74 20 74 68 65 20 6e  ** Extract the n
3be0: 65 78 74 20 74 6f 6b 65 6e 20 66 72 6f 6d 20 61  ext token from a
3bf0: 20 74 6f 6b 65 6e 69 7a 61 74 69 6f 6e 20 63 75   tokenization cu
3c00: 72 73 6f 72 2e 20 20 54 68 65 20 63 75 72 73 6f  rsor.  The curso
3c10: 72 20 6d 75 73 74 0a 2a 2a 20 68 61 76 65 20 62  r must.** have b
3c20: 65 65 6e 20 6f 70 65 6e 65 64 20 62 79 20 61 20  een opened by a 
3c30: 70 72 69 6f 72 20 63 61 6c 6c 20 74 6f 20 70 6f  prior call to po
3c40: 72 74 65 72 4f 70 65 6e 28 29 2e 0a 2a 2f 0a 73  rterOpen()..*/.s
3c50: 74 61 74 69 63 20 69 6e 74 20 70 6f 72 74 65 72  tatic int porter
3c60: 4e 65 78 74 28 0a 20 20 73 71 6c 69 74 65 33 5f  Next(.  sqlite3_
3c70: 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72  tokenizer_cursor
3c80: 20 2a 70 43 75 72 73 6f 72 2c 20 20 2f 2a 20 43   *pCursor,  /* C
3c90: 75 72 73 6f 72 20 72 65 74 75 72 6e 65 64 20 62  ursor returned b
3ca0: 79 20 70 6f 72 74 65 72 4f 70 65 6e 20 2a 2f 0a  y porterOpen */.
3cb0: 20 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 2a 70    const char **p
3cc0: 7a 54 6f 6b 65 6e 2c 20 20 20 20 20 20 20 20 20  zToken,         
3cd0: 20 20 20 20 20 20 2f 2a 20 4f 55 54 3a 20 2a 70        /* OUT: *p
3ce0: 7a 54 6f 6b 65 6e 20 69 73 20 74 68 65 20 74 6f  zToken is the to
3cf0: 6b 65 6e 20 74 65 78 74 20 2a 2f 0a 20 20 69 6e  ken text */.  in
3d00: 74 20 2a 70 6e 42 79 74 65 73 2c 20 20 20 20 20  t *pnBytes,     
3d10: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
3d20: 20 20 2f 2a 20 4f 55 54 3a 20 4e 75 6d 62 65 72    /* OUT: Number
3d30: 20 6f 66 20 62 79 74 65 73 20 69 6e 20 74 6f 6b   of bytes in tok
3d40: 65 6e 20 2a 2f 0a 20 20 69 6e 74 20 2a 70 69 53  en */.  int *piS
3d50: 74 61 72 74 4f 66 66 73 65 74 2c 20 20 20 20 20  tartOffset,     
3d60: 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 4f              /* O
3d70: 55 54 3a 20 53 74 61 72 74 69 6e 67 20 6f 66 66  UT: Starting off
3d80: 73 65 74 20 6f 66 20 74 6f 6b 65 6e 20 2a 2f 0a  set of token */.
3d90: 20 20 69 6e 74 20 2a 70 69 45 6e 64 4f 66 66 73    int *piEndOffs
3da0: 65 74 2c 20 20 20 20 20 20 20 20 20 20 20 20 20  et,             
3db0: 20 20 20 20 20 20 2f 2a 20 4f 55 54 3a 20 45 6e        /* OUT: En
3dc0: 64 69 6e 67 20 6f 66 66 73 65 74 20 6f 66 20 74  ding offset of t
3dd0: 6f 6b 65 6e 20 2a 2f 0a 20 20 69 6e 74 20 2a 70  oken */.  int *p
3de0: 69 50 6f 73 69 74 69 6f 6e 20 20 20 20 20 20 20  iPosition       
3df0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a                /*
3e00: 20 4f 55 54 3a 20 50 6f 73 69 74 69 6f 6e 20 69   OUT: Position i
3e10: 6e 74 65 67 65 72 20 6f 66 20 74 6f 6b 65 6e 20  nteger of token 
3e20: 2a 2f 0a 29 7b 0a 20 20 70 6f 72 74 65 72 5f 74  */.){.  porter_t
3e30: 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20  okenizer_cursor 
3e40: 2a 63 20 3d 20 28 70 6f 72 74 65 72 5f 74 6f 6b  *c = (porter_tok
3e50: 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20 2a 29  enizer_cursor *)
3e60: 20 70 43 75 72 73 6f 72 3b 0a 20 20 63 6f 6e 73   pCursor;.  cons
3e70: 74 20 63 68 61 72 20 2a 7a 20 3d 20 63 2d 3e 7a  t char *z = c->z
3e80: 49 6e 70 75 74 3b 0a 0a 20 20 77 68 69 6c 65 28  Input;..  while(
3e90: 20 63 2d 3e 69 4f 66 66 73 65 74 3c 63 2d 3e 6e   c->iOffset<c->n
3ea0: 49 6e 70 75 74 20 29 7b 0a 20 20 20 20 69 6e 74  Input ){.    int
3eb0: 20 69 53 74 61 72 74 4f 66 66 73 65 74 2c 20 63   iStartOffset, c
3ec0: 68 3b 0a 0a 20 20 20 20 2f 2a 20 53 63 61 6e 20  h;..    /* Scan 
3ed0: 70 61 73 74 20 64 65 6c 69 6d 69 74 65 72 20 63  past delimiter c
3ee0: 68 61 72 61 63 74 65 72 73 20 2a 2f 0a 20 20 20  haracters */.   
3ef0: 20 77 68 69 6c 65 28 20 63 2d 3e 69 4f 66 66 73   while( c->iOffs
3f00: 65 74 3c 63 2d 3e 6e 49 6e 70 75 74 20 26 26 20  et<c->nInput && 
3f10: 69 73 44 65 6c 69 6d 28 7a 5b 63 2d 3e 69 4f 66  isDelim(z[c->iOf
3f20: 66 73 65 74 5d 29 20 29 7b 0a 20 20 20 20 20 20  fset]) ){.      
3f30: 63 2d 3e 69 4f 66 66 73 65 74 2b 2b 3b 0a 20 20  c->iOffset++;.  
3f40: 20 20 7d 0a 0a 20 20 20 20 2f 2a 20 43 6f 75 6e    }..    /* Coun
3f50: 74 20 6e 6f 6e 2d 64 65 6c 69 6d 69 74 65 72 20  t non-delimiter 
3f60: 63 68 61 72 61 63 74 65 72 73 2e 20 2a 2f 0a 20  characters. */. 
3f70: 20 20 20 69 53 74 61 72 74 4f 66 66 73 65 74 20     iStartOffset 
3f80: 3d 20 63 2d 3e 69 4f 66 66 73 65 74 3b 0a 20 20  = c->iOffset;.  
3f90: 20 20 77 68 69 6c 65 28 20 63 2d 3e 69 4f 66 66    while( c->iOff
3fa0: 73 65 74 3c 63 2d 3e 6e 49 6e 70 75 74 20 26 26  set<c->nInput &&
3fb0: 20 21 69 73 44 65 6c 69 6d 28 7a 5b 63 2d 3e 69   !isDelim(z[c->i
3fc0: 4f 66 66 73 65 74 5d 29 20 29 7b 0a 20 20 20 20  Offset]) ){.    
3fd0: 20 20 63 2d 3e 69 4f 66 66 73 65 74 2b 2b 3b 0a    c->iOffset++;.
3fe0: 20 20 20 20 7d 0a 0a 20 20 20 20 69 66 28 20 63      }..    if( c
3ff0: 2d 3e 69 4f 66 66 73 65 74 3e 69 53 74 61 72 74  ->iOffset>iStart
4000: 4f 66 66 73 65 74 20 29 7b 0a 20 20 20 20 20 20  Offset ){.      
4010: 69 6e 74 20 6e 20 3d 20 63 2d 3e 69 4f 66 66 73  int n = c->iOffs
4020: 65 74 2d 69 53 74 61 72 74 4f 66 66 73 65 74 3b  et-iStartOffset;
4030: 0a 20 20 20 20 20 20 69 66 28 20 6e 3e 63 2d 3e  .      if( n>c->
4040: 6e 41 6c 6c 6f 63 61 74 65 64 20 29 7b 0a 20 20  nAllocated ){.  
4050: 20 20 20 20 20 20 63 2d 3e 6e 41 6c 6c 6f 63 61        c->nAlloca
4060: 74 65 64 20 3d 20 6e 2b 32 30 3b 0a 20 20 20 20  ted = n+20;.    
4070: 20 20 20 20 63 2d 3e 7a 54 6f 6b 65 6e 20 3d 20      c->zToken = 
4080: 72 65 61 6c 6c 6f 63 28 63 2d 3e 7a 54 6f 6b 65  realloc(c->zToke
4090: 6e 2c 20 63 2d 3e 6e 41 6c 6c 6f 63 61 74 65 64  n, c->nAllocated
40a0: 29 3b 0a 20 20 20 20 20 20 20 20 69 66 28 20 63  );.        if( c
40b0: 2d 3e 7a 54 6f 6b 65 6e 3d 3d 4e 55 4c 4c 20 29  ->zToken==NULL )
40c0: 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f 4e   return SQLITE_N
40d0: 4f 4d 45 4d 3b 0a 20 20 20 20 20 20 7d 0a 20 20  OMEM;.      }.  
40e0: 20 20 20 20 70 6f 72 74 65 72 5f 73 74 65 6d 6d      porter_stemm
40f0: 65 72 28 26 7a 5b 69 53 74 61 72 74 4f 66 66 73  er(&z[iStartOffs
4100: 65 74 5d 2c 20 6e 2c 20 63 2d 3e 7a 54 6f 6b 65  et], n, c->zToke
4110: 6e 2c 20 70 6e 42 79 74 65 73 29 3b 0a 20 20 20  n, pnBytes);.   
4120: 20 20 20 2a 70 7a 54 6f 6b 65 6e 20 3d 20 63 2d     *pzToken = c-
4130: 3e 7a 54 6f 6b 65 6e 3b 0a 20 20 20 20 20 20 2a  >zToken;.      *
4140: 70 69 53 74 61 72 74 4f 66 66 73 65 74 20 3d 20  piStartOffset = 
4150: 69 53 74 61 72 74 4f 66 66 73 65 74 3b 0a 20 20  iStartOffset;.  
4160: 20 20 20 20 2a 70 69 45 6e 64 4f 66 66 73 65 74      *piEndOffset
4170: 20 3d 20 63 2d 3e 69 4f 66 66 73 65 74 3b 0a 20   = c->iOffset;. 
4180: 20 20 20 20 20 2a 70 69 50 6f 73 69 74 69 6f 6e       *piPosition
4190: 20 3d 20 63 2d 3e 69 54 6f 6b 65 6e 2b 2b 3b 0a   = c->iToken++;.
41a0: 20 20 20 20 20 20 72 65 74 75 72 6e 20 53 51 4c        return SQL
41b0: 49 54 45 5f 4f 4b 3b 0a 20 20 20 20 7d 0a 20 20  ITE_OK;.    }.  
41c0: 7d 0a 20 20 72 65 74 75 72 6e 20 53 51 4c 49 54  }.  return SQLIT
41d0: 45 5f 44 4f 4e 45 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a  E_DONE;.}../*.**
41e0: 20 54 68 65 20 73 65 74 20 6f 66 20 72 6f 75 74   The set of rout
41f0: 69 6e 65 73 20 74 68 61 74 20 69 6d 70 6c 65 6d  ines that implem
4200: 65 6e 74 20 74 68 65 20 70 6f 72 74 65 72 2d 73  ent the porter-s
4210: 74 65 6d 6d 65 72 20 74 6f 6b 65 6e 69 7a 65 72  temmer tokenizer
4220: 0a 2a 2f 0a 73 74 61 74 69 63 20 63 6f 6e 73 74  .*/.static const
4230: 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a   sqlite3_tokeniz
4240: 65 72 5f 6d 6f 64 75 6c 65 20 70 6f 72 74 65 72  er_module porter
4250: 54 6f 6b 65 6e 69 7a 65 72 4d 6f 64 75 6c 65 20  TokenizerModule 
4260: 3d 20 7b 0a 20 20 30 2c 0a 20 20 70 6f 72 74 65  = {.  0,.  porte
4270: 72 43 72 65 61 74 65 2c 0a 20 20 70 6f 72 74 65  rCreate,.  porte
4280: 72 44 65 73 74 72 6f 79 2c 0a 20 20 70 6f 72 74  rDestroy,.  port
4290: 65 72 4f 70 65 6e 2c 0a 20 20 70 6f 72 74 65 72  erOpen,.  porter
42a0: 43 6c 6f 73 65 2c 0a 20 20 70 6f 72 74 65 72 4e  Close,.  porterN
42b0: 65 78 74 2c 0a 7d 3b 0a 0a 2f 2a 0a 2a 2a 20 41  ext,.};../*.** A
42c0: 6c 6c 6f 63 61 74 65 20 61 20 6e 65 77 20 70 6f  llocate a new po
42d0: 72 74 65 72 20 74 6f 6b 65 6e 69 7a 65 72 2e 20  rter tokenizer. 
42e0: 20 52 65 74 75 72 6e 20 61 20 70 6f 69 6e 74 65   Return a pointe
42f0: 72 20 74 6f 20 74 68 65 20 6e 65 77 0a 2a 2a 20  r to the new.** 
4300: 74 6f 6b 65 6e 69 7a 65 72 20 69 6e 20 2a 70 70  tokenizer in *pp
4310: 4d 6f 64 75 6c 65 0a 2a 2f 0a 76 6f 69 64 20 73  Module.*/.void s
4320: 71 6c 69 74 65 33 46 74 73 32 50 6f 72 74 65 72  qlite3Fts2Porter
4330: 54 6f 6b 65 6e 69 7a 65 72 4d 6f 64 75 6c 65 28  TokenizerModule(
4340: 0a 20 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e  .  sqlite3_token
4350: 69 7a 65 72 5f 6d 6f 64 75 6c 65 20 63 6f 6e 73  izer_module cons
4360: 74 2a 2a 70 70 4d 6f 64 75 6c 65 0a 29 7b 0a 20  t**ppModule.){. 
4370: 20 2a 70 70 4d 6f 64 75 6c 65 20 3d 20 26 70 6f   *ppModule = &po
4380: 72 74 65 72 54 6f 6b 65 6e 69 7a 65 72 4d 6f 64  rterTokenizerMod
4390: 75 6c 65 3b 0a 7d 0a 0a 23 65 6e 64 69 66 20 2f  ule;.}..#endif /
43a0: 2a 20 21 64 65 66 69 6e 65 64 28 53 51 4c 49 54  * !defined(SQLIT
43b0: 45 5f 43 4f 52 45 29 20 7c 7c 20 64 65 66 69 6e  E_CORE) || defin
43c0: 65 64 28 53 51 4c 49 54 45 5f 45 4e 41 42 4c 45  ed(SQLITE_ENABLE
43d0: 5f 46 54 53 32 29 20 2a 2f 0a                    _FTS2) */.